(11/20 仕様かえたので新しく項目立てた → 2012/11/20
国会図書館デジタル化資料(近代デジタルライブラリ)から落したpdfに目次をつけるスクリプト。
http://inudaisho.sakura.ne.jp/scripts/addOutlineToNdlPdf.py
(6/25追記 rubyのprawn版もつくってみたけど重いので公開しない)
(11/19追記 pdfrwだけでも十分になったのでpyPdfを使わないようにした)
つかいかた
- なんらかの手段でサイトからpdfを全部落とす。
- なんらかの手段でpdfを全部結合する。
- python addOutlineToNdlPdf.py 123456 目次をつけたいPDF
- たとえば http://kindai.ndl.go.jp/info:ndljp/pid/972139 覆面浪人『馬賊を夢みて』だと 972139 を引数として与える。
http://dl.ndl.go.jp/info:ndljp/pid/1079302 の場合
こんなかんじ。
注意
前はもとのファイルを残していたが今度は新しいファイルをつくらず元のファイルに書きこむようにした。
全部そろっていないと目次はつけれない。
必要なライブラリ
- pdfrw http://code.google.com/p/pdfrw/ download
- 解凍して中にあるsetup.pyをpythonで実行したら適当にインストールしてくれるみたい
- reportlab http://www.reportlab.com/software/opensource/ download
ubuntu12.10の場合 python-reportlab python-pdfrw をapt-get install したらok
いやぁこれは便利やわ
国会図書館様長尾総長様ありがとう