メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

国会図書館デジタル化資料(近代デジタルライブラリ)のpdfに目次

(11/20 仕様かえたので新しく項目立てた → 2012/11/20

国会図書館デジタル化資料(近代デジタルライブラリ)から落したpdfに目次をつけるスクリプト
http://inudaisho.sakura.ne.jp/scripts/addOutlineToNdlPdf.py
(6/25追記 rubyprawn版もつくってみたけど重いので公開しない)
(11/19追記 pdfrwだけでも十分になったのでpyPdfを使わないようにした)
つかいかた

  1. なんらかの手段でサイトからpdfを全部落とす。
  2. なんらかの手段でpdfを全部結合する。
  3. python addOutlineToNdlPdf.py 123456 目次をつけたいPDF

http://dl.ndl.go.jp/info:ndljp/pid/1079302 の場合

こんなかんじ。
注意
前はもとのファイルを残していたが今度は新しいファイルをつくらず元のファイルに書きこむようにした。
全部そろっていないと目次はつけれない。

必要なライブラリ

ubuntu12.10の場合 python-reportlab python-pdfrw をapt-get install したらok





いやぁこれは便利やわ
国会図書館様長尾総長様ありがとう