国会図書館デジタル化資料(近代デジタルライブラリ)から落したpdfを結合して目次もつけてくれるスクリプト。
http://inudaisho.sakura.ne.jp/scripts/addOutlineToNdlPdf.py (2012/11/22 修正)
(国会図書館デジタル化資料(近代デジタルライブラリ)のpdfに目次 - メモ@inudaisho (2012/6/23)を改めました)
つかいかた
- なんらかの手段でサイトからpdfを全部落とす。順番をつけとくと吉。(ダウンローダは提供しません)
- python addOutlineToNdlPdf.py 123456 目次をつけたいPDF(複数可)
- たとえば http://kindai.ndl.go.jp/info:ndljp/pid/767097 河口慧海『西蔵探検 大秘密国』だと 767097 を引数として与える。
python addOutlineToNdlPdf.py 767097 01-20.pdf 21-40.pdf 41-60.pdf 61-80.pdf 81-92.pdf
python addOutlineToNdlPdf.py 767097 ~/Downloads/*.pdf
そうすると全部結合して目次がついた 西蔵探険_大秘密国_河口慧海_述他_又間精華堂_1903_767097.pdf みたいなpdfができる
注意:
- ダウンローダは提供しません (ダウンロードする人が増えたら自分のダウンロードがおそくなるから)
- 1ページでも欠けてると目次はつかない。
- 与えるPDFはひとつでも大丈夫だができるファイルとおなじ名前のものがあったらうごかない
必要なライブラリ
- pdfrw http://code.google.com/p/pdfrw/ download
- 解凍して中にあるsetup.pyをpythonで実行したら適当にインストールしてくれるみたい
ubuntu12.10の場合
sudo apt-get install python-reportlab python-pdfrw
でok