メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

国会図書館の近代デジタルライブラリからPDF

2012/02/14 : この2月からこのスクリプトではダウンロードできなくなったようですが、今中国旅行中で、対応するのも面倒なので公開停止しました。

国会図書館の近代デジタルライブラリからPDFをダウンロードするスクリプトがあったところ

2010/10/03 : 本によっては落とせないものがあるのを確認(おそらくシリーズの端本とか)
2011/12/30 : 上と関連して、巻号の番号ルールがちがうものがふえてきている(昭和前期とか)。巻号を近代ライブラリのページから直接取得するようにすればいいだけだが、修正したものをわざわざ公開するのもアホらしくなってきたので公開しない。

pythonの他にpyPdfが必要
pyPdf http://pybrary.net/pyPdf/

スクリプトはここから
公開停止

#portaから書誌データを取得してファイル名に追加する機能をつけたした(2010?/2/13)

こんな感じでつかう。必要なのは全国書誌番号だけ。複数巻あるのは全部落とす。

python downloadNdl.py 40xxxxxx
    1. 近代デジタルライブラリ(http://kindai.ndl.go.jp/)で本を検索
    2. 詳細ページで全国書誌番号(8桁の数字)をしらべる
    3. スクリプトを走らせて落ちてくるのを待つ
    4. クロバットリーダーで重いのを我慢しながら見る。

全国書誌番号を複数与えることもできるようにした。

python downloadNdl.py 400xxxx1 410xxxx2 4000xxx3 4000xxx4 ....

jp2ファイルの抽出もできるけど、いまの環境(ubuntu9.10)だと画像ビューアなどでひらくよりも、アクロバットリーダーでひらくほうが遥かにはやいので、これで我慢する。つくってみたら結構楽チンでなかなかいい。