メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

国会図書館近代デジタルライブラリのjpeg2000

国会図書館近代デジタルライブラリの画像ファイルには二種類ある。
白黒二値のものと精細なグレイスケールのもののふたつだ。
両方とも適当に縮小しています

白黒二値の方が簡単なんだろうとおもいきや、こっちのほうが問題が多い。

pdfをおとしてきてjpeg2000ファイルを抽出し、irfanviewでみると、白黒二値のものは白いはずの地の色が赤くなる。また、linux系ではjasperというライブラリをつかって展開することになるのだが、一枚を展開するのに一分弱かかる。xpdfでみるとわりと速く展開されるが画像がこわれている。これではまともにつかえない。しかも、このjpeg2000ファイルをpngに変換するとpngの方がファイルサイズが小さい。
一方精細な画像のほうはirfanviewでも問題なくみれるし、jasperで展開するのも10秒程度だし、xpdfでも画像がこわれない。そして、pngに変換するとファイルサイズが一気に10倍になってしまうので、精細な画像をjpeg2000にすることは、その利点を生かしていることがわかる。

そもそも白黒二値のものは細かいところはつぶれてしまって読めないことが多い。絵などが入っていると悲惨なことになる。こんな汚い画像を公開するのならもっと品質の低い形式でよかったのではなかろうか。
京都周辺地図

ネットで公開するファイルの形式であんまり普及していないものにdjvu形式があるが、これは案外よい。白黒二値のものは特によい。精細な画像をpngとdjvuにしてそれぞれ等倍にして比較すると、元画像のjpeg2000と変換したpngはほとんど差がないが、djvuはすこし品質がおちる。しかし、djvuにするとファイルサイズが圧倒的に小さくなるので、その小さくなり具合からするとかなり品質が保たれているといえる。
djvuの他のよい点はフリーで使い勝手のよいビューアがあることだ。
ただ、djvuは商業的に成功していないからそうなったのかもしれない。自分がdjvuファイルをあつかうようになったのは、中国の書籍共有サイトにdjvuのものがたくさんあり、pdfと比較してつかいやすかったので慣れたという事がある。そして中国でそうなっているのは、中美百万と通称される、浙江大学電子図書館がdjvu形式で公開しており、古籍が大量にあるので中国のネット上の書痴がみんなでよってたかってダウンロードしたからだ。今、その中美百万はその大量アタックにこりて普通にはアクセスできないようになっている。中美百万がdjvu形式を採用したのは、アメリカが資金を提供した(だから中「美」)という事と、そのときdjvuがまだ普及の可能性があったからだろう。

まぁdjvuのことはともかく、白黒2値のjpeg2000については不満タラタラだ。