国会図書館のデジタル化資料(近代デジタルライブラリ)のPDFの中身の形式がjpeg2000から普通のjpgに変わったので今まで落として持ってた664部を再度ダウンロードしてみました。
すると29Gもあったものが23Gに激減しました。
あれ?
国会図書館デジタル化資料(近デジ)のjpgはどこまで精細か - メモ@inudaisho
のサンプルだとjpeg2000の方がファイルサイズ小さかったのに?
というわけで、その664部を対象に何がどう違うのかを調べてみたわけです。
(この664部はほとんどが大正〜昭和の中国関係なのでサンプルとしてはものすごく偏ってます)
縮小トップ10 (664部が対象)
順 | 比率 | jpg(byte) | jpeg2000(byte) | ファイル名(リンク先はNDL) |
1 | 7% | 953429 | 12547839 | 柳営大奥_写_2542258.pdf |
2 | 27% | 7602192 | 27791635 | 北清事変写真帖_柴田常吉_深谷駒吉_撮影_吉沢商店_1901_774472.pdf |
3 | 28% | 13458687 | 47539419 | 満洲写真帖_内藤虎次郎_編_東陽堂_1908_767149.pdf |
4 | 29% | 37213569 | 125359283 | 支那文化史蹟_第十二輯_常盤大定_関野貞_著_法蔵館_1941_1902723.pdf |
5 | 30% | 4781973 | 15802916 | ソ連対日暴戻行為の全貌_日蘇通信社_編_日蘇通信社_1938_1271741.pdf |
6 | 30% | 41181244 | 135300618 | 支那文化史蹟_第三輯_常盤大定_関野貞_著_法蔵館_1941_1902646.pdf |
7 | 30% | 42182724 | 136872461 | 支那文化史蹟_第四輯_常盤大定_関野貞_著_法蔵館_1941_1902654.pdf |
8 | 31% | 22142418 | 69515165 | 北清事変写真帖_第五師団司令部_撮影他_小川一真_1902_774473.pdf |
9 | 31% | 43033725 | 136820678 | 支那文化史蹟_第一輯_常盤大定_関野貞_著_法蔵館_1941_1902631.pdf |
10 | 31% | 38701160 | 121291601 | 支那文化史蹟_第十輯_常盤大定_関野貞_著_法蔵館_1941_1902708.pdf |
膨張トップ10 (664部が対象)
順 | 比率 | jpg(byte) | jpeg200(byte) | ファイル名(リンク先はNDL) | |
1 | 265% | 44455164 | 16738970 | 西蔵探険_大秘密国_河口慧海_述他_又間精華堂_1903_767097.pdf | |
2 | 253% | 3147177 | 1242741 | 水滸標和訳金瓶_上之巻_佐橋五湖_著_保坂芳兵衛_1889_877054.pdf | |
3 | 228% | 15560025 | 6819871 | 開巻驚奇支那風俗一斑_三島鹿之助_編_弘道書院_1885_767901.pdf | |
4 | 222% | 30947785 | 13939892 | 近世露西亜_占部百太郎_著_開拓社_1899_767293.pdf | |
5 | 207% | 2998051 | 1447412 | 支那の抗戦能力其他に就て_林群喜_著_東亜同文会_1939_1097741.pdf | |
6 | 207% | 12790745 | 6160734 | 北桑田郡誌_北桑田郡教育会_1894_765546.pdf | |
7 | 204% | 7398330 | 3623724 | 難局打開の経綸_紀元二千六百年・日本興廃の岐路_中野正剛_著_東大陸社_1940_1080458.pdf | |
8 | 200% | 45829097 | 22860915 | 日露開戦の由来_下村三四吉_編_育成会_1904_774239.pdf | |
9 | 199% | 79200305 | 39605737 | 地理学叢話_神保小虎_著_博文館_1908_761428.pdf | |
10 | 197% | 7312192 | 3709874 | 熱河をなぜ討つか_大阪毎日新聞社_編_大阪毎日新聞社_1933_1097610.pdf |
ざっとみてみて写真っぽいのが縮小率がたかく白黒で文字だらけのものが膨張しているような印象がありますがこれをjpeg出力(3.125%)したもので一覧してみるとこうなります。
デジタル化をやりはじめたころの仕様だとjpeg2000の方に優位があったということなんでしょうか。664部の総ファイルサイズが激減したのは、その内容がほとんど大正昭和のもの、つまり最近デジタル化されたものだからより写真的なスキャンだったために縮小率が大きかったのでしょうか。
それはともかくこの古い白黒のやつ(たぶんマイクロをそのままデジタル化したやつ)カラーで再スキャンできないんですかね。なんでこう中途半端に白黒→グレイスケール→カラーと変化してんですかね。早稲田大学の古典籍なんか最初っから全部カラーですよカラー。