メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

電子書籍における画像化とテキスト化

 君見ずや出版

 電子書籍の形態にふたつある。テキスト化されたものと画像化されたものだ。テキスト化されたものには以下の長所がある。

  • 検索できる
  • 文字サイズ・レイアウトなどを自在に変形できる
  • サイズが小さい

 テキスト化された電子書籍電子書籍の花といえるが、その反面こういう短所もある。

  • レイアウトを固定できない。ページの概念がない。
  • 端末で表現できるフォント以上の表現はできない

 以上の理由から、出版社の出す新刊の電子書籍でも画像化された電子書籍をつくることがある。またマンガや画集・写真集はテキスト化できない。しかもこれらが出版のなかで無視できない利益を稼ぎだしている以上、画像化された本は電子書籍の世界では永遠にサポートされつづける。

 画像化された本というのは、本の「復刻」と同じである。木版印刷というのは版下(紙)をもとに版木を起こし、ハンコの理屈で大量に版下のコピーをつくる技術だが、版木が手に入らない木版印刷の本を「復刻(覆刻)」する場合、印刷された本をバラしてそれを版下にし、版木を彫りなおして同じくハンコの原理でコピーをつくる。版面そのままのコピーが復刻ということだからもちろん画像化された本もその意味で復刻なのだ。
 字だけの本を画像化した場合の利点はUnicodeなりJISX0208で定義された文字の制限をうけないということだ。戦後の文字制限時代より前の本を今の文字集合で正確に復元するのは不可能である。また挿図など意図的に挿入したものの位置もそのまま保持される。しかしテキスト化されたものとはちがって検索できないし、拡大したときにはページの制約をうけるから移動させたりして大変面倒なことになる。さらにいえば電子書籍端末の画面の大きさに原書が復元されるので狭い画面だと非常にみにくいことになる。

 「君見ずや出版」は現在画像化をメインにしている。最初はテキスト化しようとしていたがやめた。理由はこうだ。

  • かかる労力と時間がものすごい
  • そのわりに売れない
  • 手元のAndroid上のKindleアプリで見た場合、総ルビの本は画像化した本より重くて読むにたえない

 戦前の一般向けの本は総ルビがデフォルトだ。やるならそこまで復元したい。だいたい昔の人の漢字の使い方は自由奔放なのでルビがないと読めない事が多い。ただ総ルビを復元するとものすごく重い本ができる。そんなら意味ないではないか。
 本のテキスト化はOCRソフトがあれば簡単にできるが、OCRの原理は絵合わせだ。あらかじめ活字やフォントの字形データをOCRソフトが持っている。それとすりあわせて字を判定する。そういうものだから、明治大正昭和前期の活字は対応していない。昭和も10年代になると戦後の活字にデザインが似てくるのでOCRソフトで読める率もあがってくるが、それでもちょっと読めるようになるだけだ。一回OCRしてみたが結局全部タイプするのとあんまり変わらなかった。

 とはいいつつも、字だけで構成されてるものはテキスト化したほうが相応しいのはまちがいない。こないだ、佐久間長敬の『罪刑詳説』に着手してからAmazonで検索したところ、すでにやっていてしかもテキスト化している人がいた。


刑罪詳説 (夕陽亭文庫)

刑罪詳説 (夕陽亭文庫)

 おぉぉ。まぁそういうわけでそれを出すのはやめたのだが、この夕陽亭馬齡氏、テキスト化したシリーズを続々出しているようである。すごいとしか言いようがない。ご本人のtwitterもあって、真面目にテキスト化しているのがわかる。すごい。今通俗三国志にとりかかってるらしい。

[twitter:@bpaaw700]

通俗三國志一 (夕陽亭文庫)

通俗三國志一 (夕陽亭文庫)