電子書籍の形態にふたつある。テキスト化されたものと画像化されたものだ。テキスト化されたものには以下の長所がある。
- 検索できる
- 文字サイズ・レイアウトなどを自在に変形できる
- サイズが小さい
テキスト化された電子書籍は電子書籍の花といえるが、その反面こういう短所もある。
- レイアウトを固定できない。ページの概念がない。
- 端末で表現できるフォント以上の表現はできない
以上の理由から、出版社の出す新刊の電子書籍でも画像化された電子書籍をつくることがある。またマンガや画集・写真集はテキスト化できない。しかもこれらが出版のなかで無視できない利益を稼ぎだしている以上、画像化された本は電子書籍の世界では永遠にサポートされつづける。
画像化された本というのは、本の「復刻」と同じである。木版印刷というのは版下(紙)をもとに版木を起こし、ハンコの理屈で大量に版下のコピーをつくる技術だが、版木が手に入らない木版印刷の本を「復刻(覆刻)」する場合、印刷された本をバラしてそれを版下にし、版木を彫りなおして同じくハンコの原理でコピーをつくる。版面そのままのコピーが復刻ということだからもちろん画像化された本もその意味で復刻なのだ。
字だけの本を画像化した場合の利点はUnicodeなりJISX0208で定義された文字の制限をうけないということだ。戦後の文字制限時代より前の本を今の文字集合で正確に復元するのは不可能である。また挿図など意図的に挿入したものの位置もそのまま保持される。しかしテキスト化されたものとはちがって検索できないし、拡大したときにはページの制約をうけるから移動させたりして大変面倒なことになる。さらにいえば電子書籍端末の画面の大きさに原書が復元されるので狭い画面だと非常にみにくいことになる。
「君見ずや出版」は現在画像化をメインにしている。最初はテキスト化しようとしていたがやめた。理由はこうだ。
戦前の一般向けの本は総ルビがデフォルトだ。やるならそこまで復元したい。だいたい昔の人の漢字の使い方は自由奔放なのでルビがないと読めない事が多い。ただ総ルビを復元するとものすごく重い本ができる。そんなら意味ないではないか。
本のテキスト化はOCRソフトがあれば簡単にできるが、OCRの原理は絵合わせだ。あらかじめ活字やフォントの字形データをOCRソフトが持っている。それとすりあわせて字を判定する。そういうものだから、明治大正昭和前期の活字は対応していない。昭和も10年代になると戦後の活字にデザインが似てくるのでOCRソフトで読める率もあがってくるが、それでもちょっと読めるようになるだけだ。一回OCRしてみたが結局全部タイプするのとあんまり変わらなかった。
とはいいつつも、字だけで構成されてるものはテキスト化したほうが相応しいのはまちがいない。こないだ、佐久間長敬の『罪刑詳説』に着手してからAmazonで検索したところ、すでにやっていてしかもテキスト化している人がいた。
- 作者: 佐久間長敬
- 出版社/メーカー: 夕陽亭
- 発売日: 2015/02/24
- メディア: Kindle版
- この商品を含むブログを見る
おぉぉ。まぁそういうわけでそれを出すのはやめたのだが、この夕陽亭馬齡氏、テキスト化したシリーズを続々出しているようである。すごいとしか言いようがない。ご本人のtwitterもあって、真面目にテキスト化しているのがわかる。すごい。今通俗三国志にとりかかってるらしい。
[twitter:@bpaaw700]
- 作者: 湖南文山
- 出版社/メーカー: 夕陽亭
- 発売日: 2015/03/12
- メディア: Kindle版
- この商品を含むブログを見る