中国の古籍の電子化は日本よりも全体に進んでいるのは周知の事実である。基本書籍の影印本であれば、PDF化されたものがネット上にゴロゴロところがっており、その版本に注意さえすればネット上だけでそこそこのことができるようになっている。ただしそこからテキスト化するのが進んでいるかといえば進んではいるが微妙ではある。
たとえばここ(中国哲学書電子化計画)( ctext.org )は中国のデジタル化サイトの中ではかなり老舗にあたる。
説明のところをみると版本間の差異などにも考慮した設計となっているらしい。自分は本格的にこのサイトを使ったことがないので、よくわからないが、たぶん有名どころはそれなりのテキスト化などなされているのだろう。
ところで『樗斎漫録』という本がある。詳細については置いておくとして、偽書説があり、あまり古籍として大切に扱われてはいないが、その一節がある方面での重要な資料となっている。しかし書物というのは一部分だけ切りとってくるようなものではなくとりあえずは全体をみるべきものなので漫然と流しよみしていると、こういう一節をみつけた。
中国でよく使われる罵倒語と、古今東西変わらぬ「女ってやつは..」的なものがあわさった一種の諧謔だ。たいした内容ではないのでわかる人だけわかればよい。この書はなぜか ctext.org に収められていて、テキスト化までされているので、そこを抽出してくるとこんな具合になる。
眼前極可笑事里巷婦人譬星矣必日舄諱亡八詈其于女必日干人種萬人種殊不知乃目詈也一友日非目譬昆豐星日供也又一友日非白供也寶自祝也噫愈毒吳雖然如此婦入必用如此刑罰乃暢
赤で示したところが上の画像と違うところだ。一目瞭然だが、形が似ているものが多いところからわかるように、入力ミスではなく、OCRしたものが校正されていないということだろう。おそらくこのサイト、影印本の画像をアップすると自動的にOCRでテキスト化され、さらにユーザーが校正するという手順を踏むのではなかろうか。そしてこの『樗斎漫録』のように資料的価値が微妙で内容的にも微妙なものは誰も読まず、OCRされたときのまま放置されているということだろう。
ところで校正は二の次でどんどんOCRしていくというのも手ではある。なぜならOCRは機械がやる仕事なので、何度でも一からやりなおせる。OCR技術は年々向上するので大量の画像を相手にするとき全部真面目に校正していくよりはOCR技術の向上に期待する方が全体の誤読率が下がるかもしれない。ただし、上の文章のように簡単な文書でも誤読してるので今のところはまだまだというところか。
- 作者: 黒澤R
- 出版社/メーカー: 集英社
- 発売日: 2017/01/19
- メディア: Kindle版
- この商品を含むブログを見る