メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

タダOCR比較

 なんでも無料の乞食根性でOCRを比較してみる。

 これは昭和10年前後に出た小冊子の一ページだが、フォントの書体が現在のものに近いのでわりと認識してくれそうではある。前は切り出しもせずに試してOCR使えないとか言ってたが、こんな風に切り出してあったらそれなりに読めるんではなかろうか。

 代表選手は以下の三人。

  • MODI.Document (2007だっけ?)
  • tesseract (3.03 Debian)
  • nhocr (1.22)

 他にcuneiformとかあったけど日本語に対応してないっぽいので没。まずは結果から。

MODI.Document

く極脱するト J とは大なる課りであると考へる叩園民思想が善悪に拘らずまた

国淡 K 拘らず、さまぐの世界思想の影春士受けるト}とは必然の現象である・

瞬民の中]も確予たる民族意誘を把持する者は・外来恐想に針し養きを取り悪しきを捨てるといふ枇判的態度 t 執るのであるが、民族

意機七無親ナる券若くは民族意識を極親する者は外来思想に封して無批判的なるを常とする・抑セ自由主義者・社今民主主義者、共産主義者等は民族意謙を無脱するか若くは軽覗ナるグループであつて、彼等は民族的個性士没却した世弊主義にん H 流する傾向を常に持っものだ・故に彼等は時の世界に最も流有する思潮に課もなく共鳴する素質を有ずる・モ L て凡ての問題全民族的に認誰するア J とを L ないで

!民族を超触 L た世界主義的立場 K 立つて認畿しやうとする・ F }う L た他界土義的側向は我園に於ても大都市士中心と L たインプリ階級の間に可成り

弧心広く流れてみることを否定することは出来ない・今やコミ y タ y の引く孫に繰っられで西欧の

tesseract -l jpn

<轣観ずることは大なる誤り七ぁると考ヘるm 國民思想が善悪に拘らず' また潰

淡に拘らず、 さまぐの世界思想の影響を受けることは必然の現象てぁる・ 國趾

の中ても確千たる民族意識を把持ナる老は〔 外來思想に封し善きを坂り悪しき

捨てるとぃふ批判的態度を執るのてぁるが、 民族意識を無覗ずる者若くは民旗

識を經祀ナる老は外來思想に封して無批制的なるを常とずる。

抑々自由、王義老' 祇會民、王、王義老' 共産主義老等は民族意識を無覗ナるか若く

は經覗ナるグループてぁって、 彼等は民族的個性を没却した世界主義に介流ナ

傾向を常に持っものだ。 故に彼等ば暁の世界に最も流行ナる忠潮に課もなく共

ナる素質を有ナる。 そして几ての閻題を民族的に認識ずる,」とをLないて、 比族

を超越した世界主義的立場に立って認識しゃぅとナる。 こぅLた世界主義的傾向

は我國に於ても大都市を中心としたィンテリ階級の間に可成り強く廣く流れてゐ

ることを否定ずることは出來なぃ。 今ゃコ ミンタンの引く絲に繰っられて西駄の

nhocr -vert -block

~~

くな親ナ6ごとは大なる談0てあると考へゑ 図民思想が蕃懇K拘ら\ \た波

淡K拘ら\ さまぐの世界思想の影蕃と受けるごとは必然の現象てあ女 爾火

の中ても磁乎たる氏族怠識セ杷持ナる者¢ 外水思他に封し蕃きと攻o懇しきと

拾てるといふ批列的旗威を執るのてあるギ 氏族怠識を無親ナるX瑳くは氏放ぱ

識を挫親ナる老は外水思想K封して無批列的なるを常とナるo

抑々自由主義考 紅令氏主主義考 共姦主義老等は氏族怠識を無観ナるかパく

は軽親ナるグルlブてあつて 彼等は氏族帆個性を牧却したW外キ我K介流ナる

傾向と常K持つものだ 故に彼等げ時の世界K最も流行ナる思潮K浮もなく火叫

ナる莱質を有ナ女 そして凡ての肘題を氏族的K認鍬ナることをしないく 火放

と超越した世界主養的立桝K立つて認識しやうとナろ ごうした此界主我帆何M

は我園K於ても大都∞と中心としたインテリ槽扱の胸K可成0強く庇く流れてみ

るごとと杏定ナることは恥水なヾ 今やゴミングンの引く徐K換つられて沙歓の

 うーむ。まぁどれも一長一短というところだが、その団栗の背くらべの中では tesseract が一歩抜き出ているようだ。その原因は旧字体にも対応しているからだろう。事前にググると nhocr が日本語では tesseract より成績がよいという話がでてくるが、どうせそういうのは最近の文庫本とかをOCRさせた結果の話なんだろう。OCRは所詮は絵合わせなので学習を重ねれば精度はどんどんあがる。範囲を限れば精度の上がる速度も早いだろう。tesseract の場合はその元データの量が多いのはまちがいないし Google が後押ししてるだけあってどんどん更新されている。Debian のパッケージにはいっているのはバージョンも若干古いものなので、最新のバージョンであればもっと鍛えられたデータが同梱されてるんだろう。

 ただしtesseractは「主」を「、王」と認識してしまっているように文字の切り出し方に難がある。手書き認識も視野にはいっているんだろうか。そういう点で MODI.Document に劣る面があり、実際もっと詰まった版面だと MODI.Document の結果が断然良い。もちろん誤認識だらけだが、このレベルだとどうせ片端から直していけないといけないのでそれなら文字らしく並んでいる方が手間が減る分マシということになる。

 OCRを補助につかったテキスト化の恐しいところは似たような字を選んでくるだけに間違いを見落して誤字を埋め込んでしまいやすい。君見ずや出版の初期に永田鉄山国家総動員』をまずOCRさせてからテキスト化してみたことがあったが、間違いを直しきれないまま出してしまった。こないだ直したがまぁ直すのも手間だった。原稿がデジタル化されていない頃の古い本のテキスト化は校正に手間がかかるのでなかなか進まないだろう。