メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

プロジェクト・グーテンベルクの校正システム

 プロジェクト・グーテンベルク(以下P.G.)の校正システムについて書く。P.G.は1971年に発足したというからなんとも悠久な歴史をもっているではないか(インターネット比)。彼らが現在どういう入力校正システムをとっているか、興味のある人もあるだろう。というかサイトに行ったら英語で書いてあるのでわざわざ紹介するにあたらないが、世間には横文字を縦に書きかえる程度のことで小銭を稼いでいる人もいるらしいので、紹介してもバチはあたらないだろう。

DP: Workflow Diagram

 これが、P.G.のワークフロー図だ。一番上の青のところが準備段階。青空文庫でいうところの入力にあたる。本をスキャンして画像化し、OCRにかけてテキスト化する。アルファベットは字数が少なく、OCR向きなんだろう。日本語のOCRは大変かもしれないが、戦後にでた文庫本なら結構よめるだろう。

 さて、入力が簡単に済んでも、やはり校正は必要だ。P.G.はこの部分を多数の人間に開いて簡単に参加できるような仕組をとっている。ワークフロー図の真ん中の赤枠がそれだ。この図が載せられているサイト自体が校正のためのサイトで、その校正者にわかりやすく全体の流れを説明するために作られたのがこのワークフロー図なので、校正がなおのこと中心となっている。
 この図にあるように、校正は二回(ないし三回)おこなう。実際に参加していないので具体的にはどうなのかわからないが、この校正サイトのトップには簡潔にまとめられている。
DP: Welcome

During proofreading, volunteers are presented with a scanned page image and the corresponding OCR text on a single web page. This allows the text to be easily compared to the image, proofread, and sent back to the site. A second volunteer is then presented with the first volunteer's work and the same page image, verifies and corrects the work as necessary, and submits it back to the site. The book then similarly progresses through two formatting rounds using the same web interface.

Once all the pages have completed these steps, a post-processor carefully assembles them into an e-book, optionally makes it available to interested parties for 'smooth reading', and submits it to the Project Gutenberg archive.

 この文章の第一段落の方だが、要は、画像をみながらテキストを修正する、ということを二回やると書いてある。このサイトはそういう形式の校正Webアプリを提供しているらしい。
 くわしくはFAQにまとめられてもいるが、
DP: Beginning Proofreaders' FAQ
 一ページ単位で好きなだけやると書いてある。P.G.の御推奨は一日一ページ。そんなん全然進まへんやんけ、とおもうかもしれないが、敷居を低くしてたくさんの人間の参加を促しているということだろう。一人でがんばってもタカが知れているが、100人いれば一日一ページでも100ページ進むし一ページあたりの集中力も高い。しかしそれだと質は保障できないので二回ないし三回やる、ということだろう。

 ちなみに画像をみながらテキスト化するという仕組を実装している組織が日本には既にある。国会図書館のNDLラボの翻デジだ。
翻デジ2014
 趣旨は国会図書館デジタルコレクションで公開している画像のテキスト化である。しかし全然進んでいない。仕組をつくったからありがたく使えといっても誰も使わない典型だ。これでは信者を集めることはできない。「著作権切れテキストを紙から解放しよう!」「本の未来を守ろう!」のような美辞麗句で人を騙してタダ働きさせるような態度が求められるがお役人には不可能だろう。

 さてP.G.のワークフロー図の方に話を戻す。途中で紹介した英文の第二段落にある内容だが、一ページ一ページ校正をしたあとはそれをくっつけて整形する。そこから青枠の後処理にうつるのだが、そこで通読(SmoothReading)という作業がはいる。通読テキストは公開されていて、読むだけならだれでもできる。
DP: Smooth Reading Pool Preview
 正式に公開されるまえのプレビューだが、ザーっと読んでみてなんかおかしいところがあるか点検するという仕組だ。校正者として登録している人はおかしい点を注記してアップロードしなおすという方法でフィードバックすることができる。
 入力・校正・整形・点検が済んでようやくP.G.の本体に移され公開という運びとなる。

 ここまでおおざっぱに書いたが、校正者はwebアプリを通じて活動すればよい。では前処理後処理で校正者が関わっていない処理はどうなってる?

 とまぁそこまで考えればわかることでP.G.にも専従者もしくは専従に近いプロのような人間がいるということだ。機械化・システム化でいろんな作業を大幅に省力化できるが、人の判断は代替できない。それでも、システムを導入すると作業フローが変わり人の方の仕組も当然変わってくる。P.G.ができたという1971年のころにはWebアプリなんてのはなかったから、校正作業のWebアプリ化も最近のことだろう。時代の変化に応じてその目的のために進化をとげているということだ。

(青空文庫についての無駄口や下らない提案をちりばめていたが朝になって読みなおすと冗長だったのでそこは消して事例の紹介だけにとどめた)