メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

華北交通アーカイブの機械学習とIIIF

(20190219 下の方に追記あり)

華北交通アーカイブ と鉄道遊撃隊

 華北交通アーカイブの正式版が公開された。

codh.rois.ac.jp

 華北交通というのは上のサイトにも書いてあるが、日中戦争のときに華北の鉄道を運営した組織で、中国の抗日ものの『鉄道遊撃隊』が破壊工作のターゲットにした津浦線もその範囲だった。鉄道遊撃隊についてはこういうページを作って公開している。

inudaisho.sakura.ne.jp

 鉄道遊撃隊関係の駅だと「棗荘」「臨城」の写真が若干のっているが、「棗荘」の方は石炭の山で、なかなかよい。この中興炭鉱は今でもあって、中に入れる。当然だが改組しているがそのころから変わってない(保存してある)ところもあってある程度は当時の雰囲気がしのべる。

奇怪なタグと機械学習

 ところで妙なタグづけがしてある。"television" とか "prison" だ。television がおかしいのは言うまでもないが、prison も相当なもので、中国のレンガ積みの建物やコンクリートの建物で素気ないものは全部 prison ではないかという勢いでタグづけしてある。装飾が華美なら palace になるようだ。はて?なんだこれは? 実は機械学習を利用してタグ付けしたものということで以下の技術紹介のページで詳述してある。

codh.rois.ac.jp

 AI が先頭に来てるのは無知で無理解な60-50代への説明のために工夫しているのだろう。すごいことができると言おうとがんばっているのはわかる。画像への彩色やタグ付け、IIIF の利用などが今回の新技術の目玉として挙げられている。

 さて問題はタグ付けだ。television などの妙なタグづけについては以下のように弁疏している。

この場合も、本来はアーカイブの特徴に合わせた分類モデルを学習させることが望ましいのですが、それには時間もコストもかかることから、本アーカイブでは既存の学習結果をそのまま活用することにしました。この場合、古写真には明らかに含まれないタグ(television等)が出現するという問題が生じます。とはいえ、こうしたタグを「読み替える」ことで有用な情報を発見できるケースもあり、これらを単純に「間違い」としてしまうのはもったいない。むしろこの情報を使ってどのように写真へのアクセス性/発見性を高めるか、という発想の転換が重要になってきます。

 時間もカネもなかったから出来合いの学習モデルを持ってきて適用したというのだ。そこをおまえらの工夫次第だと強弁して押し通そうとしている。Egyptian-cat とか American-alligator とかも使い方次第で活用できるだろということらしい。もったいない。

  何万枚もあるなら機械学習のとてもよい素材だから、その一部でモデルをつくって全体にタグづけすればいいだけのこと。こういう特殊なデータならなおさらのこと。カネがかかると書いているのだが、タグづけは知識がないとできないのだから中国近代の研究者がやるしかない。のだが、この事業いったい中国をちゃんと研究してる人が関わっているのだろうか? その協力もなく、技術者に丸投げした結果がこれなら、まぁ確かに中国を知らない人にタグづけは無理なので仕方ない。 これを公開している「人文学共同利用センター」はくずし字のデータを機械学習の素材として公開してるのだから、これもそれと同じように素材的な公開を目指せばよかったのに。またタグづけをオープンにしてユーザにまかせるという方向もあるのに。

( サヨクの気のある人が「日本の戦争犯罪を明らかにする!」とか意気込んでとりかかったものの、宣伝用写真にたいした写真があるわけないのでおもったような成果があがらず、とりあえず飯のために公開までこぎつけたところ、機械学習で prison のタグがたくさんついてたのでそのままにして「当時の華北は牢獄のようなものだった..」と陶酔してるのかと最初は思った)

(20190219 この段落の末にこれを追記)

公開目的 | 華北交通アーカイブ

 初期は人文研の石川禎浩(初期中国共産党の研究で有名)が関係していたらしいが、その後デジタルアーカイブ化委員会が発足して5年くらいかけて公開にこぎつけたらしい。しかし機械学習の分野は日進月歩の分野なので初期にはタグづけしてなかったんだろう。公開直前になって成果がパっと見寂しいのであわてて機械学習のタグづけをつけたんだろうか。book_jacket, television, monitor, screen などのタグの存在は画像認識では常識である前処理が不十分であったことを示すが、これはタグ付けが不完全なものであることを示すためにわざと残したんだろうか。技術屋・指示者・研究者の連携をまったく取らないまま粗忽のうちに公開したものとしかおもえない。また華北交通だけではなく、他の写真もまじっているらしいが、その中に桑原隲藏が撮ったものまでまじっているらしい。桑原の旅行は清朝時代のものだ。「大正大東京アーカイブ」の中に幕末の写真がまじってるようなものだがそれでいいのか? 中国からのアクセスが多いのはダウンローダでぶっこぬいてるからだろう。そのうち中国で全部ぶっこぬいたのが「共享」されるとおもうのでそれを落とそうかな。

IIIF

 IIIFというのはたとえば画像を直リンクするとこうなってしまうのだが、

http://codh.rois.ac.jp/north-china-railway/iiif/color/3701-015712-0.tif/full/full/0/default.jpg

 IIIFに対応しているとこういうのが公開されてるので

http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

 これを IIIF ビューアに食わせるとこうなる。

  • IIIF Curation Viewer

http://codh.rois.ac.jp/software/iiif-curation-viewer/demo/?manifest=http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

  • openseadragonizer_iiif

http://2sc1815j.net/openseadragonizer_iiif/?manifest=http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

 という感じで好きに画像をいじれるので、こういうオープンデータの公開で普及しつつある。君見ずや出版の事業なんかもそのうちこういうビューアが発達し、IIIFビューアで見るのが標準になって駆逐されるのかもしれないが、OPDSが結局そんなに広く普及しなかったように、それはそれで棲み分けするのかもしれない。

画像認識 (機械学習プロフェッショナルシリーズ)

画像認識 (機械学習プロフェッショナルシリーズ)