メモ@inudaisho

君見ずや出版 / 興味次第の調べ物置き場

華北交通アーカイブの機械学習とIIIF

(20190219 下の方に追記あり)

華北交通アーカイブ と鉄道遊撃隊

 華北交通アーカイブの正式版が公開された。

codh.rois.ac.jp

 華北交通というのは上のサイトにも書いてあるが、日中戦争のときに華北の鉄道を運営した組織で、中国の抗日ものの『鉄道遊撃隊』が破壊工作のターゲットにした津浦線もその範囲だった。鉄道遊撃隊についてはこういうページを作って公開している。

inudaisho.sakura.ne.jp

 鉄道遊撃隊関係の駅だと「棗荘」「臨城」の写真が若干のっているが、「棗荘」の方は石炭の山で、なかなかよい。この中興炭鉱は今でもあって、中に入れる。当然だが改組しているがそのころから変わってない(保存してある)ところもあってある程度は当時の雰囲気がしのべる。

奇怪なタグと機械学習

 ところで妙なタグづけがしてある。"television" とか "prison" だ。television がおかしいのは言うまでもないが、prison も相当なもので、中国のレンガ積みの建物やコンクリートの建物で素気ないものは全部 prison ではないかという勢いでタグづけしてある。装飾が華美なら palace になるようだ。はて?なんだこれは? 実は機械学習を利用してタグ付けしたものということで以下の技術紹介のページで詳述してある。

codh.rois.ac.jp

 AI が先頭に来てるのは無知で無理解な60-50代への説明のために工夫しているのだろう。すごいことができると言おうとがんばっているのはわかる。画像への彩色やタグ付け、IIIF の利用などが今回の新技術の目玉として挙げられている。

 さて問題はタグ付けだ。television などの妙なタグづけについては以下のように弁疏している。

この場合も、本来はアーカイブの特徴に合わせた分類モデルを学習させることが望ましいのですが、それには時間もコストもかかることから、本アーカイブでは既存の学習結果をそのまま活用することにしました。この場合、古写真には明らかに含まれないタグ(television等)が出現するという問題が生じます。とはいえ、こうしたタグを「読み替える」ことで有用な情報を発見できるケースもあり、これらを単純に「間違い」としてしまうのはもったいない。むしろこの情報を使ってどのように写真へのアクセス性/発見性を高めるか、という発想の転換が重要になってきます。

 時間もカネもなかったから出来合いの学習モデルを持ってきて適用したというのだ。そこをおまえらの工夫次第だと強弁して押し通そうとしている。Egyptian-cat とか American-alligator とかも使い方次第で活用できるだろということらしい。もったいない。

  何万枚もあるなら機械学習のとてもよい素材だから、その一部でモデルをつくって全体にタグづけすればいいだけのこと。こういう特殊なデータならなおさらのこと。カネがかかると書いているのだが、タグづけは知識がないとできないのだから中国近代の研究者がやるしかない。のだが、この事業いったい中国をちゃんと研究してる人が関わっているのだろうか? その協力もなく、技術者に丸投げした結果がこれなら、まぁ確かに中国を知らない人にタグづけは無理なので仕方ない。 これを公開している「人文学共同利用センター」はくずし字のデータを機械学習の素材として公開してるのだから、これもそれと同じように素材的な公開を目指せばよかったのに。またタグづけをオープンにしてユーザにまかせるという方向もあるのに。

( サヨクの気のある人が「日本の戦争犯罪を明らかにする!」とか意気込んでとりかかったものの、宣伝用写真にたいした写真があるわけないのでおもったような成果があがらず、とりあえず飯のために公開までこぎつけたところ、機械学習で prison のタグがたくさんついてたのでそのままにして「当時の華北は牢獄のようなものだった..」と陶酔してるのかと最初は思った)

(20190219 この段落の末にこれを追記)

公開目的 | 華北交通アーカイブ

 初期は人文研の石川禎浩(初期中国共産党の研究で有名)が関係していたらしいが、その後デジタルアーカイブ化委員会が発足して5年くらいかけて公開にこぎつけたらしい。しかし機械学習の分野は日進月歩の分野なので初期にはタグづけしてなかったんだろう。公開直前になって成果がパっと見寂しいのであわてて機械学習のタグづけをつけたんだろうか。book_jacket, television, monitor, screen などのタグの存在は画像認識では常識である前処理が不十分であったことを示すが、これはタグ付けが不完全なものであることを示すためにわざと残したんだろうか。技術屋・指示者・研究者の連携をまったく取らないまま粗忽のうちに公開したものとしかおもえない。また華北交通だけではなく、他の写真もまじっているらしいが、その中に桑原隲藏が撮ったものまでまじっているらしい。桑原の旅行は清朝時代のものだ。「大正大東京アーカイブ」の中に幕末の写真がまじってるようなものだがそれでいいのか? 中国からのアクセスが多いのはダウンローダでぶっこぬいてるからだろう。そのうち中国で全部ぶっこぬいたのが「共享」されるとおもうのでそれを落とそうかな。

IIIF

 IIIFというのはたとえば画像を直リンクするとこうなってしまうのだが、

http://codh.rois.ac.jp/north-china-railway/iiif/color/3701-015712-0.tif/full/full/0/default.jpg

 IIIFに対応しているとこういうのが公開されてるので

http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

 これを IIIF ビューアに食わせるとこうなる。

  • IIIF Curation Viewer

http://codh.rois.ac.jp/software/iiif-curation-viewer/demo/?manifest=http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

  • openseadragonizer_iiif

http://2sc1815j.net/openseadragonizer_iiif/?manifest=http://codh.rois.ac.jp/north-china-railway/manifest/3701-015712-0.json

 という感じで好きに画像をいじれるので、こういうオープンデータの公開で普及しつつある。君見ずや出版の事業なんかもそのうちこういうビューアが発達し、IIIFビューアで見るのが標準になって駆逐されるのかもしれないが、OPDSが結局そんなに広く普及しなかったように、それはそれで棲み分けするのかもしれない。

画像認識 (機械学習プロフェッショナルシリーズ)

画像認識 (機械学習プロフェッショナルシリーズ)

同盟旬報の欠番

『同盟旬報』「同盟時事月報』

 新聞報道調査会というところが戦前戦中の通信社が出していた『同盟旬報』『同盟時事月報』(以下月報の方は略す)をデジタルアーカイブとして公開している。11月に公開された当初はネットでも話題になった。さてそのとき公開されたのは戦前分で、昭和16年以降分は2月になってから公開ということでしばらく待って、こないだ残りの分をダウンロードした。

(リンクしようとしたがいちいち連絡しないといけないらしいのでリンクしない。リンクに連絡が必要というのはどういう意図かわからない)

『世界は何処へ』

 この『同盟旬報』の前身の一つである『世界は何処へ』は君見ずや出版でも出した。歴史として紙で記述されているものは、結局は要約であるから、記述する人によって重点が違い、まったく印象が違うことがある。やはり政治的に争論となりやすい時代のことを今の記述だけで見るのは問題があり、そのころの生の雰囲気の一端を知るために、そのころどのように報道されたかということを知るのは重要だ。同盟旬報は当時の報道の要約なので、生の情報ではないが、当時の人の興味の焦点がどこにあったのか、ある程度は伺える。

世界は何処へ 昭和6年?8年上半期版

世界は何処へ 昭和6年?8年上半期版

世界は何処へ 昭和8年下半期?9年下半期版

世界は何処へ 昭和8年下半期?9年下半期版

世界は何処へ 昭和10年?昭和12年

世界は何処へ 昭和10年?昭和12年

(ひょっとしてこれ出したのが刺激になったのかな? 君見ずや出版の例を参考にしてるのではないかとおもう出版物がときどきある。復刻の企画立てる人もネタ探しに苦慮してるんだろう)

欠番の問題

 で、だ。『同盟旬報』であるが、ネット上で閲覧する以外に直接一括ダウンロードできる。なかなか強いサーバに置いてあるようで、光回線ならあっという間に落ちてくる。もともとファイル名はセットの連番、ファイル連番、巻号というふうに付番されているが、そのままでは使いづらいので、いつの情報が要約されているのか年月旬を追加していったところ、規則に合わないところがあってズレる。

f:id:inudaisho:20190212135250p:plain
こんな感じでファイル名をつけなおした

 どこで失敗したのか調べたところ、138号が欠けていた。もともとダウンロードページからリンクを抽出して一気に落としていたので、失敗しているなら落としなおせばよいまで。いうことで、ダウンロードページにアクセスしなおしてみると、そもそもファイルのリンクが切れていた。pdfとして一括で置いてなくても、ビューアで一ページづつみれるので、そのPDFを全部落として結合すればよく、そのようにして復元したのだが、極めて機械的な作業なのになんでなかったのだろう。

138号と日ソ中立条約

 さてその号をみると昭和16年(1941)4月中旬号で、主要記事の一番は「日ソ中立条約」。あらあら。特にこの号は松岡洋右スターリンと面会して話をまとめたその週が含まれ、近衛がその帰りを待つという状態。政治的には非常に重要な号だ。そんな重要な号をすぐダウンロードできないようにしてあるのを見ると、心が汚ない自分としては、単純なミスというよりも別のなにかを疑ってしまう...のだがまぁ見れれば何でもいい。ごちゃごちゃ書いてたけどそんなことに時間かけるの無駄だと思いなおして消した。

(20190219 今は落とせるようになっている)

考証日ソ中立条約―公開されたロシア外務省機密文書

考証日ソ中立条約―公開されたロシア外務省機密文書

松岡洋右―その人間と外交 (中公新書 259)

松岡洋右―その人間と外交 (中公新書 259)

海信 A6 (Hisense A6) グローバルバージョンの噂

日本人入手者の声とGoogleアプリのいれかた

 海信(青島 ハイセンス) の 海信A6(Hisense A6) を手にいれた日本人は Twitter 上で2人確認しているが、不満の声は出ていない。一人は YotaPhone2 のユーザなのだがその後の不満を確認しないので、わるくないんだろう。いいな。Yota3+ はいいところもあるが肝心の電子ペーパー面の制御など不備が多く、百度貼吧では「鶏肋半製品」XDAでも "Buggy" という評価になっている。

 さてデフォルトでは Google アプリが使えないらしいのだが、中国人の嫁さんを持つもうひとりの入手者はこういう方法で解決していた。

 この「Google 空間」を中国のネットの奥から拾ってきてインストールするらしい。たぶん「上に政策あれば下に対策あり」の中国人の間では常識のようになっているんだろう。まぁしかしあやしいアプリをいれるしかないのはどうなのかな。

グローバルバージョンの噂と公式カスタムROM

 こないだ Yota3+ について買う人いる?みたいなこと書いたところ、昨日深夜 Twitter にDM送ってきたイタリア人がいた。早朝気付いてやりとりしたところ、 Yota3+ を買うために日本まで行こうかなというくらいの勢いだったが、電子ペーパー面のことについて書くとかなり興味を失った様子だった。彼は Hisense A6 と Yota3+ で迷っていたらしい。

 で、その彼がウォッチしていた XDA のスレがあってそこにそろそろグローバル版がでるとかなんとか情報が書いてあったのだが、もっとおもしろいことに、海信の技術者がgoogle アプリが入っているカスタムROMを配布しているらしい。(最初はメールするのかと誤読したがどうもこの書き方だと本体を送付してROMを直接焼いてもらうようだ。) 一種のテスターみたいなもん?というよりは中国的なサービスだな。

Hisense a6 (double screen) - Post #17

 ということで、おそらくそれがグローバル版の下敷になるんだろう。ここまでできてるならグローバル版が出るのもすぐではなかろうか。うーむ。うらやましい。

ハイセンス 50V型 液晶 テレビ HJ50N3000 4K 外付けHDD裏番組録画対応 メーカー3年保証

ハイセンス 50V型 液晶 テレビ HJ50N3000 4K 外付けHDD裏番組録画対応 メーカー3年保証

ハイセンス 冷凍冷蔵庫 93L HR-B95A

ハイセンス 冷凍冷蔵庫 93L HR-B95A

AtCoder 「みんなのプロコン2019」予選 3完 黒歴史

総括

 今回三完。黒歴史の回。どこが黒歴史か、書きたくないのだが、書いていく。Cでハマってそれで終わった。ちなみに全部静的に解いた。

AB

 今回A出すのに5分もかけてしまった。どうも気が焦って1づつの隙間が何個あればよいかパっと頭にでてこずモヤモヤしてたせいでそんなにかかった。Bはそこからさらに15分。これも絵に書いたら簡単だったものの、方針がすぐに立たずにすこし模索したのでそうなった。全部連結されているので線状にならず星状になったらダメだがそれを出すのにいちいち木をつくって三本つながってる点があったらダメとした。構築して枝の数を数える。どうも迂遠だ。

 ここまで時間かかったのは手の遅い自分としてはよくあることで黒歴史ではない。

C

 さて黒歴史のCだ。Cも動的なものを書かず静的に解いたのだが、あにはからんや、テストケースが一つ抜けない。うーむ。こういうときはどっか境界条件適当に書いてるせいだなと見直すがどこが間違えているのかよくわからん。

K,A,B=[int(_) for _ in input().split()]
if B <= A+2 or K <= A+1 :
    print(K+1)
else:
    d = (K+1) - (A+2)
    d = (d // 2) * (B-A)  + (d%2)
    print( d + B)

 すぐ解決して、あと一問とりかかれるだろうとおもいきや、最後までこの問題の見直しに足を取られてしまった。上の問題でどこをまちがえていたかというと、最初の条件のここだ。そんな初歩的なところで落としてるとは思わず後ろの方ばかり見直してたので気付くのが遅れた。

K <= A+1

 こんなとこで穴を開けてしまって通せなかったのがつらい。これ、交換が一回できるかできないかという条件で一回ちょうどできるのを取り零していたわけでまさに境界値。=がいらない。間抜け罠.. そこに気付いてなんとか通したが終了12分前。しかも解答率無茶苦茶高い.....

 ただこういう時後ろの問題を検討しに行ってよく虻蜂取らずになっていたところ、行かずに最後までやったのは悪くなかったかな。それくらいしか褒めるところがない。

レート

 今回こそレート落ちるだろ。まぁ落ちた方がよい。

f:id:inudaisho:20190209233830p:plain
レート落ちた

 ちゃんと落ちてた。意外と落ちないもんだな。

SanDisk Cruzer Fit USBフラッシュメモリー 32GB [国内正規品] SDCZ33-032G-J57

SanDisk Cruzer Fit USBフラッシュメモリー 32GB [国内正規品] SDCZ33-032G-J57

富士通のパクリ電子ペーパー「QUADERNO」とソニーの新電子ペーパーの噂

 富士通クライアントコンピューティングがSONY電子ペーパーの下請けから調達したのかなにかわからんがほぼ同じ機械に「デジタルペーパー」とか「電子ペーパー」とか名前をつけて売り出していたものに名前がついたらしい。QUADERNOだとか。

prtimes.jp

www.fujitsu-webmart.com

 QUADERNO の名前の由来もなにも書いてないが、クアッドコアをもじっただけだろう。腐敗堕落の50代が退職金もらえるまでの腰掛けでやってるやっつけ仕事だと思うと涙を誘う。 (QUADERNO の由来はイタリア語の「ノート・手帳」らしい)

 最近の富士通のパソコンは露骨で、レッツノートにいろんな特徴をぶつけてきているのだが、こちらも簡単に言うとパクってきてなかなかおもしろい。富士通クライアントコンピューティングは名前だけは富士通だが、富士通のパソコン部門は整理されてレノボ(北京 聯想集団)に売り飛ばされている。だから、ここまで露骨な攻め方ができるのは上長がレノボになってそういうゲスな攻め方がしやすくなったということかもしれない。いかにもうちが新しく価値を創造したみたいな感じの宣伝でこいつら頭どうかしてるのかと首をかしげるところだが、ネットも見ず電気屋も行かず電話はガラケー仕事はFAXのおじさん連中に売りつけるとおもえばそんなもんかもしれない。

 ところでレノボ電子ペーパーとLED液晶 で 2in1 の YogaBook を作るなど電子ペーパーでおもしろい試みをしているし、文石科技(広州、Onyx) や 博閲科技(深圳 Boyue)など電子ペーパータブレット専門の会社もあるので、こんな板新しく作ればいいんじゃないかと思ってしまうが、モノとしての出来はなんといってもソニー電子ペーパーが一番よい。このレベルの仕上げはまだまだマネできないんだろうか。そんなモノの優位をソニーは簡単に手放していいんだろうか?とおもっていたが既に次の電子ペーパーの新製品を準備しているらしい。ということはレノボ(富士通)は旧製品になるものを必死に売り出しているということだろうか。ひょっとしたら在庫処分なのかもしれない。そう考えると退職金をもらえるようになるまでの腰掛けの50代の仕事としてはふさわしいのかも。

 ところでソニーの新製品の噂はこれ。おなじみ事情通のGood eReader のそれぞれ去年10月・8月の記事だ。

goodereader.com

goodereader.com

 去年10月の時点で今後6ヶ月のうちに出ると書いてあるので、そろそろその6ヶ月もおわる。四月だろうか?あるいは三月? どうもこういった eInk 関係のデバイスは eInk社(台湾 元太科技)の製造ラインがネックなのかよく出荷開始が遅れる事が多いので遅延もあるかもしれないがさすがに去年ここまで書かれている記事の計画がさらに伸びることはないんじゃなかろうか。どんな製品が出てくるのか期待したいところ。

(20190428 追記) もうそろそろ 5月になり年号も変わりそうだが新製品の情報が出てこない。ひょっとしてソニー内部の再編で消滅したんだろうか。

ソニー デジタルペーパー DPT-S1

ソニー デジタルペーパー DPT-S1