« 『Last Train Home』   Pat Metheny Group | トップページ | 白井晟一作品 『旧雄勝町役場』 »

2016.04.28

MOJIZO(木簡・くずし字解読システム)…そして

20160429_165412
 
 文書の崩し字、あなたも読めます 画像から似た字検索
 ようやく、こういうシステムが登場したかという感じ。ずいぶん前から早くできないかなあと思っていましたし、いろんな人に早く作ってよと言ってきたんです。
 まあ、私が望む、文脈も加味して一瞬で1ページ分活字体に直しちゃう!というのには程遠いけれども、最初の一歩ということで。
 実際、これだけでもずいぶん便利になりましたよ。
 私もずいぶん古文書を読む練習をしてきましたが、どうも長続きしないというか、どんどん忘れちゃう。くずし字字典で探すのも一苦労。
 幸いに、私が対面しているアヤシイ地方文書群は、とりあえず近代の産物のようなので、ほとんど崩されていません。だから直接読める。ちょっとだけ変体仮名を覚えればいい程度。
 しかし、一般に古文書、特に近世地方文書となると、たいがいがくずし字のオンパレードで、一部の好事家…なんて言うと失礼ですね、真面目な研究者、奇特な郷土史研究家のおじいちゃまくらいしか、スラスラとは読めない。
 しかし、昔の人は読んで書いていたわけですから、つまりは記号としてかなりの一般性というか、規則性を持っていたわけで、それは現代の人よりも、現代の機械(コンピュータ)の方が得意分野なはずです。
 そう思っていたので、上記の要望をその道の専門家の方に陳情していたわけです。
 さてさて、上の画像は、さっそく「酒」というくずし字を読み込ませてみた結果です。
 お〜!ちゃんと「酒」が第一位に表示されている。それも平城宮の木簡ですか(笑)。そこまで行かなくてもいいのに。
 要は、くずし字字典に載っているサンプルをデータ化して…と思ったら、スミマセン、実はもうちゃんと開発されていましたね。今知りました(笑)。さすが凸版印刷さん。

「凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発
~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~」

 これですよ。私が望んでいたのは。8割の判別成功率か。まあまあでしょうね。文脈までは加味されていないようですから、まだまだこれから進化する余地はあると思います。
 どんな分野もそうですが、こうしてAIが進歩しますと、それこそ好事家さんや奇特なおじいちゃまたちは絶滅してしまうのでしょうかね。

|

« 『Last Train Home』   Pat Metheny Group | トップページ | 白井晟一作品 『旧雄勝町役場』 »

ニュース」カテゴリの記事

パソコン・インターネット」カテゴリの記事

文化・芸術」カテゴリの記事

文学・言語」カテゴリの記事

書籍・雑誌」カテゴリの記事

歴史・宗教」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/55913/63554589

この記事へのトラックバック一覧です: MOJIZO(木簡・くずし字解読システム)…そして:

« 『Last Train Home』   Pat Metheny Group | トップページ | 白井晟一作品 『旧雄勝町役場』 »