MOJIZO(木簡・くずし字解読システム)…そして
古文書の崩し字、あなたも読めます 画像から似た字検索
ようやく、こういうシステムが登場したかという感じ。ずいぶん前から早くできないかなあと思っていましたし、いろんな人に早く作ってよと言ってきたんです。
まあ、私が望む、文脈も加味して一瞬で1ページ分活字体に直しちゃう!というのには程遠いけれども、最初の一歩ということで。
実際、これだけでもずいぶん便利になりましたよ。
私もずいぶん古文書を読む練習をしてきましたが、どうも長続きしないというか、どんどん忘れちゃう。くずし字字典で探すのも一苦労。
幸いに、私が対面しているアヤシイ地方文書群は、とりあえず近代の産物のようなので、ほとんど崩されていません。だから直接読める。ちょっとだけ変体仮名を覚えればいい程度。
しかし、一般に古文書、特に近世地方文書となると、たいがいがくずし字のオンパレードで、一部の好事家…なんて言うと失礼ですね、真面目な研究者、奇特な郷土史研究家のおじいちゃまくらいしか、スラスラとは読めない。
しかし、昔の人は読んで書いていたわけですから、つまりは記号としてかなりの一般性というか、規則性を持っていたわけで、それは現代の人よりも、現代の機械(コンピュータ)の方が得意分野なはずです。
そう思っていたので、上記の要望をその道の専門家の方に陳情していたわけです。
さてさて、上の画像は、さっそく「酒」というくずし字を読み込ませてみた結果です。
お〜!ちゃんと「酒」が第一位に表示されている。それも平城宮の木簡ですか(笑)。そこまで行かなくてもいいのに。
要は、くずし字字典に載っているサンプルをデータ化して…と思ったら、スミマセン、実はもうちゃんと開発されていましたね。今知りました(笑)。さすが凸版印刷さん。
「凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発
~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~」
これですよ。私が望んでいたのは。8割の判別成功率か。まあまあでしょうね。文脈までは加味されていないようですから、まだまだこれから進化する余地はあると思います。
どんな分野もそうですが、こうしてAIが進歩しますと、それこそ好事家さんや奇特なおじいちゃまたちは絶滅してしまうのでしょうかね。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- バッハ『フーガの技法』を見る(2023.12.04)
- 資源大国日本?(2023.11.27)
- 【読解力】社会人1万人以上見て分かった”文章読めない”人の特徴 (サトマイ)(2023.11.13)
- MacBook Pro(M1 2020)(2023.10.31)
- 『黒本 五』 高城剛(2023.09.30)
「ニュース」カテゴリの記事
- 富士山ラドン濃度急上昇と新島・神津島近海地震(2023.11.16)
- 追悼 大橋純子さん(2023.11.11)
- The Beatles 『Now and Then』(2023.11.02)
- 谷村新司 『群青』(2023.10.26)
- 二度目の天の岩戸開き(2023.10.18)
「書籍・雑誌」カテゴリの記事
- ナイツ 『野球寿限無』(2023.11.15)
- 『松葉健康法』 高嶋雄三郎(2023.11.06)
- 廣松渉の「世界の共同主観的存在構造」(2023.10.25)
- 『本學ノスゝメ』出版 クラウドファンディング!(2023.10.06)
- 『安倍元首相を狙撃したのは本当に山上なのか?』 中田健二(2023.10.05)
「文化・芸術」カテゴリの記事
- グレン・グールドの『バッハ フーガの技法』(2023.12.06)
- 『首』 北野武 脚本・監督・編集作品(2023.12.05)
- バッハ『フーガの技法』を見る(2023.12.04)
- 濱田あや 『デュフリのガヴォットとシャコンヌ』(2023.11.30)
- 不動明王の愛の荒魂(2023.11.28)
「文学・言語」カテゴリの記事
- グレン・グールドの『バッハ フーガの技法』(2023.12.06)
- ナイツ傑作漫才集(2023.11.20)
- 在原業平の墓(滋賀県高島市マキノ町在原)(2023.11.18)
- 十三(じゅうそう)(2023.11.17)
- ナイツ 『野球寿限無』(2023.11.15)
「歴史・宗教」カテゴリの記事
- グレン・グールドの『バッハ フーガの技法』(2023.12.06)
- 『首』 北野武 脚本・監督・編集作品(2023.12.05)
- バッハ『フーガの技法』を見る(2023.12.04)
- 香椎宮にて(2023.12.03)
- 福岡のパワーの源は…(2023.12.01)
コメント