記事の詳細

■江戸期以前のくずし字が80%以上の精度でOCR処理可能に
凸版印刷は、江戸期以前のくずし字で記されている古典籍の文字を判別し、
OCR(光学文字認識)技術を開発。凸版印刷は、2015年夏より試験的にサービス開始予定。

●凸版印刷株式会社(以下 凸版印刷)
HP: http://www.toppan.co.jp/
本社:東京都千代田区神田和泉町1番地
資本金:104,986(百万円)(2015年3月末現在)
従業員数:単体 8,900名 連結 48,999名 (2015年3月末現在)
代表取締役社長:金子眞吾

このサービスで確立したテキストデータ化技術のシステム基盤をベースに、
公立学校法人公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、
くずし字で記されている古典籍のOCR処理を実現。

●公立大学法人公立はこだて未来大学(以下 はこだて未来大学)
HP:http://www.fun.ac.jp/
法人設立年月日:平成20年4月1日
学長:中島秀之

●寺沢憲吾准教授
所属学科:情報アーキテクチャ学科
専門分野:画像処理,情報検索,アルゴリズム

2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度で
OCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証。
原理検証実験を行う上で、凸版印刷は、
大学共同利用機関法人人間文化研究機構国文学研究資料館の古典籍共同研究事業センターとともに
課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、
および所蔵する古典籍の画像とテキスト情報の提供。

●大学共同利用機関法人人間文化研究機構国文学研究資料館
HP: https://www.nijl.ac.jp/
館長:今西 祐一郎
所在地:東京都立川市緑町10-3
電話番号:050-5533-2900

■ 本技術の特長
(HP抜粋:http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html)

・テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、
テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能

■今後の目標
今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図り、さらに本技術を発展させ、
現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、
日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献予定。

もっと精度が上がれば、
過去読み取ることのできなかった文字が読み取ることができるようになったりと今後の未来はかなり開け、
新たな発見があると思う。今後のOCR処理の進化や凸版印刷に注目していきたい。

関連記事

おすすめ記事

登録されている記事はございません。

ページ上部へ戻る