平成28年度(2016) 成果報告2

「くずし字OCR」を活用した総合的古典籍データベースの構築


演劇博物館が収蔵する古典籍を対象に、「くずし字OCR」技術のシステムを活用して新たな研究促進環境を整備し、古典籍関連データベースを強化することで利活用の飛躍的な向上を目指す。本年度は、総合的古典籍データベースを構築するための基礎準備期間と位置づけ、対象資料を「浄瑠璃丸本」と「歌舞伎番付」に選定して字形データベースとその新表示システムを作成し、「くずし字OCR」機能の精度向上と実用化に向けた改善事項の検討を行った。今後は、初習者や海外の研究者による古典籍への関心拡大や判読技術の普及につながる利活用を視野に、OCR 技術の更なる活用を図る。


『仮名手本忠臣蔵』翻刻テキストの新表示方法の一例

「浄瑠璃丸本」は浄瑠璃のテキストと節付けを含む出版物であり、17世紀半ば以降に全国で広く普及した。日本各地の資料館に浄瑠璃丸本資料が点在するが、演劇博物館は国内随一の所蔵数を誇る。本年度は既に翻刻されている『仮名手本忠臣蔵』を対象に、独特の書体、特徴的な字組(間隔の狭さ・傾斜など)に留意し、約4万8千字からなる字形データベースを作成し、資料内での位置や形態を忠実に反映した新たな表示方法を構築した。

「歌舞伎番付」は演目、出演者、配役などを記した興行資料であり、17世紀半ば以降に大量に発行された。演劇博物館は江戸期全般にわたって江戸・上方など全国各地の番付を所蔵している。本資料は字の配列に規則性がある一方、字幅の変化が大きい点が技術的課題となる。本年は歌舞伎各座の新年度の顔ぶれを紹介する一枚刷の「顔見世番付」と、興行ごとに発売される冊子体の「役割番付」を各18点選び、頻出する姓名などでグループ化し独自の字形データベースを作成した。

古典籍から切り出した文字データを体系的に収集した「字形データベース」の活用により、翻刻結果の利用だけではなく、初習者や海外研究者による判読技術の習得や、そのデータ公開を通じた関連データベースとの連携などへの応用が可能となる。そこで凸版印刷株式会社に技術面での助言や作業を依頼し、直観的な操作方法とデータベースとしての汎用性を兼ね備えた画期的な新表示システムを作成し利用している。こうした革新的技術と専門家による知見を組み合わせ、浄瑠璃本の文字譜に記された歌唱法などの体系的分析や、膨大な興行情報を記録する番付のデータベース構築も見据え、今後のOCR 精度向上やデータベースのウェブ公開などに尽力したい。


字形データベース例『仮名手本忠臣蔵』より「と」