文字認識と音声合成の複合機能
「二宮くん」には大きく分けて文字認識機能と音声合成機能が備わっている。目に搭載されたディジタルカメラから1ページの画像全体を読みとり、次に各文字を認識する。数種類のフォントの違いにも対応できるようになっているが、残念ながら学習されていないフォントの文字や手書き文字は認識できない。文字認識部の出力はテキストデータである。これをTEXT-TO-SPEECHで音声合成し、ロボット下部に搭載されているスピーカから声として出力する。現在、ひらがな、カタカナ、漢字、記号の2,300字種を登録しているが、今後さらに増やす予定である。また、スキャナではなく、ディジタルカメラを使っているため、照明の影響や本の文字サイズの影響を受けやすいのが大きな弱点となっている。今後、この弱点を克服し、認識性能をさらに向上させる予定である。また、音声合成する能力は、文字ごとの音声出力で、文脈全体を理解した感情の表現はまだまだこれからである。
海外連携でさらなる発展と多言語化を目指す!
今回の研究開発は、海外連携プロジェクトであり、上海交通大学の趙群飛教授、朱杰教授、北九州工業高等専門学校の山内幸治准教授との共同研究である。この海外連携プロジェクトは、2007年10月31日(水)に締結された北九州市・財団法人 北九州産業学術推進機構〔FAIS〕・上海交通大学の三者間「科学技術・人材交流促進等に関する協定」に基づいて実現したものである。この協定で上海交通大学は、本学情報生産システム研究センターに北九州研究室を開設、海外連携プロジェクトがスタートした。また、文部科学省が実施する知的クラスター創成事業(第II期)の「高速パターンマッチング回路の合成とその応用に関する研究開発」とも連携している。また、上海交通大学におけるロボットは、中国語と英語に対応している。
「二宮くん」は毎年バージョンアップを行い、随時公開していく予定である。 |