よく分かる!

研究最前線
コンピュータ・サイエンスからことばの神秘に迫る
「言語情報科学」



人間科学学術院 菊池英明准教授
1969年生まれ。早稲田大学理工学部電気工学科卒業。同大学理工学研究科修士課程電気工学専攻修了。日立製作所中央研究所研究員、早稲田大学理工学総合研究センター助手、国立国語研究所非常勤研究員、早稲田大学人間科学部非常勤講師・専任講師を経て、2005年3月から現職。

こんな研究をしています
言語の獲得
 言語獲得のシミュレーション
Web検索
 主にブログを対象とした新語の抽出、評判解析、リコメンデーション
感情推定
 音声から話者の感情を推定し、対話ロボットに応用
音声認識
 音声認識技術の実用化、講義音声検索システムの開発
言語データベース
 日本語の話しことばやアイヌ語の稀少言語データベース化
(今号の研究最前線では、感情推定の研究に関してお話をお伺いしました)
菊池研究室のゼミ風景
▲菊池研究室のゼミ風景。言語情報科学に関心を持つゼミ生たちの活発な議論から新たな挑戦が生まれる。

 人間は、生まれた時からことばを話せるわけではない。ことばを覚え、学び、相手に伝えられるようになるといった子どもの学習能力は、現在のコンピュータにない驚異的な能力なのだ。

 人間科学学術院菊池英明准教授が研究されている「言語情報科学」は、とても神秘的で興味深い分野だ。コンピュータ・サイエンスを駆使し、ことばのメカニズムに挑む。言語学、認知科学、脳科学で得られた知見に基づき研究を試み、その成果は人間の生活のさまざまな分野へと応用が期待されている。

人工知能の研究

 菊池先生の数々の研究のなかにはロボットに人工知能を構築する研究がある。これは人間の話しことばを理解して応答するシステムであるが、キーボードで文字を入力するのではなく、音声に含まれた意味や感情をロボットに推定させるといったシステムである。

 この研究を進めていくには、まず見本となる人間そのものが、いったいどのようにして会話をしているのかを明らかにすることが、第一課題となる。

人間の話しことばに含まれる要素

 人間の話しことばの音声の中には、主に次の3つの要素が含まれ、相手に伝達されている。

  1. 言語的情報:音韻情報、同音異義語の区別、文構造の明確化、文体の区別、談話構造の明確化。
  2. 非言語的な情報:性別や年代。
  3. パラ言語的情報:言葉の強調、感情伝達、心理状態の表現、発話権制御。

 これらの要素をつかさどる人間のことばの仕組みは、究極的には脳にある。脳の話しことば処理の解明が進めば、いつの日か、感情豊かに会話するロボットが誕生するだろう。しかし、人間の脳の解明には、まだまだ長い年月がかかりそうだ。

 言語情報科学の研究では、すでに解明されている脳の仕組みに加え、未解明な部分は他の研究分野の知見で補いながらシミュレーションを重ねて、さらに進んだ対話のシステムを作り上げていくのを目標としている。

会話システムは、こんなプログラミング

 人工知能を持ったロボットに、まず「言語的情報」を解析させることが必要だ。コンピュータにはあらかじめ単語や文、文の表現形式などをプログラミングしておき、そこから音韻情報、同音異義語の区別、文構造の明確化、文体の区別、談話構造の明確化を行なう。こうして受け取った音声が、言語的にどのような構造なのかを理解させるのである。

 次に事前にプログラミングしておいた、「こういう単語、文、表現形式がきたら」→「こういうことばを返す」というルールに基づいて、会話の状況や相手の感情に臨機応変にあわせながら応答させるのだ。

ロボット犬AIBOも立派なペット? AIBOがオーナーの感情を理解する

所沢オープンキャンパスでのロボット犬AIBOを使ったデモンストレーション
▲所沢オープンキャンパスでのロボット犬AIBOを使ったデモンストレーション

 AIBO(ソニー製)という人工知能を組み込んだロボットを使って、オーナーが感情を込めてAIBOを呼んだとき、AIBOがそれに合わせた応答をする仕組みを構築している。

 「AIBO〜」と誉めた口調のときと「AIBO!」と叱った口調のとき、それぞれの平均的な音声の周波数などを解析して、オーナーの問いかけに応じるようにしている。  誉めと叱りの口調では、声の高さや強さ、速さが異なり、音声の抑揚のパターンが異なるのである。この抑揚のパターンを元にして、誉めた声のパターンにはAIBOが喜ぶ動作をするようにし、叱った口調のパターンには、AIBOが戸惑うような動作をするようにプログラミングする。こうして、ロボット犬AIBOが、まるで本物のペットのようにオーナーの呼びかけに応じることができようになるのである。

左のデータは誉めた口調、右は叱った口調で発声したときの音の高さ、強さ、速さ。
▲左のデータは誉めた口調、右は叱った口調で発声したときの音の高さ、強さ、速さ。

コンピュータが人間の 感情を推定する?

 会話中のさまざまな話者の感情や態度が、「パラ言語的情報」として音声に表現されている。菊池先生の研究では、誉め/叱りの他にも、喜怒哀楽、丁寧/ぞんざい、快/不快、肯定/否定などのさまざまな感情や態度の推定に挑戦している。

 菊池研究室では、最近、Webのブログから書き手の感情や態度を推定する技術の研究を進めている。アーティストの楽曲や新しい電化製品などについて、世の中の人たちがブログに書いた評判を集めて解析する技術の本質は、音声から話者の感情や態度を推定する技術とよく似ているそうだ。

言語情報科学の近い未来

 これらの実験のように言語情報科学の世界には、未知なる可能性が秘められていることは確かだ。神秘的な人間の脳の働きや人間がどうやって言語を操っているのかを知り、そして人間の成り立ちについて研究することが、言語情報科学の発展には欠かせない。

 人と人がことばを交わす。そのことばを理解できなければただの音声にすぎないが、理解をできたところから、多彩な可能性が生まれてくる。さまざまな研究室の協力のもと、人間とコミュニケーションが取れる、次世代の人工知能を持ったロボットが誕生する日も近いだろう。

■Web検索システムは貴重な言語の資源

 菊池研究室では、音声からの感情推定技術で培ったノウハウをWeb検索システムにも活かしている。

 人類の英知を検索する、というモチーフから名づけられた「英索」は、ブログ記事から新しい語を抽出したり評判を解析したりする機能を持つ。「音索」は、講義の中で講師が話したことばを文字にして検索できるシステムである。「意味索」は、Web上で使われている語と語の意味的な関係を自動的に分析して、意味を重視した検索ができるようになっている。(いずれも共同研究の関係で一般公開はしていません)

「英索」「音索」「意味索」

 研究室で行なわれている言語獲得のシミュレーションでは、一人の話者の音声から日本語の5つの母音を自動的に判別する能力の実現が確認されている。図1は、母音を区別する際に使われるフォルマントと呼ばれる情報の分布。図2が学習されたカテゴリー。


図1. SOMの入力値(一人の話者の音声のフォルマント解析結果)

図2. 学習された母音のカテゴリー

韻律と音声言語情報処理

文部科学省の特定領域研究の成果。音声の研究者や、研究予定の人だけでなく、音声に一般的な興味を持っている人も利用できるように、解説的側面を重視して書かれている一冊。
 筆者:菊池英明、白井克彦ほか 丸善鰹o版 ¥3,675(税込) 2007年1月刊

(2007年6月21日掲載)

Copyright (C) 2007 Student Affairs Division, WASEDA University. All rights reserved.
First drafted 2007 June 21.