人間科学学術院 菊池英明教授

【音声対話×データサイエンス】

音声やテキストをデータ化して「人間と機械の自然な会話」を実現する

早稲田大学人間科学学術院菊池英明教授

人と機械が自然に会話する――アニメや映画で描かれていたこの技術は、いま現実のものとなりつつあります。その背景には、音声やテキストをデータとして処理して活用する「自然言語処理」や「音声認識」などの長年の研究の蓄積があります。人間科学部の菊池英明教授は、1990年代から「音声対話システム」の研究を続けてきたエキスパートです。データサイエンスを用いて、「人間と機械の自然な会話」を実現する研究の現在地について聞きました。

学生時代から「音声対話システム」の研究に従事

——菊池先生のご専門について、詳しく教えてください。
学生時代から一貫して、「人間と機械が自然に会話できるようにするにはどうすればよいか」という問いに向き合ってきました。特に専門としてきたのは、「音声対話システム」です。人が話した言葉、いわゆる「自然言語」をコンピュータが理解し、適切に応答するシステムのことで、こうした研究は、「自然言語処理」と呼ばれていました。ChatGPTが登場した現在では、当たり前になったこの機能も私が研究を始めた1990年代初頭の段階では、まだまだ使えるような代物ではありませんでした。

当時から音声認識の技術はありましたが、精度は非常に低く、例えば、10語の文を話しても、そのうち6語か7語しか正しく認識されない……。それでは会話など到底成り立ちません。それでも私は、「いずれ技術は進歩し、人間と機械が自然に対話できる時代が来る」と信じて研究を続けてきました。そして現在、その未来が現実のものとなりつつあることに、大きな驚きと喜びを感じています。

私の研究室では、「言語情報科学」という枠組みで研究を進めています。これは、言語学の知見と情報科学を組み合わせた分野で、自然言語をデータとして扱い、コンピュータで解析し、活用することを目指しています。例えば、私の専門である音声認識においては、人の声は物理的には音波として扱います。それをデジタル信号として処理して、人間が感じる高さや抑揚といった特徴を数値化して表現します。また、テキストについても単なる文字列ではなく、意味や意図を推定する対象として扱います。こうした処理の積み重ねが、現在の生成AIの音声対話システムにつながっているのです。
ただし、現在の音声対話システムもまだまだ完全ではありません。特に難しいのは、「自然な会話らしさ」をどう実現するかという点です。人間同士の会話では、相づちを打ったり、途中で割り込んだり、タイミングを見て発話を調整したりします。しかし、こうした振る舞いはまだ完全には再現されていません。この「会話のメカニズム」を明らかにすることも、私の研究の大きなテーマの一つです。

——音声対話システムの研究にはどのようなデータが必要でしょうか？

私の研究の基盤になるのは、「大量のデータに基づく統計分析」です。音声認識でも自然言語処理でも、基本は会話の音声やテキストの「入力」と「出力」のペアを大量に集めたデータ、いわゆる「コーパス」に依存しています。これまでの研究人生の中で、私はこうしたコーパスの構築に深く関わってきました。

特に、2000年前後に参加した国立国語研究所のプロジェクトで、音声認識や自動要約技術への活用を目的としたコーパスを大量に作成しました。当時は人の話し言葉のデータがほとんど存在せず、貴重な基盤づくりだったと思います。現在の生成AIの基盤となる大規模言語モデル（LLM）は、インターネット上の会話データなどを大量に学習したものです。

「自己開示」が相手との親密さにどう影響するか

——最近、力を入れている研究テーマがあれば、教えてください。

最近力を入れているのは、「自然な会話のメカニズム」の探究です。例えば、雑談の中で自分のことをどの程度話すか――いわゆる「自己開示」が、相手との親密さにどのように影響するかを検証しています。実験では、被験者に異なるレベルの自己開示を行ってもらい、その後の親密度を測定する。さらに、その発話内容をテキストとして分析し、どのような言葉遣いが影響を与えているのかを数値化していきます。もともと心理学や福祉分野で知られていた現象をデータ科学で検証する取り組みだといえます。

このとき活用するのが、単語や文章の意味をベクトルとして表現する技術です。これは、「ワードエンベッディング」と呼ばれる手法になります。例えば、「音楽が好き」という表現と、「Mrs. GREEN APPLEが好き」という表現では、自己開示の具体性が異なります。この違いを定量的に捉えることで、これまで感覚的に語られてきたコミュニケーションの質を科学的に分析することが可能になります。

また、音声から感情を読み取る研究にも長く取り組んできました。人間が「喜び」や「怒り」と感じる声の特徴をデータとして捉え、機械でも同様に識別できるかを検証するものです。ただし、ここには難しさもあります。ある音声を聞いて「喜び」と感じる人もいれば、「怒り」と感じる人もいる。つまり、人間自身の判断が揺らぐ場合、機械にとっても正解が一つに定まらないのです。

例えば、私の研究室の学生は、人間と機械の自然な会話を探る研究の一環として、人間の感情に同調して相づちを打つコンピュータと常にポジティブな調子で相づちを打つコンピュータを用意して、被験者がどちらと自然な会話ができるかを調査しました。実験の結果、同調を好む人とそうでない人に大きく分かれることが判明し、個人レベルのカスタマイズが必要であることがわかりました。こうした心理学的な曖昧さなどに挑むのが、文理融合の人間科学部らしいデータ科学研究だと考えています。

研究室の学生が毎年「データサイエンスコンペティション」に参加

——先生の研究室では、データ科学センターをどのように活用していますか？

共同研究そのものは多くはありませんが、教育面で大きく関わっています。特に、データ科学センター主催で毎年開催されている「データサイエンスコンペティション」には、研究室の学部生を参加させています。こうしたコンペでは、整備されたデータを使って分析を行い、その成果を競います。実際の社会では、データは最初から整っているわけではありません。自らデータを収集し、データクレンジング（精製）をして、使える形にするプロセスが重要になります。

そのため、研究室では、「データサイエンスコンペティション」への参加をステップとして、「自分でデータをつくる」ことにも挑戦させています。企業や公的機関のデータを活用するだけでなく、自らデータを収集・加工する経験を積むことで、本当に社会に出て役立つデータ分析のスキルが身につくと考えています。

大切なのは、「データを根拠にして考える姿勢」

——データサイエンスに興味がある受験生や大学生にメッセージをお願いします。

AI時代と呼ばれる現在は、技術の進歩が非常に速く、1年前の知識がすぐに古くなってしまう。まるで情報の洪水の中で生きている状況です。そうした中で重要なのは、「自分の関心を軸に学ぶこと」だと思います。音楽でもアニメでも、どんな分野でも構いません。自分が興味を持てる対象から出発し、それに関連する技術や学問を探っていくことで、変化の激しい時代の中でも自分の立ち位置を見失うことはありません。

また、データ科学において最も大切なのは、「データを根拠にして考える姿勢」です。直感や経験も大切ですが、それを他人に伝え、納得してもらうためには必ず信頼できるデータが必要になります。数学が得意でなくても問題ありません。重要なのは、「なぜそう言えるのか」をデータで説明しようとする姿勢です。この力は、将来どのような分野に進んでも必ず役に立ちます。

さらに、現在はインターネットやクラウド、生成AIといった強力なツールが揃っています。これらはすべて、自分の能力を拡張するための道具です。恐れるのではなく、自分の興味と結びつけながらフル活用してほしいと思います。

（プロフィール）
菊池英明教授　　KIKUCHI, Hideaki
一1991年早稲田大学理工学部電気工学科卒業。2002年早稲田大学大学院理工学研究科博士後期課程情報科学専攻修了。博士(情報科学)。(株)日立製作所中央研究所研究員、早稲田大学理工学総合研究センター助手、国立国語研究所非常勤研究員、早稲田大学人間科学部専任講師、助教授を経て、2012年4月から教授に。専門は感性情報学、知能情報学。

Center for Data Science早稲田大学データ科学センター

News

쀣 Tags