Waseda Institute for Advanced Study (WIAS)早稲田大学 高等研究所

News

ニュース

雑音の中から目的の音声をクリアに取り出す 小川哲司 助教 (2008年10月当時)

  • 小川 哲司(Tetsuji Ogawa)助教(2008年10月当時)

音声認識技術の実用化

最近、音声操作のできる製品が売り出されています。たとえば運転中、声に出すだけで行き先をカーナビに設定できれば便利ですよね?そうした期待にこたえるべく、いくつかの企業が音声認識機能を搭載したカーナビを発売し始めました。
しかし、実際には「ちゃんとしゃべっているのに認識しない」といった不満の声が多く、利用している人はあまり多くありません。カーナビの音声認識がうまくいかない理由は、利用者の声質や話す速度、周囲の雑音など様々です。場合によっては認識率が50%を下回ることもあり、実用化のレベルにはまだ達していないのが現状です。
そこで、私は雑音と目的の音声を区別する研究に取り組んでいます。この研究はテレビ電話やハンズフリー通信などの雑音カットにも応用できます。

音声から文字データを割り出す

では、音声認識のメカニズムがどのようなものか、直感的な説明をしましょう。まず、マイクロホンに入ってきた音の周波数の特徴をもとに、システムに組み込まれている単語の中から可能性の高いものをいくつか候補として選びます。これは、音の周波数の特徴に基づく音韻らしさ(「あ」らしさ、「い」らしさなど)のパターンから単語を推定する「音響モデル」を用いて行います。次に、言葉の並び方のパターン(たとえば「私」ときたら「は」や「が」がくるなど)によって入力された単語を推定する「言語モデル」を使って、最終的にもっとも可能性の高い単語が決定されるという仕組みです。
ここに雑音が入るとどうなるでしょう。音響モデルは一般的にクリーンな音声を用いて作られています。そのため、雑音が混ざった音声と音響モデルはミスマッチを起こしてしまい、その結果、音声認識性能が著しく劣化してしまうのです。そこで、以前から雑音を取り除く音源分離の研究が行われてきました。たくさんのマイクロホンを使えば容易に雑音が取り除けますが、それでは装置が大きくなり、コストもかかってしまいます。また、2つのマイクロホンを使った方法もありますが、高い音源分離性能を得ようとすると計算コストが高くなる傾向があり、実用性が低いのです。私はこうした難点を克服する、より実用的な方法を考えました。

複数のマイクロホンで正面からくる音声のみを抽出

2つのマイクロホンを並べて置き、少し離れたところから声を出したとしましょう。音は距離が長いほど伝わるのに時間がかかりますから、2つのマイクロホンに同時に音が届いたとき、声を出した人は2つのマイクロホンから等距離の場所にいることになります。逆に、等距離のところから発せられた音は2つのマイクロホンに同時に届き、同じ音声信号が入力されるので、これらの音声信号の差をとるとゼロになります。つまり、このようにして得られる信号は、正面からくる音が抑圧された信号になるということです。また、片方のマイクロホンの信号を僅かに遅延させた上で差を取り、そうして得た信号を用いて、正面からくる音を強調した信号を得ることができます。目的とする音声が正面からくるとすれば、正面からくる音を強調する信号から正面からくる音を抑圧する信号を差し引くことで、目的とする音声のみを抽出することが可能になるわけです。
これまで、音声信号を足して正面の音を強調する方法は考えられていましたが、それだとあまり鮮明な音は得られません。音声信号を引いて目的の音に鋭い指向性を向けるという考えは、まさに発想の転換でした。また、このシステムはとてもシンプルなため、計算コストが低く抑えられます。これは実用化する上で大きな利点です。

実用化に向けて

一般的に雑音は、他者の話し声のように方向性を持った「指向性雑音」と、エアコンのように音が一方向に特定できない「拡散性雑音」の2種類にわけられ、これまでの方法ではそれぞれの雑音を別々に処理していました。ここで紹介した方法は、両方の雑音を同じフィルタで処理できます。現在は携帯端末への応用を進めており、より鮮明に話者の声を強調するために、4つのマイクロホンを正方形の4隅に置く方法を考えています。開発に向けて、装置の小型化に取り組んでいます。
また、ロボットへの応用にも力を入れています。研究室で開発を進めている対話ロボットROBISUKEの頭の上に4つのマイクロホンを置いて雑音を取り除き、前方にいる対話相手の声だけを鮮明に認識するようにしています。

同一の空間フィルタを用いて、指向性雑音と拡散性雑音を同時に抑圧することが可能となる。4つの空間フィルタの出力に対して最小パワーのチャネルの信号を選択することで、正面に鋭い指向特性を形成し、正面以外からくる指向性雑音を抑圧する。また、同じ空間フィルタの出力に対して相関(コヒーレンス)の低い成分としてあらわれる拡散性雑音を抑圧する。(提供/小川哲司助教)

同一の空間フィルタを用いて、指向性雑音と拡散性雑音を同時に抑圧することが可能となる。4つの空間フィルタの出力に対して最小パワーのチャネルの信号を選択することで、正面に鋭い指向特性を形成し、正面以外からくる指向性雑音を抑圧する。また、同じ空間フィルタの出力に対して相関(コヒーレンス)の低い成分としてあらわれる拡散性雑音を抑圧する。(提供/小川哲司助教)

取材・構成:秦千里
協力:早稲田大学大学院政治学研究科MAJESTy

 

Page Top
WASEDA University

早稲田大学オフィシャルサイト(https://www.waseda.jp/inst/wias/)は、以下のWebブラウザでご覧いただくことを推奨いたします。

推奨環境以外でのご利用や、推奨環境であっても設定によっては、ご利用できない場合や正しく表示されない場合がございます。より快適にご利用いただくため、お使いのブラウザを最新版に更新してご覧ください。

このままご覧いただく方は、「このまま進む」ボタンをクリックし、次ページに進んでください。

このまま進む

対応ブラウザについて

閉じる