• Featured Article

Vol.3 応用言語学(3/3)【文理融合で拓く英語教育の未来】”言語テスト妥当性研究”が支えるAI設計の妥当性 / 澤木泰代教授 / 松山洋一氏

  • #ポッドキャスト

Thu 20 Jun 24

  • #ポッドキャスト

Thu 20 Jun 24

「早稲田大学Podcasts : 博士一歩前」は、早稲田大学に所属する研究者たちとの対話を通じ、日々の研究で得た深い世界や、社会を理解するヒントや視点をお届けします。
異分野の研究から得られる「ひらめき」「セレンディピティ」「学問や世の中への関心」を持つきっかけとなるエピソードを配信し、「知の扉」の手前から扉の向こうへの一歩前進を後押しするような番組を目指しています。

早稲田大学教育・総合科学学術院の澤木泰代教授をゲストに迎え、「言語テスト妥当性研究」の真髄をテーマに三回にわたってお届けした応用言語学シリーズの最終回。

澤木教授と「LANGX Speaking」の開発を手掛ける松山洋一氏のお二人に「LANGX Speaking」を支える技術や概念について伺いながら、「テクノロジー(AI)をどうデザインしていくか?」について、人文科学/社会科学の分野から考えることの重要性を探ります。

エピソードは下のリンクから

ゲスト:澤木 泰代

教育・総合科学学術院教授。専門は、言語テスト妥当性研究。
熊本大学教育学部卒業後、熊本県公立中学校教員となる。その後、イリノイ大学修士課程(英語教授法)で学び帰国。昭和女子大学英米文学科助手を経て、カリフォルニア大学ロサンゼルス校(UCLA)博士課程(応用言語学)へ。2003年よりETS(Educational Testing Service)妥当性研究センターにて常勤研究員として勤務。2009年より早稲田大学教育・総合科学学術院准教授。2014年より現職。

ゲスト:松山 洋一

株式会社エキュメノポリス 代表取締役で、早稲田大学グリーン・コンピューティング・システム研究機構客員研究員准教授。専門は、会話AI技術。
早稲田大学基幹理工学研究科博士(工学)取得後、米国カーネギーメロン大学にてダボス会議公式パーソナルアシスタントプロジェクトをはじめ、会話AIエージェントに関する産学連携研究開発プロジェクトを率いる。2019年に早稲田大学知覚情報システム研究所主任研究員に着任し、その研究成果をもとに、2022年5月に株式会社エキュメノポリスを創業し、AIを使った英語スピーキング診断サービス 「LANGX Speaking」を開発。

ホスト:島岡 未来子

研究戦略センター教授。専門は研究戦略・評価、非営利組織経営、協働ガバナンス、起業家精神教育。
2013年早稲田大学公共経営研究科博士課程修了、公共経営博士。文部科学省EDGEプログラム、EDGE-NEXTプログラムの採択を受け早稲田大学で実施する「WASEDA-EDGE 人材育成プログラム」の運営に携わり、2019年より事務局長。2021年9月から、早稲田大学研究戦略センター教授。2022年2月から、アントレプレナーシップセクション副所長 兼任。

エピソード要約

-「LANGX Speaking」の構成
「LANGX Speaking」は、対話インタラクション技術と判定技術の2つの技術体系から成り立つ。またインタビューとロールプレイの二部構成で、現実的な状況を再現し、学習者の対話能力を評価している。その背景には、多様な背景を持つコミュニティ内でのやり取りや交渉能力を評価する外国語運用能力測定のための基準「CEFR」の思想がある。

-AIが出したスコアの妥当性の検証
澤木教授と松山氏は因子分析を用いて、AIの出したスコアと従来の言語能力指標の関係性を調査し、説明可能なAIの研究を進めており、人間の対話の流れや発言の影響を伝統的な会話分析の手法で検証し、AIの対話戦略の適切さを評価している。

-「LANGX Speaking」の今後の展望
澤木教授と松山氏はAIを活用した言語テスト技術「LANGX Speaking」を通じて、学習者が自分のペースでスピーキングの練習ができ、即座にフィードバックを受けられる環境を目指している。そして「LANGX Speaking」は大学生から中高生向けに広がり、文部科学省や教育委員会と協力して実証実験が始まっている。また海外でも自立性を重視した教育ツールの需要が高まっており、「LANGX Speaking」は世界的な広がりも目指している。

エピソード書き起こし

島岡教授(以降、島岡):
「LANGX Speaking」 の判定能力制度を支えているのは言語テスト妥当性研究分野におけるどのような理論や技術なのでしょうか。

松山氏(以降、松山):
「LANGX Speaking」 は、大きく2つの技術体系からできています。
1つは言語学習者、テストを受ける人の潜在能力を引き出すための対話インタラクション技術。2つ目はそこから得られるデータを基にして正確に判定する判定技術です。
それぞれ説明すると、今までのスピーキングテストというのは過去にいくつもあるわけですが、本来であれば人が相対して会話をする、ディスカッションをしながら能力を測るというのが本来のCEFRの考え方にも則った考え方です。一般的にそれを機械でやろうとすると、独り言の発話を録音して、それで判定しましょうという技術はずっとありましたが、やはり実際に人とface to faceで相対して話すものとはだいぶかけ離れたものになって、実際、研究でもそういう独り言、モノローグの測られたスピーキング能力と会話の中で初めて測れる会話能力には乖離があることが明らかにされてきたところです。
理論的には、人と同等に機能する会話相手でないと適切に会話能力を測れないだろうという理屈になるわけです。
そのため、我々のような会話エージェント、エージェントというのは自立性を持ったシステムのことですが、自立的に動くAIシステムが必要になるわけです。
ここでもう1個重要なのが、本物らしいというかリアリスティックな会話を通して、その人の能力を引き出すということです。
取ってつけたような会話ではなく、その人がいかにも現実世界で使うようなシチュエーションで相手から引き出す。相手が言ったことに対して、AI側がリアクションをして、さらに話を広げながら、その人の限界まで言語能力を引き出すという仕組みが必要であり、対話戦略と我々は呼びますが、対話戦略をどのように設計するのか、それを自動化するのかということが技術の中で非常に重要なテーマで、これはまさに私の研究の専門です。これが1つ。相手の能力を本物らしく、学術的にはオーセンティックなデータサンプリングと言うのですが、偽物じゃないオーセンティックなデータをどう自然に引き出すか。例えば、5分10分の会話でどう引き出すかというところが大きなテーマです。
例を言うと、今「LANGX Speaking」は2部構成になっていまして、第1部はインタビュー。インタビューでその人の大まかなCEFRレベルが推定されまして、それに基づいて第2部でロールプレイ、あるいは議論というタスクが与えられます。
そのキャラクターと一緒に何か意識決定をするようなことであったり、なにかネゴシエーションしてみたり、面白い例では「InteLLA」という女の子のキャラクター、彼女が今度結婚するらしいと。私の結婚式来てくれるんでしょうというところから会話が始まるのですが、テストテーカー、受ける人は初めに家族の事情があるから断れという指令が与えられていると。しかし人間関係は壊さずに断れという指令が与えられるわけですよ。難しいですよね。社会的に非常に難しいんですよ。だけど「InteLLA」、AIの方はいやそれでもやっぱ来てよ、友達じゃん、と来るわけです。なかなか下がらないというか。
そういうところに対して、いやいやでもやっぱり家族がいてとか、いや君、友達だけれどもやっぱり行けないんだと。どのように説得するかというような社会的な状況が与えられて、つまり単純な発音能力や文法能力だけじゃなくて、どういうふうにタスクを切り抜けるかというところが測られる。先ほど澤木先生の話もあったように、これがやり取りの力だとか一貫性を持って相手を説得するとかロジカルに相手を説得するということが初めて見れると。オーセンティックな発話サンプルが取れて、初めて測れるということになります。

島岡:
学生のみならず、ビジネスパーソンも本当にスキルが求められるじゃないですか。
日本人はなかなかそういうネゴシエーションとかうまくないと一般的に言われたりしますが、そういう場合はすごくトレーニングになりますよね。

松山:
CEFRはそういった思想でできていると私は理解していますが、CEFRはヨーロッパで作られてきた思想で、いわばこういった複雑な背景を持った多様性のあるコミュニティを一つにユニファイしなきゃいけないわけですよね。
コミュニティを守るために戦争を回避するための一つの政策でもあると私は解釈してるんですけども、つまり違った背景を持った人、違ったモチベーションの人と、あるいは英語を母国語としない人たち同士でも、どのように相手とやり取りして妥結に向かうか。ここは共有できるよねというようにして、コミュニティを築いていくためのある種政策でもあり、非常に深いもの、そういった考え方が背景にあるのかなと思ってます。

島岡:
澤木先生から今の話に対していかがでしょう。

澤木教授(以降、澤木):
今の松山先生の対話AI視点からの話、すごく勉強になりました。
それを私たち言語テストの研究者がどういうふうに支えるかというと、妥当性理論を使った様々な研究手法があるわけですが、例えば、今までは人間の面接官と学習者が1対1で会話をしたりしてスピーキングをやってきたわけですよね。言語テストの中ではどのくらいそこで得られた会話をベースにして、評価されたスコアというのが一貫しているのか。その手法があったり、それをここに応用するとなると、例えば今まで人間同士の採点官がどのくらい一貫していたかだったのが、今度は人間の採点官とAIで採点した結果がどのくらい一致しているのか、一貫しているのかということを調べたり、算出されたスコアというのが実際にその学習者の英語力、スピーキング力を反映したものとして解釈できるのかをどうやって調べるのか。
一つの手法としては因子構造と呼んでいるものがあり、テストで様々な能力を測るわけですが、研究者側としては潜在的にその能力を代表するいくつかの因子があって、それを測るためのテストを作っているというのが前提なんですね。

島岡:
因子とはどんな意味でしょうか。

澤木:
因子というのは、例えばスピーキングですと、文法の力や語彙力、流暢さなど、そういうものが潜在的にそこにあるというのを私たちは仮定して、それを測るためのタスクを作り、評価指標を作るんですね。
その評価指標は目に見えていますが、その潜在的な因子というのは目に見えないものなんですが、そういうものがあると仮定した統計的なモデルを作って、それが実際にモデルとしてあった時、どれだけデータが適合するかというものを調べるのが因子分析と言いまして、これはテストの妥当性検証のアプローチで昔から使われてきているものであり、ちょうど松山先生のチームと一緒にやっているのですが、AIで採点した結果というのはやっぱりブラックボックス化してしまうというか、結果が出てきても、なんでそうなったのかが分かりにくい。なので説明可能なAI。その話を松山先生がしてくださったんですけど、そのスコアがどういう意味を持つのか、いわゆる従来の方法に近いのですが、言語能力、スピーキングの能力を測る指標として今までいろんなものが使われてきましたが、そのような指標とAIが出したスコアの関係性を見るということを今やっております。
それによって何を測っているかということを間接的ですが理解することにつながるので、説明力を上げるための研究の1つかなと考えております。

松山:
実際にAIと会話をしてもらって、とった判定結果はあるわけですが、まさにブラックボックスにされているもの、外からどう解釈していくのか、これは結果もですし、実はその会話の流れ自体も検証の対象に入ってくると思っています。ここで結構伝統的な会話分析の手法があり、会話を全部書き起こして、どこでどういう発話をして、それが次の発話にどう影響を与えたか、そういったことを分析する応用言語学の手法があるのですが、今、我々の「InteLLA」の会話の運び方が適切だったのか、伝統的な応用言語学の手法を使って分析する。いわば人を分析するのと同じようにAIを分析する時代にも入っていると思います。
もう1個は例えばその判定モデルに関して、1つ例を挙げると、判定モデルというのは原理上100%当てることはありえなくて、必ずAIは間違いを起こします。例えば1000件の判定をしようと思ったら、完全に当てることはあまり期待できなくて、99.9%当たったとしても0.01%くらいは間違いを含む可能性が十分にある。これを潰すことは現状難しいと思います。ポイントは間違い方としてどこまで許容されるかです。具体的にはチュートリアル(「Tutorial English」)のクラス分けでいうと、スコアを出した時、避けなければいけないのは本来の能力よりも上に判定されてしまうこと、つまり上に判定されてしまうと、勝手に上のクラスにアサインされてしまうわけですよね。ついていけないクラスになってしまい、挫折することが想定されると。それよりは自分の能力よりも過小評価される、下のクラスに行くほうがまだマシだろうと。退屈かもしれないけれどもついていけないというリスクはない。つまり、どういう間違い方だったら許容されるのかということがある程度あるわけなんですよね。
だからリスクの範囲をある程度規定して、その中での間違い方だったらまあいいかみたいな。正確な方がいいんですが、そうやって外側からAIを制御するというか、ガイドラインを作って制御していくという考え方とも言えるのかなと思いました。

島岡:
いかがですか今の話を聞いて。

澤木:
会話分析やいわゆる許容される誤差の範囲とかは伝統的に言語テストでやってきたものなんですよね。それがニーズにあってピタッとはまってるんだなって。お話を伺いながら感慨深く思っていたところでした。

島岡:
伝統的にずっとやってきたものといわゆる最先端のAIの問題点とするところが一致しているという。

松山:
フレームワークとして、どういうことを考えなきゃいけないかということは、ある種与えてもらえますが、実際にどういうふうに1個1個の事象を検証していくかは結構クリエイティビティの余地があるというか、考える余地が十分にあって、今回この統計手法を使おうだとか、ここはリスクが高いからここだけはちょっと重点的に考えようだとかということは十分に自由度があるとは思っていまして、そこは面白いところかなと思います。

澤木:
テスト自体、デザインがもう他にありませんので、これどうしようかみたいなのがいっぱいあるんです。

松山:
先端を行ってしまう辛さですよね。

澤木:
そうです。他に事例がないみたいなのがよくありますね。

松山:
この間のテスト学会に行っても、本当にない。
私は会話研究からすると自然の進化かなと思ってたんですが、思いのほか事例が少ないこと、意外と我々の悩みが世界全体の悩みだということがだんだん分かってきました。

澤木:
それも含めての興奮ですね。もう学会の方はうわーっておっしゃってました。

松山:
結構驚くほどに、澤木先生と講演しましたら、お前面白いぞと非常に盛り上がったセッションではありましたね。

島岡:
その辺は先生方、予想していたんですか。

澤木:
どういうふうに受け止められるかは期待と不安、両方でしたね。そこを私がきちんと妥当性検証の枠組みに乗せてスムーズに紹介するサポートができればと思っていたので、すごく緊張していたのですが、蓋を開けてみたら、その学会は小さいのですが、世界最高峰の学会で重鎮ばっかり。

松山:
言語テストといえば、というところですよね。

澤木:
はい。なんですけども、その方々が本当に共感してくださっているのがよく分かりまして。

島岡:
まさに2人のコラボレーションが大きなインパクトを世界最先端に与えているという感じですね。

松山:
この組み合わせがなかったら、あり得なかったと思います。
AI屋さんがAIの分野に行ったところであのような反応はなかったと思うので。

島岡:
ありがとうございます。言語テスト妥当性研究との出会いによって「LANGX Speaking」の進展が大きく進んだこと、言語教育環境に多大な可能性を秘めているということを強く感じました。
澤木先生にお伺いしたいのですが、言語テスト妥当性研究が導く未来像について、研究の当事者として「LANGX Speaking」や言語教育環境に対してどのような期待感を持っておられますでしょうか。

澤木:
今日のお話の関連からしますと、テクノロジーというのがものすごい勢いで言語テストにも入ってきていますので、その面から見たときに、私たちが従来どおりの手法やアプローチ、それを使ってかなりのことができるんだなと思います。
そこでお手伝いできることがあればいいなというのが一つの希望です。
「LANGX Speaking」に関して、私がこうなればいいなと思うのは、スピーキングの練習が日常になればいいなということです。やはり日本は外国語として英語を学ぶ方が大半ですので、今までだとスピーキングの練習をしたいけど、相手がいないというのはあったと思います。
しかし「LANGX Speaking」のようなものを使うことによって、スピーキングを自分が好きな時に何回でも練習ができる。練習するだけではなく、その場でスコアレポートが出てきて、フィードバックを受けられることで学習者が自立した学習者になっていく手助けができるシステムになっていくといいのかなと思いますね。
例えば学校でテスト受けましたで終わるのではなくて、学習者が柔軟に自由にいつでも自分がやりたいと思う時に自分のニーズに合わせてスピーキングの練習ができて、フィードバックをもらえて、それを継続していくことによって、スピーキングの能力を伸ばしていく。そのようなことができる社会になっていくといいなと思いますし、そこで「LANGX Speaking」が役割を果たすといいなと感じています。

島岡:
もっとこういうところと連携したいとかそういうのはありますか。

澤木:
本当に松山先生のチームには英語教育または応用言語学の研究者があるといいなと思って、その夢で終わるところを形にしていただいたというのがすごく私の中でありまして、もう本当にありがたくて 私たちだけではできないので、AI関連の研究の方々とこれからもご一緒できればいいなと思います。それからやっぱりアセスメントって測って終わりじゃ困るので、それをどう学習につなげるかというところが大事だと思うんですね。
ですので英語の学習、ラーニングですとか言語習得、プロパーの研究者の方々とももっとコラボレーションしたいと思いますし、そこで学習の動機づけも大事ですので、心理系のアプローチ、そういうものが必要かなと思ってるところです。

島岡:
松山先生にお伺いしたいのですが、言語テスト妥当性研究が導く未来像、それから研究分野のさらなる発展について「LANGX Speaking」の開発者としてどのような期待感を持っておられますか。

松山:
社会的な広がりというところで申し上げますと、「LANGX Speaking」はスタートアップを通して一般の方に広がり始めていますが、その根本は早稲田大学、特に「Tutorial English」プログラムを中心にして作られてきた技術で、まさに早稲田大学の学生さんに使ってもらって、最初は手探りなところもあったんですけど、ちょっとずつ洗練されたテストへと成長しつつあるところなんです。いわばこのキャンパスの中でインキュベートされた技術ですが、これがだんだんと世の中に広がり始めていまして。今、我々が取り組んでいるのが、大学生ではなくて中高生向けのスピーキングテストです。
これは文部科学省や各地方自治体の教育委員会の方々とコラボレーションが始まっています。実証実験です。基本的には「LANGX(Speaking)」のエンジンそのものなんですが、今度は中高生にレベルを合わせて。文科省の指導要領の中でもCEFRに則って話す力、やり取りの力を伸ばすということが目標に掲げられており、そういう意味で今までツールがなかったんですよね。
なので「LANGX(Speaking)」のようなインタラクティブに能力が測れる、まさに自立的に学習ができるようなツールというのが非常に求められていまして、そういった方々との実証実験が大規模に始まっているところです。
海外、OECDでも未来の子供たちの自立性をどう発達させるかというのが大きなテーマになっていまして、その時にこの言語教育という分野でこういったような自立性をより促進するようなタイプの技術と、教材というものが求められているということも分かってきて、最近はそういった方々ともまだ小規模であるものの、実証実験をしながら、いわばこの早稲田大学のキャンパスで育った日本発の技術が世界に広がっていくといいなと思っているところです。

島岡:
すごい期待が持てますね。
自立性と公平性。いろんな人に出自とかお金の裕福とか貧困など関係なく、同等の言語取得というチャンスが与えられる。それも非常に大きな社会インパクトじゃないかなとお聞きして思いました。
言語教育のAI活用を支える言語テスト妥当性研究の真髄をテーマにお話をお届けしてきました。最後にお二人から今日の収録への感想、リスナーの皆さんへのメッセージをお願いできますでしょうか。

澤木:
改めてこの5年くらい、松山先生と出会って、プロジェクトを進めてきましたが、その時々に大変だなと思うこともありつつ、同時にいつもとても楽しかったんですけど、それを振り返る機会はなかったので大変感慨深いなと思いました。
今日は少しでも言語テスト妥当性研究について、ちょっと分かったというような気持ちになっていただけたらすごく嬉しいです。

松山:
まさに我々は言語テストという分野、この事例にとってやってまいりましたが、こういった文理融合型の研究というのは、早稲田大学だからこそ必然的に起こった研究だと思っています。リスナーの方は早稲田大学にゆかりのある方だけじゃないと思いますが、早稲田大学は理工学研究、ロボットとかAI、あるいは量子コンピューターなど非常に盛んな先端研究、技術研究がされていることは疑いがない。
一方で伝統的に人文社会科学の研究が盛んな大学だということは世に誇れるところだと思っています。
今、このAIというものが本当に人間レベルに発達してくる中で、こうますますヒューマニティの研究が重要になってくると思っています。
今日この言語テストでも一旦お伝えできれば嬉しいなと思っていますが、まさにAI作るだけじゃしょうがなくて、それをどう作るかとか、どうやって社会に浸透させていくかということがはるかに重要なんですよね。
ここは人文科学、社会科学の知見が本当に必要なところですので、ここから先、まさに博士一歩前の世代の方々は、AI研究そのものもやることは大事ですけども、それをどう使うか、どうデザインしていくかというヒューマニティの立場から考えていく研究や活動が主になっていくと私は信じていて、我々がその一つ先駆けとなれたのは嬉しいなと思っています。

Page Top
WASEDA University

早稲田大学オフィシャルサイト(https://www.waseda.jp/top/)は、以下のWebブラウザでご覧いただくことを推奨いたします。

推奨環境以外でのご利用や、推奨環境であっても設定によっては、ご利用できない場合や正しく表示されない場合がございます。より快適にご利用いただくため、お使いのブラウザを最新版に更新してご覧ください。

このままご覧いただく方は、「このまま進む」ボタンをクリックし、次ページに進んでください。

このまま進む

対応ブラウザについて

閉じる