Transformer に基づく音声・言語処理の展開
Transformerの提案以来,音声情報処理,自然言語処理技術は毎年飛躍的な発展を重ねています.ツールが整備され,誰もが簡単に応用システムを作ることが可能になりました.しかし,その一方で,基本技術はブラックボックス化し,技術者は,表層的な理解のままツールを利用する傾向もあるのではないでしょうか.
ツールには何が期待できて,何は期待できないのか.そうした肌感覚を持つことは,技術者にとっての重要事項ですが,そのためには,基本技術に対する深い理解が不可欠です.本セミナーでは,音声情報処理,自然言語処理に関わる比較的経験の浅い研究者,技術者,学生を対象として,Transformerベースの音声認識技術,自然言語処理技術の基本技術の考え方や原理の系統的な解説を行い,関連技術開発において必要となる基本知識を修得することを目指します.
初日は,まずニューラルネットワークに係る基礎事項から始めてTransformerの構成までを確認します.ついで,TransformerベースのEnd2End音声認識の基本構成を解説した後,これらに外部言語モデルを組み込む最新の研究を紹介します.End2End音声認識の利点は,従来法の欠点であった言語モデルと音響モデルの場当たり的な統合の問題を回避したことにありますが,その一方で,豊富な言語資源から得られる言語統計の恩恵を受けることが困難になっています.ここでは,End2End学習によって目的タスクに対し全体最適化する枠組みを維持したまま,事前学習して得た外部言語モデルの持つ言語統計を活用し信頼性を向上させるいくつかの方法について講義します.
2日目は,大規模言語モデル (LLM; Large Language Models) の基本となるデコーダに基づく言語モデルについて解説した後,その能力がどのような仕組みによって実現されるかを議論します.LLMは,自然言語によるプロンプティングという単純な方法によって,ほんの僅かな例示データを用いて (Few-shot学習),あるいは全く例示データを用いることなく (Zero-shot prompting) 所望の特化したタスクを達成します.こうした能力の背景となっている技法や技術要素について,様々な機関での研究を紹介しながら解説します.また,LLMの出現・発展は,自然言語処理 NLP (Natural Language Processing) にとどままらず,広くAIシステム・サービスの研究開発に大きな影響をもたらしています.こうした,応用観点での重要な技術の発展についてもとりあげる予定です.
概要
- 開催期間: 9月28日(土)、9月29日(日)
- 時 間: 10:00 ~ 16:30
- 講 師: 小林哲則・林 良彦
- 場 所: 早稲田大学 グリーンコンピューティングシステム研究開発センター1F プレゼンテーションルーム
- 対 象: 音声情報処理,自然言語処理に携わる比較的経験の浅い研究者,技術者,学生
- 定 員: 50名
- 参加費 : 無料
プログラム
(講義内容は一部変更になる可能性がございます)
1日目: Transformer に基づく音声認識の展開
1. ニューラルネットワークの基礎
- 関数近似からメモリアクセスまで (MLP, ResNet, RNN, Attention)
- Transformer の基本構造
- チョムスキー階層とネットワークアーキテクチャ
2. End2End 音声認識の基本構成
- フレーム独立-Encoder型モデル (CTC)
- RNN-guided-Encoder型モデル (Transducer)
- Encoder-Decoder型モデル (Whisper)
- ストリーミング音声認識
3. 内部言語モデルと外部言語モデル
- Shallow Fusion, BERT-CTC, LLMの応用
4. 音声の表現学習
- Wav2Vec2, HuBERT
2日目: Transformerに基づくLLMの展開
1. LLMの基本技術
- Transformer に基づく言語モデル
- デコーダに基づく言語モデル
- プロンプティング技法
- 代表的な自然言語処理タスクと評価指標
2. LLMの高度化を支える技術要素
- 命令チューニングとゼロショット学習
- 文脈内学習と少数ショット学習
3. 人間の選好に合わせるLLMのファインチューニング
- 人間によるフィードバックに基づく強化学習 RLHF (Reinforcement learning from Human Feedback)
- RLHFからの発展: DPO (Direct Preference Optimization), KTO (Kahneman-Tversky Optimization) など
4. 実用性の高いLLMへ向けた展開
- 検索により強化された生成 RAG (Retrieval Augmented Generation)
- LLMプログラミングのためのフレームワーク: DSPy など
- LLM の評価,及び,LLMによる評価
講師紹介
小林哲則
早稲田大学・理工学術院教授.ATR音声言語通信研究所,NHK技術研究所,MIT LCSなどの客員研究員などを歴任. 会話のリズム形成に主眼をおいた音声認識,会話システムシナリオ自動作成,会話プロトコルなどの研究に従事.共編著:Paralinguistic Information and its Integration in Spoken Dialogue Systems 他.
林 良彦
早稲田大学・GCS研究機構招聘研究員.NTT研究所主幹研究員,Stanford大学CSLI滞在研究員,大阪大学大学院言語文化研究科言語情報科学講座教授,早稲田大学大学院基幹理工学研究科教授,などを歴任.自然言語処理,意味コンピューティングの研究に従事.分担執筆:オントロジーの普及と応用,Language Service Ontology 他.分担翻訳:自然言語処理のための深層学習,統計的言語処理の基礎.
お申込み
下記フォームよりお申込みください。
https://docs.google.com/forms/d/e/1FAIpQLSdPvJq9y0tLpYA7h48YS2na8naG_zl_tBKeyz46icIS6a_Y6g/viewform