マルチモーダルデジタルツインのための多面的情報融合による高次抽象概念の取得

研究番号：25C16
研究分野：technology
研究種別：奨励研究
研究期間：2025年04月〜2026年03月

代表研究者

田中　啓太郎理工総研が募集する次席研究員
TANAKA, Keitaro Junior Researcher

理工学術院総合研究所森島繁生研究室
Waseda Research Institute for Science and Engineering

URL：https://w-rdb.waseda.jp/html/100004426_ja.html

研究概要

本研究の目的は，実データとその背後にある高次抽象概念との間の往復であり（学術的意義），人間の感性を反映したマルチモーダルデジタルツインの実現である（社会的意義）．従来，深層学習分野においてはデータドメインにおける整合性が注目されており，近年ではデータドリブン学習により様々な分野で基盤モデルの開発も行われている．しかし，人間の知覚の介在なしにブラックボックス的に構築されたこれらのモデルは，しばしば我々にとって不自然で理解困難な挙動を示す．本研究では，コンピュータの認識における人間の感性の多面的な融合に挑戦する．具体的には，音楽やマルチモーダル発話を題材とし，音楽ならびに音声と人物映像を研究対象とする．音高と音色あるいは話者性と発話内容のような入力の根源情報を，人間の知覚レベルへ還元・解析し，デジタル空間上に再現する．さらに，本アプローチを拡張し情報の多面性へと焦点を当てることで，情報一般を対象とし，より高密度な高次抽象概念の構築と，それを利用したセキュリティ手法の開発を行う．

研究内容①：あらゆる音楽音響信号を潜在的な音高列と音色要素に還元する解析手法の開発
音楽情報処理分野は著作権の制約により，データ量に関し最たるハードケースとして捉えることができる．音楽音響信号解析をさらに発展させ，デジタルツインの実現に向け実用的な水準に引き上げる．

研究内容②：人間の認知要素に基づく視聴覚音声認識手法の開発
視聴覚音声認識分野は，元来マルチモーダル特徴を備えている．視聴覚の両ドメインから，話者性や発話内容など，人間の知覚レベルの潜在要素への多面的還元を介し，コンピュータによる真の認識を目指す．

研究内容③：高次抽象概念の高密度化手法の開発
研究内容①および②のアプローチは，コンピュータの有する高次抽象概念に対する，人間の知見の追加導入による補正（ないし操作）と捉えることができる．それを一般化し，顕在結果である実データには影響を与えずに，潜在特徴である高次抽象概念にどれほどまでの情報を追加しうるか，という問いに挑戦する．

研究内容④：高次抽象概念の情報量増加を利用したセキュリティ手法の開発
特殊なケースとして，高次抽象概念を介したセキュリティ関連手法の開発を行う．一般的な枠組みとしての秘匿情報追加手法を通し，新たなセキュリティ手法への応用が期待される．

研究内容①を最優先（エフォート率50%），次いで②（30%），③および④（20%）の順の優先度で，並行して研究を進めていく．各内容について，年間最低一報のジャーナルもしくはトップコンファレンスへの投稿を目標ノルマとして課す．研究内容①と②については，国内外の研究機関との共同研究を予定している．研究内容③と④については，理論面の構築を主眼に研究を行う．実際の作業にあたっては，適宜研究室の学生と連携して進めていくことを予定している．また，海外研究機関との共同研究・滞在研究，および外部資金獲得に積極的に動く．

Waseda Research Institute for Science and Engineering早稲田大学理工学術院総合研究所

プロジェクト研究

쀣 Tags