Research Activities早稲田大学 研究活動

News

ニュース

特集 Feature Vol.22-1 情報理論とデータサイエンス(全3回配信)

情報理論研究者
松嶋 敏泰(まつしま としやす)/理工学術院教授、データ科学総合研究教育センター所長

情報通信の「限界」に迫る

人類が生きていくうえで欠かせない「情報」。その本質を数学のアプローチで明らかにする「情報理論」という研究分野があります。基幹理工学部応用数理学科の松嶋敏泰教授は、情報理論を「社会にとっての空気のようなもの」と言います。数ある情報関連の研究分野のなかでも、情報理論はもっとも根源的で本質的なものといえます。全3回にわたり、松嶋教授に情報理論という学問の経緯や意義、魅力などを伺います。さらに2017年より所長をつとめる「早稲田大学データ科学総合研究教育センター」についても紹介します。第1回は、情報理論の概要と具体例、社会における有用性などを伺います。いま情報理論研究者たちは「示された限界」に近づくための競争をくり広げているといいます。(取材日:2018年9月6日)

クロード・シャノンがうちたてた情報理論

私は「情報理論」を研究しています。情報理論の本質は「情報とはなにか」を数学的に解明していくことにあります。「情報」というとコンピュータや情報ネットワークのことをイメージするかもしれません。けれども、遺伝子の配列も「情報」ですし、人間の論理的思考や判断も「情報」の処理プロセスと見なせます。情報理論はこれらを含むあらゆる「情報」を対象としています。

どうして、あらゆる情報を対象にできるのかというと、数学により情報を定式化できるからです。長さや重さを扱うとき「メートル」「グラム」などの単位で表して物理学の式を使ったりしますが、情報を扱うときも「ビット」などの単位で表して数学の式で表現することができるのです。

情報理論を確立したとされる人物が、米国のクロード・シャノン(1916-2001)です。シャノンはまず、どんな情報でも「0・1」の組み合わせで表すことができることを定式化しました。みなさんもデジタル情報であれば文章,音声,動画、なんでも「0・1」で表せることを知っていると思います。シャノンはその原理となる考えを1937年、修士課程の学生だったときに築いたのです。さらに、シャノンは情報を数学的に定式化することにとりくみ、1948年に「通信の数学的理論」という論文を発表しました。情報理論という学問分野はこのとき始まったとされています。

研究者たちがめざしたデータ圧縮の理論的限界

シャノンが求めたのは「限界」でした。情報とはなにか、つまり情報の本質とはなんであるかを解明しようとすると、「どこまで情報データを圧縮してよいか」の限界を求めることになります。なぜなら、限界まで圧縮された情報データこそが、その情報の本質的な量であると解釈できるからです。もしも、限界を超えるまで情報データを圧縮し、復元できなってしまえば、その情報の本質は失われてしまうことになります。

では、情報を限界まで圧縮したとしたら、その情報データはどんな量になるのか。シャノンはその量を数学的に計算し、定理として証明したのです。その定理は「情報源符号化定理」あるいは「シャノンの第一定理」とよばれています。そして、限界まで圧縮された情報データに含まれている情報量は「エントロピー」とよばれています。

データ圧縮の限界の求め方をシャノンは導いたわけです。しかし、それを実現するため手順としてのアルゴリズムをどうするかまではシャノンは示しませんでした。限界に近づき達するにはどうすればよいかという課題が、私もふくめ後代の研究者たちに遺されたわけです。いわば、シャノンが「エベレストという山が世界最高峰である」ということを示したのに対し、後代の研究者たちがその最高峰到達をめざして「私は8合目まで達したぞ」「自分は9合目まで登ったぞ」と競っているようなものです。

シャノンは情報通信や情報処理の基本問題の「限界」を数学的に示すことで,情報とは何か,つまり情報の本質とは何であるかを解明しようとしました.まず情報通信の基本問題として取り上げたのが,文章,画像などのデジタル情報を圧縮して,なるべく短い「0・1」の並びで表現することでした.短い「0・1」の系列で表現されれば,インターネットで通信したり,コンピュータで記憶しておくための,時間やメモリの節約になりありがたいのですが,一体どこまで短くすることができるのでしょうか.あまり短くしすぎると元の情報に復元できなくなってしまいそうなことは容易に推察されます.また,完全に復元できることを前提として,例えば風景の写真を圧縮することを考えた場合,白壁だけの写真と渋谷のスクランブル交差点の写真では,前者は後者に比べ圧倒的に短い「0・1」の系列に圧縮できると思われます.

この情報の圧縮の問題を数学的に定式化して,情報を「0・1」の系列に圧縮した場合,それ以上短くしたら復元できない長さの限界があること,その長さは「エントロピー」という量で表せることを証明したのがシャノンでした.その定理は「情報源符号化定理」と呼ばれています.

この「エントロピー」と呼ばれる量は,工学的にも大変重要な指標になりますが,ある情報が内在している本質的情報の量を表す尺度と考えることができます.例えば,文字数が多い文章は一見情報の量が多いように見えますが,同じことの繰り返しのような文章は短く圧縮でき,つまりエントロピーが小さい文章(情報)で本質的情報の量が少ない文章と言えます.

シャノンの情報理論により,情報の量を測る尺度としての「エントロピー」が数学的に正確に定式化されたことは,情報通信や情報処理の問題に限らず情報を扱う全ての分野(例えばデータサイエンス等)の数学的基礎理論が確立されたことになり,その後の全ての情報分野の発展に大きく寄与しました.

情報理論の寄与のもう一つの側面も説明しましょう.文章や画像の情報の圧縮の限界が明らかになっているので,その限界であるエントロピーの長さまで圧縮できる方法(アルゴリズム)を創り出すことができたら,それ以上は良い方法はないので,最高ですよね.限界までの圧縮性能が達成できなかったとしても,そのアルゴリズムが限界に比べてどこまでの長さに圧縮できたか明確な性能評価ができることは重要で,限界値であるエントロピーは工学的にも無くてはならない指標となっています.

通信のモデルと情報データ圧縮の限界。情報通信では、情報源のデータが圧縮(符号化)されるが、どこまで頑張ってもエントロピーとよばれる量までしか圧縮できない。このことをシャノンは「情報源符号化定理」において示した。(出典:松嶋研究室HP、一部改変)

誤りのない情報データ通信

情報理論の基本定理のもうひとつの例として、「通信路符号化定理」があります。この定理もシャノンが導きました。データ等の情報を送るとき、ノイズ等によって生じる情報の誤りを訂正したり検出したりする問題に関する定理です。携帯,地上デジタル放送,インターネット等でなんの心配もなく情報をやり取りできるのはこの理論があるからです.

情報は、光ファイバーケーブルや電波などの通信路を経由して送られていきますが、途中でノイズが入って情報に誤りが生じることもあります。これを防ぐため、たとえば送りたい情報を通信路へ送り出す前に、情報に余分な情報を付け加えてた符号語をつくり、その符号語を通信路を介して送信することで,送信途中で誤りが生じたとしても、復号によりちゃんと元の情報が復元できるような誤りを起こしづらくする方法がとられます。これが通信路符号化の問題です。

そうはいっても、通信路に送られた情報データに対してあまりにノイズが入りすぎたら、もはや元には戻りません。つまり、どのぐらいのノイズの量までなら情報データを元に戻せるかの限界があるわけです。その限界を、シャノンは通信路符号化定理として定式化したのです。この定理からは、情報を誤りなく送る場合に、どのくらいまで効率よくデータ等の情報を送れるかの限界を数学的に求めることができます。

実は先に説明した情報を圧縮する問題の「情報源符号化定理」の限界を達成する方法はすでにシャノンによって求められているのですが,この誤りなく情報を送る問題については「通信路符号化定理」で、その限界はシャノンによって導かれましたが、それを実現するため手順としてのアルゴリズムをどうするかまではシャノンは示しませんでした。限界に近づき達するにはどうすればよいかという課題が、私もふくめ後代の研究者たちに遺されたわけです。いわば、シャノンが「エベレストという山が世界最高峰である」ということを示したのに対し、後代の研究者たちがその最高峰到達をめざして「私は8合目まで達したぞ」「自分は9合目まで登ったぞ」と競っているようなものです。

幸い,シャノンが導いた「通信路符号化定理」の理論的な限界に対して、通信企業や研究機関などがその限界にすこしでも近づくための方法をずっと研究し続けた努力の結果,近年達成できる方法が見つかりつつある状況です。

「010」という情報データを送りたいが、複合時に誤りが生じるおそれがあるので、同じ記号を3回繰り返して「000111000」のように符号を長くして送る(通信路符号化)。通信路符号化定理では、通信路符号化の能力が通信路容量(単位時間あたりに送ることのできる情報量の上限)より小さければ、符号長を大きくすることで復号誤り率をいくらでも0に近づけることができる符号化法が存在することを示している。(出典:松嶋研究室HP、一部改変)

社会に役立つ側面での情報理論

シャノンはほかにも、情報の暗号化について、解読不可能な暗号を理論的に導くといったこともしています。ここまでのお話でおわかりのとおり、シャノンが確立し、後代の研究者たちが継承してきた情報理論は、いまの情報通信社会を根本から支える存在となっています。

たとえば、膨大なデータを圧縮したり、誤りなしに効率よくデータを送信したりすることができるのは、情報理論の定理が確立し、アルゴリズムが研究されてきたからです。まだシャノンが示した限界には達していないとお話しましたが、その限界に近づくほど、例えばデータ量に対する光ファイバの線数も減らせますし、省電力化をはかれるようにもなります。

数学的には可能性が証明されても現実社会でそうした限界まで達していないのには、さまざまな理由があります。たとえば、理屈でいえば無限の計算量をこなせるコンピュータを使うことで限界に達することはできますが、そうした無限あるいは膨大な計算量を必要とするアルゴリズムを、いまのコンピュータでは処理することができません。理想的な符号化のアルゴリズムをコンピュータに処理させると、データ送信の完了まで20年も30年もかかってしまうことになりますからね。

「自分自身、スポーツが好き」と話す松嶋教授。早稲田大学のラグビー蹴球部では部長もつとめている。

スポーツのような楽しさがある

そうではあるものの、研究者たちはシャノンの示した限界まで近づくための戦いを続けています。私自身も、さまざまな理論的限界に近づき、達したいという思いで研究を進めている部分はあります。理論的な限界に達するまでの道筋としては、まず「モデル化」があります。社会の問題を数理モデルに置き換えるわけです。どのような入力で、なにを出力するのか。制約はなにか。また、確率的なモデルなのか、確定的なモデルなのか。こういったことを見直していきます。

つぎに、「理論的限界の導出」をすることになります。モデルを定義したうえで、その仮定したモデルにおける評価基準を最大化するための手法を開発していくため、理論的な限界値を導きだします。すでにシャノンが示している限界値もありますが、さまざまな評価基準のもとでの限界値をあらためて導出していきます。

そして、「理論限界を達成するアルゴリズムの導出」をすることになります。かならずしも理論的限界に「達する」手法をつくれるとはかぎらないので、その場合は準最適な手法を開発します。また、実用的でなければならないため、計算量やメモリ量なども踏まえて新たなアルゴリズムをつくっていきます。

こうした、限界に近づいていく研究は、感覚としては、新記録を競いあうスポーツのような楽しさがありますね。今回、紹介した情報理論は、情報通信の効率性を高めることにつながるため、いわば人の役に立つ工学的側面のものといえます。一方で、私は、情報理論の研究を科学的側面から進めてもいます。次回は、そのお話から始めたいと思います。

第2回は、情報理論の科学的側面や、実際の研究のしかたなどをご紹介いただきます。

☞2回目配信はこちら

プロフィール

松嶋 敏泰(まつしま としやす)
1991年、早稲田大学大学院理工学研究科経営システム工学分野博士課程修了。博士(工学)。日本電気株式会社勤務、横浜商科大学専任講師、早稲田大学工学部工業経営学科助教授、経営システム工学科教授を経て、2007年より基幹理工学部応用数理学科教授。2017年12月に設置された早稲田大学データ科学総合研究教育センターの所長を兼任。研究分野は情報理論とその応用。研究テーマは各種エントロピー、情報量を用いた機械学習、統計処理、通信、情報セキュリティ、制御などにおける最適性、性能限界などの理論研究と最適なアルゴリズムの設計とその性能評価。ハワイ大学・電気工学科客員研究員。カリフォルニア州立大学・バークレイ校・統計学科客員教員。電子情報通信学会 基礎・境界ソサイエティ会長。電子情報通信学会 情報理論研究専門委員会委員長。情報理論とその応用学会副会長。品質管理学会理事。人工知能学会、電子情報通信学会、品質管理学会論文誌編集委員等を歴任。早稲田大学ラグビー蹴球部の部長もつとめる。詳しくは松嶋研究室

Page Top
WASEDA University

早稲田大学オフィシャルサイト(https://www.waseda.jp/inst/research/)は、以下のWebブラウザでご覧いただくことを推奨いたします。

推奨環境以外でのご利用や、推奨環境であっても設定によっては、ご利用できない場合や正しく表示されない場合がございます。より快適にご利用いただくため、お使いのブラウザを最新版に更新してご覧ください。

このままご覧いただく方は、「このまま進む」ボタンをクリックし、次ページに進んでください。

このまま進む

対応ブラウザについて

閉じる