Waseda Institute for Advanced Study (WIAS)早稲田大学 高等研究所

News

ニュース

機能未知遺伝子の機能を推定するソフトウエアの開発
福永 津嵩 講師

福永 津嵩 講師

機能が分かっていない遺伝子が、まだ数多く存在する

私の研究分野は「バイオインフォマティクス(生物情報科学)」で、主に遺伝子の機能を推定するソフトウエアの開発をしています。遺伝情報とは、「髪の毛は黒」「瞼(まぶた)は二重」といった親から子へ形質を伝える情報のことです。この遺伝情報をすべて集めたものをゲノムといい、DNA(デオキシリボ核酸)という化学物質でできています。ゲノムの中でも、生命に関わる必要な機能を担う重要な情報が入っている部分を遺伝子とよびます。

DNAにはA(アデニン)、C(シトシン)、T(チミン)、G(グアニン)とよばれる4種類の塩基の部分があり、ゲノムではこの4種が構造的に並んでいます。A、T、G、Cの並び方(文字配列とよばれる)がゲノムの遺伝情報を表しており、ヒトのゲノムではおよそ30億個の文字配列がみられます。近年「シーケンサー」という、ゲノムの文字配列を自動的に読み取る機械が開発され、ヒトをはじめ生物の個体ごとの文字配列が手軽にわかるようになりました。ゲノムの文字配列のどこの部分が遺伝子なのかを特定する研究は進んでいますが、遺伝子の情報が担っている機能の解明までには至っていません。

すべての遺伝子の機能を実験で決めるには膨大な時間を要するため、情報科学の力が必要とされています。そこで、機械学習法や統計モデルなどを組み合わせた遺伝子の機能推定手法の研究を進めています。

微生物の機能未知遺伝子を推定する

現在の研究対象は、微生物です。微生物はゲノムの情報量が少ないので読み取りやすく、種類が多くてサンプルも集めやすいので、非常に多くのデータを手に入れることができます。さらに、微生物の遺伝子の機能を解明すれば、バイオテクノロジーや医学への応用に繋がることも魅力です。例えば、昨今よく耳にするPCRはDNAを増幅する技術ですが、サーマス・アクアティカスという微生物由来のポリメラーゼという酵素が使われています。また、熱帯病であるオンコセルカ症の特効薬のイベルメクチンは、ストレプトミセスという微生物が生産するアベルメクチンから作られ、これまでに10億人以上の人に投与されています。

従来の微生物研究は、単離・培養したものを使って実験を行い、その特性や機能を調べてきました。しかし、単離・培養できるのは微生物全体の1%以下だといわれています。今日、微生物でもゲノムの文字配列やその中の遺伝子部分が特定できるようになったので、遺伝情報からその特性や機能を調べることが可能になっています。

私が行っている機能未知遺伝子の機能推定法は、例えば遺伝子Bを持っている生物種が必ず遺伝子Dも持っていた場合、遺伝子BとDは何らかの関係性を持っていると考えることから始まります(図1)。

図1. 生物種間での遺伝子保存解析
行が生物種、列が遺伝子を表している。0はその遺伝子を持っていない、1はその遺伝子を持っていることを示している。遺伝子Bを持っている生物種は、必ず遺伝子Dも持っていることから、遺伝子Bと遺伝子Dは何らかの関係性を持っていると考えられる。

より具体的な例が図2です。

図2. 光利用性タンパク質PRの解析
左の表で、PR(プロテオロドプシン)とDUF2237は同じ出現パターンを示しており、この2つの遺伝子は何らかの関係性があると推定できる。右図は、DUF2237 を持った微生物と持っていない微生物の走光性を調べた棒グラフ。⊿DUF2237はDUF2237を持っていない微生物、WTはDUF2237を持っている微生物。

海洋表層の微生物の4割が持っているといわれるタンパク質「プロテオロドプシン」は、光を当てるとATPというエネルギーの源となる物質をつくります。図2の左の表から、プロテオロドプシンと機能未知遺伝子DUF2237が同じ出現パターンを示しており、DUF2237も光に関係した機能を持っているのではないかと推定できます。次に、すでにDUF2237を持っていることが分かっている微生物(WT)と、その微生物からDUF2237を取り除いた微生物(⊿DUF2237)を調べてみると(図2の右の棒グラフ)、DUF2237を持っている方が、DUF2237を持っていないものよりも走光性(光に向かって進む性質)が強いことが分かりました。このことから、機能未知遺伝子DUF2237は、やはり光に関係した遺伝子であるといえます。

より精度が高い手法の確立を目指して

遺伝子の正確な相関を知るためには、「比べている種が互いに独立しているか」「遺伝子間に偽相関はないか」などの点を考える必要があります。

「種が互いに独立しているか」という点については、現存生物種のゲノムのデータと系統樹から祖先生物のゲノムを機械学習で推定して、種の枠組みを遺伝子の獲得や喪失のパターンに置き換えました(図3)。進化のプロセスを踏まえているので、例えば兄弟のような近い関係性のものを取り除くことができます。私の手法の特徴は、遺伝子をその特性によってクラスター化し、クラスターごとに進化の速度を変えるようにしたことです。これにより遺伝子の獲得・喪失パターンの精度が格段に上がりました。

図3. Mirage: 祖先生物ゲノムの精確な推定
祖先生物のゲノムをたどり、系統樹を用いて遺伝子の獲得や喪失のパターンを表した図。右下の図では、横軸は遺伝子のクラスター化の数、縦軸は精度を表している。クラスター数を増やして進化の速度を多様化させるほどパターンの精度が高くなっていることが分かる。

上記では、系統樹そのものも現存の生物種のゲノムから推定する必要があります。より精度の高い系統樹推定の手法として、通常のユークリッド空間ではなく、双曲空間という枝分かれをベクトル(大きさと向きを持つ量)で表現するのに適した空間に系統樹をあてはめることによって、機械学習による推定精度を高める手法の研究を行っています。

「遺伝子間に偽相関はないか」という点については、「イジングモデル」という数理モデルを用いて、ゲノムデータから元々のパラメータを機械学習で推定し、偽相関を取り除くことをはかっています。

以上が、私の取り組んでいる微生物の機能未知遺伝子の推定手法の一端です。より精度の高いソフトウエアを開発し、世界の研究者に役立ててもらうことが目標です。

取材・構成:四十物景子
協力:早稲田大学大学院政治学研究科J-School

Page Top
WASEDA University

早稲田大学オフィシャルサイト(https://www.waseda.jp/inst/wias/)は、以下のWebブラウザでご覧いただくことを推奨いたします。

推奨環境以外でのご利用や、推奨環境であっても設定によっては、ご利用できない場合や正しく表示されない場合がございます。より快適にご利用いただくため、お使いのブラウザを最新版に更新してご覧ください。

このままご覧いただく方は、「このまま進む」ボタンをクリックし、次ページに進んでください。

このまま進む

対応ブラウザについて

閉じる