構造相転移の発現を高精度で事前予測

機械学習で有機固体の相転移を起こす分子をスクリーニングする手法を開発

構造相転移発現を事前に予測することで、材料・製薬分野での効率的な新材料創出が可能に

発表のポイント

  • これまで予測の難しかった構造相転移について、機械学習の一種であるPositive-Unlabeled学習により相転移を起こす分子を効率的にスクリーニングする手法を開発し、その有効性を検証しました。
  • 予測した候補分子のうち約8%で実際に相転移が確認されました。これは、有機固体の結晶構造データベース(CSD)に含まれる相転移の報告率約0.3%を大きく上回る数値であり、従来の方法ではできなかった構造相転移の大規模スクリーニングが可能になりました。
  • 構造相転移は蓄熱材料、強誘電材料、アクチュエータ材料などで重要な現象であるため、材料分野を中心に様々な分野での適用が期待されます。

概要

早稲田大学データ科学センター谷口卓也(たにぐちたくや)准教授、同大理工学術院の朝日透(あさひ とおる)教授、同大大学院先進理工学研究科一貫制博士課程4年の石崎一輝(いしざきかずき)および同大大学院先進理工学研究科修士課程(研究当時)の高木大輔(たかぎだいすけ)らの研究グループ(以下、本研究グループ)はこのたび、機械学習を使った有機固体の構造相転移スクリーニングに成功しました。予測した候補分子の約8%で実際に相転移を確認でき、従来のDFT法*1では不可能だった大規模スクリーニングが可能になりました。蓄熱材や強誘電材、アクチュエータ材料など、構造相転移によって機能が発現する材料分野を中心に、様々な分野への応用が期待されます。
本研究成果は、英国の王立科学会が発行する『Digital Discovery』誌にて2023年6月22日(木)に速報版としてオンライン公開されました。(論文名:Molecular screening for solid–solid phase transition by machine learning

 

図1:多数の分子から構造相転移を起こす分子を抽出する概念図

(1)これまでの研究で分かっていたこと(科学史的・歴史的な背景など)

構造相転移とは、ある結晶構造が別の結晶構造に変化する現象です。構造相転移は温度変化や圧力変化などにより引き起こされ、有機固体材料の強誘電性の発現や力学的エネルギーの創出など、さまざまな機能創出に関わっています。有機固体の構造相転移を見つける工程には労力がかかり、手当たり次第に結晶を作製しては熱分析測定を行い、融点以外の吸熱または発熱ピークがあれば構造相転移を初めて発見できるというプロセスでした。もし構造相転移の発現を事前に予測することができれば、効率的な材料創出が可能となります。

この問題に対するアプローチとして、従来は量子化学計算や分子動力学シミュレーションによる相転移計算が取り組まれてきました。しかし、有機固体は単位格子内の原子数が無機材料に比べて多く、計算コストや計算精度の問題から、多数のデータをスクリーニングすることには不向きでした。そのため、多数の有機固体をスクリーニングし、どの材料が構造相転移を起こすか予測する手法は確立されていませんでした。

(2)今回の研究で新たに実現しようとしたこと、明らかになったこと

今回の研究では、分子記述子*2を用いて機械学習を行い、構造相転移の発現しやすさを予測することを目指しました。この問題設定では結晶構造を考慮していないため、結晶多形の区別や構造ダイナミクス解析はできませんが、分子記述子を用いることでシンプルな問題設定となり、計算コストは低くなります。今回はこのメリットを優先して分子記述子を使った機械学習を実施しました。

構造相転移が報告されている有機固体データを文献から独自にまとめ、相転移の報告がないデータはケンブリッジ結晶構造データベースCSD*3から取得しました。構築したデータセットを用いて、構造相転移の発現可能性を予測する機械学習モデルを構築しました。この機械学習モデルに約18万個の分子データを入力すると、構造相転移が発現する確率が高い分子として113個の分子を抽出することが可能となりました。このうち、9個の分子については文献および実験で構造相転移の発現を確認することができました。その結果、この手法によるスクリーニングでは、約8.0%の割合で相転移する分子を得ることに成功しました。これは、CSDに含まれる相転移の報告率約0.3%を上回る値であり、機械学習による分子スクリーニングが従来より高い精度で機能したと言えると本研究グループは考えています。また、実験で確認した構造相転移は過去に報告がなく、本スクリーニングで新規構造相転移を見出すという成果を挙げることとなりました。

図2: スクリーニングで抽出された分子が構造相転移を起こす割合。機械学習による予測確率が0.3以上の候補分子、および0.2以上の候補分子について文献や実験で確認した構造相転移の割合を示している。

 

図3:本研究で発見した新しい構造相転移。175℃程度に加熱した後に室温で測定したX線回折パターン(赤色)は加熱前に測定した回折パターン(青色)から少し変化しているので、構造相転移したことが分かる。

図4:吸熱温度の回帰分析における実験値と予測値の散布図

 

さらに、分子記述子を使った回帰分析から、分子構造と転移温度とは関係性があることが分かりました。結晶構造の情報がなくても分子構造だけで相転移温度を予測できることは新しい知見と言えます。

 

(3)そのために新しく開発した手法

機械学習を行うために、有機固体の構造相転移データを独自にまとめました。構造相転移を報告した文献から分子構造や転移温度、転移エンタルピー*4の情報を手作業で抽出し、データセットを構築しました。論文の本文に記載があるとは限らず、熱分析測定の図を読み取る必要があったり、論文の補助資料の記載を読み取る必要があったりと煩雑な工程でしたが、100報近くの論文からデータを収集しました。

また、機械学習においても通常の分類ではなく、Positive-Unlabeled学習を行いました。通常の分類では、構造相転移の予測において「発現する」or「発現しない」を分類しますが、Positive-Unlabeled学習では「発現する」or「判断できない」を分類します。Positive-Unlabeled学習を用いる理由は、真に構造相転移を発現しないデータを見つけるのは多くの化合物で困難だからです。例えば、ある結晶の熱分析を行い融点以外のピークが観察されない場合は、興味深い現象は特に無かったと判断され、測定した研究者以外にとっては存在しない未知のデータとなります。また、化合物合成に主眼を置いた研究の場合では熱分析測定が行われないことも多く、CSDに結晶構造の登録はあるが、相転移するかどうかは不明という状況となります。したがって、相転移の報告がない(unlabeled)データの中には、相転移する(positive)データも相転移しない(negative)データも含まれると考えるほうが妥当で、その中のpositiveになりそうなデータはどれかを知ることが有用です。Positive-Unlabeled学習の仕組み自体はElkanら(2008)によって開発されていましたが、それを本研究では構造相転移の分子スクリーニングに活用しました。

 

図5:通常の分類問題とPositive-Unlabeled学習による分類問題の違い

 

(4)研究の波及効果や社会的影響

構造相転移は蓄熱材料、強誘電材料、アクチュエータ材料などで重要な現象であるため、本研究で開発した機械学習手法は、機能性有機固体の分子スクリーニングに有効だと期待できます。また、分子構造と転移温度には関係性があることが判明したため、回帰モデルを使って分子構造から転移温度を予測できるようになり、実施者の好む温度で構造相転移する材料を開発できる可能性もあります。さらに、薬の錠剤も有機固体であり、構造相転移が起きるような分子を使うと薬効が変わることが予想されるため、錠剤の安定性予測に活用できるかもしれません。このように、材料・製薬分野に波及効果のある成果として期待されます。

(5)今後の課題

文献から人力でデータセットを構築する過程は大変面倒で、集められるデータ数も限られます。大規模言語モデルなどを活用し、データ収集の自動化によりデータ数の多いデータセットを構築することは今後の課題です。また、今回の研究では簡便性を優先するため分子記述子を用いましたが、この問題設定では結晶構造を考慮していないため結晶多形の区別や構造ダイナミクス解析はできていません。今後、結晶構造を考慮した機械学習を開発することで、機械学習の精度もより向上すると期待されます。

(6)用語解説

※1  DFT法

密度汎関数理論(Density Functional Theory)に基づく理論計算の手法です。使用する基底関数や計算方法にもよりますが一般に高い計算精度を求める際に用います。高い計算精度を求めるほど計算時間もかかります。

※2  分子記述子
分子の性質や特徴を数値化して表現するための手法です。例えば、分子をベクトルに変換できれば機械学習の入力に使用することができます。さまざまなベクトル化手法が開発されています。

※3 ケンブリッジ結晶構造データベース(CSD)

非営利団体のケンブリッジ結晶学データセンターが運営する有機系の結晶構造データベース。2023年6月時点で120万個以上のデータが登録されています。

※4 転移エンタルピー

構造相転移前後の結晶構造のエネルギー差のことです。構造相転移による構造変化が小さいと転移エンタルピーも小さく、構造変化が大きいと転移エンタルピーも大きくなります。

(7)論文情報

雑誌名:Digital Discovery
論文名:Molecular screening for solid–solid phase transition by machine learning
執筆者名(所属機関名):Daisuke Takagi*c, Kazuki Ishizaki*c, Toru Asahi*b and Takuya Taniguchi*a
a-早稲田大学データ科学センター、b-早稲田大学理工学術院、c-早稲田大学大学院先進理工学研究科
掲載日(現地時間):2023年6月22日(木)
掲載URL:https://doi.org/10.1039/D3DD00034F
DOI:10.1039/D3DD00034F

(8)研究助成(外部資金による助成を受けた研究実施の場合)

  • 研究費名:日本学術振興会 科学研究費助成事業 研究活動スタート支援
    研究課題名:光トリガー相転移結晶の定量的解析と機能開拓
    研究代表者名(所属機関名):谷口卓也(早稲田大学)
  • 研究費名:日本学術振興会 科学研究費助成事業 新学術領域研究(研究領域提案型)
    研究課題名:光トリガー相転移によるメカニカルソフトクリスタルの創製
    研究代表者名(所属機関名):谷口卓也(早稲田大学)
  • 研究費名:日本学術振興会 科学研究費助成事業 若手研究
    研究課題名:有機固体材料のマテリアルズインフォマティクス基盤構築
    研究代表者名(所属機関名):谷口卓也(早稲田大学)
Page Top
WASEDA University

早稲田大学オフィシャルサイト(https://www.waseda.jp/top/)は、以下のWebブラウザでご覧いただくことを推奨いたします。

推奨環境以外でのご利用や、推奨環境であっても設定によっては、ご利用できない場合や正しく表示されない場合がございます。より快適にご利用いただくため、お使いのブラウザを最新版に更新してご覧ください。

このままご覧いただく方は、「このまま進む」ボタンをクリックし、次ページに進んでください。

このまま進む

対応ブラウザについて

閉じる