マテリアルインフォマティクスの実験データベースに求められる3つの基本要件
マテリアルインフォマティクスの実験データベースに求められる3つの基本要件
マテリアルインフォマティクス(Material Informatics)では、機械学習などの情報科学を通じて新材料や代替材料を効率的に探索する取り組みである。過去の実験データやシミュレーションデータは、その資源となり、それらを効率的に活用するためのデータ基盤が必要となる。具体的には、下記の基本要件が必要であり、それぞれについて説明していく。
・非構造化データを構造化されたデータに変換出来ること
・蓄積されたデータがさまざまな関連情報をもとに検索できること
・pythonなど機械学習や統計処理を実行するツールにデータを受け渡せること
実験データの構造化
まず、様々な計測器から出てくる構造が異なる実験データを、構造をそろえた上で蓄積するデータベースが必要である。
データ構造をそろえた形で蓄積することで、その後のデータ活用に必要な前処理が大幅に削減される。
(実験データの構造化についての詳細は、別記事「DX時代の実験データのデータベース化。 ファイルサーバとは何が違うのか?」を参照ください)
関連情報のひも付け
実験データは、試料や、分析技術など、さまざまな関連情報とひもづけられ、検索が出来る状態で蓄積されなければならない。
また、NIST(https://www.nist.gov/programs-projects/materials-informatics)によると、オントロジーによる用語の表現方法の標準化を実施しているようだ。
どこまでの関連情報を実験データにひもづけるかは、それぞれの組織による判断となると思うが、オントロジーを使用出来るレベルまで拡張幅があることが望ましい。
解析ツールへのデータの受け渡し
また、蓄積されたデータは、試料や、分析技術など、さまざまな関連情報をもとに検索し、pythonなど機械学習や統計処理を実行するツールにデータを受け渡せなければならない。
さらに要件を加えるのであれば、組織のマテリアルインフォマティクスの成熟度と供に、大容量データの処理や、多くのマシンリソースを必要とする機械学習のためにマシンリソースを拡張出来る事ものぞまれる。
つまり、サーバの分散処理技術や、クラウドサーバの活用である。
実験データのSparkによる分散処理アーキテクチャ(BRIX Distribute)
当社製品、実験データベースBRIX LITEについて
当社のBRIX LITEを使用したソリューションは、これらの要件を満たした実験データ専用のデータベースである。
右の図は、BRIX LITEに走査電子顕微鏡(SEM)で取得した実験データを格納した写真である。実験データを異なる装置で取得し、試料や、XPSなどの分析手法を関連情報としてひも付けて格納している。 これらの情報をもとに、GUI(グラフィカルユーザインタフェース)から、実験データを人が検索する事が可能だ。
また、REST APIを使用しpythonでデータを取得する事もできる。
データ点数が多い計測データに対しては、速度が速いprotocol bufferを使用した通信も可能である。
オプションになるが、オントロジーのような、高度な情報を実験データにひもづけたい場合、Graph型データベース(Neo4j)との統合システムをつくることも可能である。
また、こちらもオプションになるが、大容量データや高負荷処理に対しては、Sparkを活用した分散処理環境に拡張出来る。実験データを子サーバに分散させて格納し、Sparkによる処理をかける事で高速な演算を実現する。
このように、BRIX LITEはマテリアルインフォマティクスを支援する実験データ基盤である。ご興味がある方は、当社までお気軽にお問い合わせいただきたい。