機械学習用データセット作成の前処理を自動化。

実験データベース（Brix Lite）を材料実験の機械学習に適用した例

旧来、実験データベースは、レポート作成など解析業務の自動化のために使われてきました。生データを実験データベースに格納し、そのデータに対してpythonなどのプログラムを実行して解析処理を行います。ただ、最近では、新たな使い方でご使用いただくことも出てきました。機械学習用のデータセット作成のために使うケースです。今回は、この使い方について解説します。

実験担当者から、機械学習担当者へのデータの受け渡し

製造業などの日本企業では、機械学習担当者と実験者が異なり、実験者は複数名存在し、機械学習担当者は1名または、少数名であることが一般的です。下記は、学習用のデータを集めて、機械学習をかけるまでの一般的な流れを表しています。

①複数の実験者が、実験してデータを計測し、Excelにまとめる

②複数の実験者が、実験ファイルをメールに添付して、機械学習担当者に送る

③機械学習担当者が、複数のファイルをまとめて、１つのデータセットを作成する

機械学習担当者の苦労

このような場合、機械学習担当者は、とても苦労します。具体的には、下記のような困りごとがあります。

困りごと１：多くのメールの添付ファイルを保存したり、開いたりするのが大変。

困りごと２：人によって、Excelの縦書き、横書きが違うので、コピーペーストするのが大変

困りごと３：同じ意味だが、人により違う同義語を修正するのが大変（例：密度、比重）

困りごと４：機械学習用に計算処理をかけるのが大変。（例：材料実験。機械学習用に原材料の配合値の合計が1になるように計算するのが大変）

困りごと５：説明変数や目的変数の値で過去に実験者から提供されたデータを検索したいが出来ない。実験者に同じデータを何度も依頼するか、一つずつファイルを開いて確認するしかないので難しい

関連情報のひも付け

機械学習担当者は、業務時間の約8割を、これらの泥臭い業務に充てており、本来注力したい解析業務に十分に時間をさけないことが多いです。

実験データベースを使用することで、これらの業務を自動化し、多くの手間を省くことができます。

まず、実験者にメールではなく、データベースに登録してもらうことで、機械学習担当者が、多くのメールを扱う必要がなくなります。機械学習者は、実験データベースにアクセスすれば、実験者からのデータを取得することができます。

また、実験データベースは、pythonなどのプログラムと連携することにより、その価値を増します。困りごとの2～4については、実験データベースBrix LITEに加えて、お客様のデータに合わせて若干のpythonプログラムを作成することで解決することができます。

さらに、データベース内に蓄積されたデータは、説明変数や目的変数の値で検索することが可能です。一度登録されたデータは、再検索することが可能なので、実験データを何度も実験者に依頼することはなくなります。

今回紹介した例は、一例ですが、機械学習用途でのお問い合わせは年々増加しています。

当社製品、実験データベースBRIX LITEについて

当社のBRIX LITEを使用したソリューションは、これらの要件を満たした実験データ専用のデータベースです。

右の図は、BRIX LITEに走査電子顕微鏡（SEM）で取得した実験データを格納した写真です。実験データを異なる装置で取得し、試料や、XPSなどの分析手法を関連情報としてひも付けて格納しています。これらの情報をもとに、GUI（グラフィカルユーザインタフェース）から、実験データを人が検索する事が可能です。

また、REST APIを使用しpythonでデータを取得する事もできます。

データ点数が多い計測データに対しては、速度が速いprotocol bufferを使用した通信も可能です。

オプションになるが、オントロジーのような、高度な情報を実験データにひもづけたい場合、Graph型データベース（Neo4j）との統合システムをつくることも可能です。

また、こちらもオプションになるが、大容量データや高負荷処理に対しては、Sparkを活用した分散処理環境に拡張出来ます。実験データを子サーバに分散させて格納し、Sparkによる処理をかける事で高速な演算を実現します。

このように、BRIX LITEはマテリアルインフォマティクスを支援する実験データ基盤です。ご興味がある方は、当社までお気軽にお問い合わせください。

BRIX LITEへの材料実験データの格納