機械学習用データセット作成の前処理を自動化。
実験データベース(Brix Lite)を材料実験の機械学習に適用した例
旧来、実験データベースは、レポート作成など解析業務の自動化のために使われてきました。生データを実験データベースに格納し、そのデータに対してpythonなどのプログラムを実行して解析処理を行います。ただ、最近では、新たな使い方でご使用いただくことも出てきました。機械学習用のデータセット作成のために使うケースです。今回は、この使い方について解説します。
実験担当者から、機械学習担当者へのデータの受け渡し
製造業などの日本企業では、機械学習担当者と実験者が異なり、実験者は複数名存在し、機械学習担当者は1名または、少数名であることが一般的です。下記は、学習用のデータを集めて、機械学習をかけるまでの一般的な流れを表しています。
①複数の実験者が、実験してデータを計測し、Excelにまとめる
②複数の実験者が、実験ファイルをメールに添付して、機械学習担当者に送る
③機械学習担当者が、複数のファイルをまとめて、1つのデータセットを作成する
機械学習担当者の苦労
このような場合、機械学習担当者は、とても苦労します。具体的には、下記のような困りごとがあります。
困りごと1:多くのメールの添付ファイルを保存したり、開いたりするのが大変。
困りごと2:人によって、Excelの縦書き、横書きが違うので、コピーペーストするのが大変
困りごと3:同じ意味だが、人により違う同義語を修正するのが大変(例:密度、比重)
困りごと4:機械学習用に計算処理をかけるのが大変。(例:材料実験。機械学習用に原材料の配合値の合計が1になるように計算するのが大変)
困りごと5:説明変数や目的変数の値で過去に実験者から提供されたデータを検索したいが出来ない。実験者に同じデータを何度も依頼するか、一つずつファイルを開いて確認するしかないので難しい
関連情報のひも付け
機械学習担当者は、業務時間の約8割を、これらの泥臭い業務に充てており、本来注力したい解析業務に十分に時間をさけないことが多いです。
実験データベースを使用することで、これらの業務を自動化し、多くの手間を省くことができます。
まず、実験者にメールではなく、データベースに登録してもらうことで、機械学習担当者が、多くのメールを扱う必要がなくなります。機械学習者は、実験データベースにアクセスすれば、実験者からのデータを取得することができます。
また、実験データベースは、pythonなどのプログラムと連携することにより、その価値を増します。困りごとの2~4については、実験データベースBrix LITEに加えて、お客様のデータに合わせて若干のpythonプログラムを作成することで解決することができます。
さらに、データベース内に蓄積されたデータは、説明変数や目的変数の値で検索することが可能です。一度登録されたデータは、再検索することが可能なので、実験データを何度も実験者に依頼することはなくなります。
今回紹介した例は、一例ですが、機械学習用途でのお問い合わせは年々増加しています。
当社製品、実験データベースBRIX LITEについて
当社のBRIX LITEを使用したソリューションは、これらの要件を満たした実験データ専用のデータベースです。
右の図は、BRIX LITEに走査電子顕微鏡(SEM)で取得した実験データを格納した写真です。実験データを異なる装置で取得し、試料や、XPSなどの分析手法を関連情報としてひも付けて格納しています。 これらの情報をもとに、GUI(グラフィカルユーザインタフェース)から、実験データを人が検索する事が可能です。
また、REST APIを使用しpythonでデータを取得する事もできます。
データ点数が多い計測データに対しては、速度が速いprotocol bufferを使用した通信も可能です。
オプションになるが、オントロジーのような、高度な情報を実験データにひもづけたい場合、Graph型データベース(Neo4j)との統合システムをつくることも可能です。
また、こちらもオプションになるが、大容量データや高負荷処理に対しては、Sparkを活用した分散処理環境に拡張出来ます。実験データを子サーバに分散させて格納し、Sparkによる処理をかける事で高速な演算を実現します。
このように、BRIX LITEはマテリアルインフォマティクスを支援する実験データ基盤です。ご興味がある方は、当社までお気軽にお問い合わせください。