実験データサイエンスを促進するデータ基盤
~複数のデバイス、サーバを使った分散処理環境~
1.課題、背景
- 複数のデバイス(CPU,GPU)に計算を分散させて並列実行したい
- 必要なデータが見つからない、検索に多大な時間がかかる
- 大容量の実験データの前処理に多大な時間を要する
例:実験データファイルを集めて、データセットを作成するのに多大な時間がかかる
- 負荷が高い計算処理に多大な時間を要する
例:大規模なDNN(Deep Neural Network)を訓練するのに数日、数週間など多大な時間がかかる
(十層で、各層が数百ニューロンを抱えており、それらが数十万もの接続でつながっているDNN)
2.計測データのデータ化、標準化について
計測データのデータ化、標準化は、AIやビッグデータ解析等のコンピューターを用いた大量データ活用を促進します。
計測データがExcelなどのファイルに保存されている環境で、多くのデータを活用するためには、前処理に多大な労力が必要です。
例として、あるデータセットを作成するために、下記の作業が必要です。
・各担当者によって独自に作成された100以上のExcelファイルを開く
・該当のチャンネルデータを抜き出して、マスターExcelに張り付ける
・他人が作成した各Excelファイルの書式を理解して、該当箇所を抜き出す
・データが水平に並べてあれば、行を列になおす 等々
計測データが、データ化されている場合、このような前処理に必要な労力を大幅に削減する事が出来ます。
当社のソリューションでは、計測データを、標準化されたデータとしてデータベースサーバに格納します。
コンピュータは、Webを通じて、この標準化されたチャンネルデータを取得でき、素早くデータセットを作成する事が出来ます。
3.データ構造。セマンテック(意味論)とデータ空間
コンピュータが実験データの意味を理解するためにデータを構造化しています。
例えば、2000という数値があった場合、コンピュータは、それが、計測データの値を表すのか、試験の管理番号を表すのかわかりません。
また、「RPM」という単語があった場合、それが単位を指しているのか、計測チャンネルの名前を指しているのか分かりません。
人間ならば、文脈である程度、意味を判断できますが、コンピューターが意味を判断するためには、データに属性やクラスを付けて構造化することが必要です。
また、計測データの構造については、ASAM ODSという世界標準を採用しています。
Web上に大きなデータ空間が出来、コンピュータがWeb規模で内容を解釈して処理した場合の有用性は計り知れません。
例えば、ユーザーが欲しいデータを自分で取りに行くだけでなく、コンピュータが大規模Webから意味的に正しい情報を提示できる可能性があります。
4.関連製品