Businessman Hand Draws Gear To Success

実験データサイエンスを促進するデータ基盤

~複数のデバイス、サーバを使った分散処理環境~

1.課題、背景

  • 複数のデバイス(CPU,GPU)に計算を分散させて並列実行したい
  • 必要なデータが見つからない、検索に多大な時間がかかる
  • 大容量の実験データの前処理に多大な時間を要する

例:実験データファイルを集めて、データセットを作成するのに多大な時間がかかる

  • 負荷が高い計算処理に多大な時間を要する

例:大規模なDNN(Deep Neural Network)を訓練するのに数日、数週間など多大な時間がかかる

(十層で、各層が数百ニューロンを抱えており、それらが数十万もの接続でつながっているDNN)

2.計測データのデータ化、標準化について

計測データのデータ化、標準化は、AIやビッグデータ解析等のコンピューターを用いた大量データ活用を促進します。

計測データがExcelなどのファイルに保存されている環境で、多くのデータを活用するためには、前処理に多大な労力が必要です。

例として、あるデータセットを作成するために、下記の作業が必要です。

・各担当者によって独自に作成された100以上のExcelファイルを開く

・該当のチャンネルデータを抜き出して、マスターExcelに張り付ける

・他人が作成した各Excelファイルの書式を理解して、該当箇所を抜き出す

・データが水平に並べてあれば、行を列になおす 等々

計測データが、データ化されている場合、このような前処理に必要な労力を大幅に削減する事が出来ます。

当社のソリューションでは、計測データを、標準化されたデータとしてデータベースサーバに格納します。

コンピュータは、Webを通じて、この標準化されたチャンネルデータを取得でき、素早くデータセットを作成する事が出来ます。

3.データ構造。セマンテック(意味論)とデータ空間

コンピュータが実験データの意味を理解するためにデータを構造化しています。

例えば、2000という数値があった場合、コンピュータは、それが、計測データの値を表すのか、試験の管理番号を表すのかわかりません。

また、「RPM」という単語があった場合、それが単位を指しているのか、計測チャンネルの名前を指しているのか分かりません。

人間ならば、文脈である程度、意味を判断できますが、コンピューターが意味を判断するためには、データに属性やクラスを付けて構造化することが必要です。

また、計測データの構造については、ASAM ODSという世界標準を採用しています。

Web上に大きなデータ空間が出来、コンピュータがWeb規模で内容を解釈して処理した場合の有用性は計り知れません。

例えば、ユーザーが欲しいデータを自分で取りに行くだけでなく、コンピュータが大規模Webから意味的に正しい情報を提示できる可能性があります。

4.関連製品

Your Name (required)

Your Email id (required)

Your organization (required)

Phone No (Please mention country code also)

Comment

Your Name (required)

Your Email id (required)

Your organization (required)

Phone No (Please mention country code also)

Comment