LLMとつながる実験データベース
– 成膜装置の実験データとAIエージェントで、実験条件出しを効率化する –
はじめに
生成AIと様々なツールを簡単に接続できるMCP(Model Context Protocol)の普及が急速に進んでいます。
2024年11月に100ツールの対応から始まったMCPは、2026年1月現在すでに1万7000以上のツールが対応しており、生成AIにツールを使わせて業務を効率化しようという流れが本格化しつつあります。
こうした潮流のなかで、私たちは「生成AIと実験データベースをつなげると何ができるのか」を検証してきました。その結果、非常に興味深い成果が得られましたので、本ブログではその一部をご紹介します。
実験現場の課題 ― 「最初の条件出し」に時間がかかる
実験の現場で、最も苦労するプロセスの一つが「最初の実験条件をどう決めるか」です。
装置の使い方に慣れていない実験者にとって、どのような条件で実験を開始するかは大きな悩みどころです。以前は自分で色々と試しながら条件を探る方が多かったようですが、最近は経験豊富なエキスパートの知恵を借りたいという実験者が増えています。
**そこで私たちは、このエキスパートの検索プロセスをAIで再現することを試みました。**
生成AI × 実験データベース ― AIエージェントの構築
生成AI用のグラフ型データベースを用意し、そこに成膜装置から得られた過去の実験データを登録しました。それを生成AIと接続して、AIエージェントを構築しました。
これにより、人間がエキスパートに相談するように自然言語で質問を投げるだけで、生成AIが過去300件以上のデータから「この実験条件があなたの目的に近いですよ」と、まるでベテラン技術者のようにアドバイスを返してくれる環境が実現しました。
使用したデータの概要
今回使用したのは、複数機種の成膜装置から得られた約350件の測定結果です。
これらは、様々なユーザーが計測したデータとなり、ユーザーごとに目的が異なるため、1層だけ成膜する人もいれば2層成膜する人もおり、プラズマの使用有無や、取得する特性(物理特性のみ/電気特性も含む)なども多岐にわたります。
また、メタデータの項目数は200以上にのぼりますが、一つの測定ですべての項目が埋まることはなく、ある測定では40項目、別の測定では70項目が埋まっているという状況です。
機械学習では扱いにくいデータですが、生成AIは実験データベースを介することで、非常に上手に活用することができました。
AIエージェントの実力 ― 2つの質問事例
事例1:膜厚精度に関する相談
AIエージェントに「膜厚 ±1nmを狙いたいのですが、どれくらいの精度なら狙えそうでしょうか。参考となるデータを教えてください」と質問しました。これは実際の現場でエキスパートに聞かれる質問そのものです。
AIエージェントはデータベースを検索し、約1分で「膜厚±1nmの精度制御について、以下の実験が参考になります」と回答を返してきました。
ここで注目すべきは、**AIが質問の意味を理解し、データベースで検索できる言葉に自動変換している**という点です。
実はデータ項目の中に「精度」という項目名は存在しません。それでもAIは自身の材料科学に関する知識を使って、「精度という項目はないが、成膜速度という項目がある。成膜速度が遅いデータを提示すれば、ユーザーの目的に合うだろう」と判断し、成膜速度の値でデータをフィルターして提供しました。
つまり、AIが付いていないデータベースであれば「そのデータは検索できません」となってしまうところを、賢い生成AIが質問の言葉とデータベースの言葉の橋渡しをしてくれるのです。
事例2:異なる膜種の連続成膜に関する相談
次に「導電性膜の上に絶縁膜を連続で成膜できますか」と質問しました。
データベース内の成膜材料には「導電性」「絶縁性」というラベルは一切ついておらず、化学式が記載されているだけです。しかしAIは自身の知識を使って、データ内の成膜材料を導電性と絶縁性に分類しました。さらに2層以上の成膜データがあるものだけを抽出して、参考実験を提示しました。
いずれの事例でも、AIエージェントは詳細な実験条件を表にまとめてダウンロード可能な形で提供してくれるため、実験者はそれを見て次の実験条件を検討することができます。
なぜ「データベース接続」が重要なのか ― プロンプト直貼りとの比較
「わざわざデータベースを作らなくても、実験データをプロンプトに直接貼り付ければいいのでは」と思われるかもしれません。
実際に試してみたところ、プロンプト直貼りでは精度が低下し、本来提示すべき参考実験が漏れてしまうケースが多発しました。参考実験として提示される数が平均して約3分の1に減少する事象が確認されました。
原因は、プロンプトのテキストが膨大になると生成AIの「アテンション」が分散し、いわゆる「中だるみ」現象が起きて精度が落ちるためです。
一方、データベースと接続したケースでは、AIは「この質問なら、まずデータのこの項目をこの条件で検索しよう」という形で少しずつデータを読んで判断していくため、一度に処理するデータ量が少なく、複雑で大量な実験データであっても正確な回答を引き出すことができました。
実験データベースの構成 ― 2つのデータベースを使い分ける
今回の取り組みで採用したのは「2つのデータベース」を使った構成です。
**蓄積用のリレーショナルデータベース(RDB)** は、日々の実験データを安定的に蓄積するために使います。歴史が長く、社内外に知見を持つエンジニアが多いため、保守運用がしやすいという利点があります。
**生成AI用のグラフ型データベース** は、生成AIとの接続に特化した用途で使います。グラフ型データベースの最大の特徴は、データ間の関係を「ノード」と「エッジ」で明示できる点です。「この実験でこの材料を使って、この特性を計測した」というつながりが構造として表現されるため、生成AIがデータの構造を正しく理解しやすくなります。
蓄積用データベースからCSV等でデータを出力し、生成AI用データベースに一括登録する運用です。
万が一、生成AI用データベースのデータを誤って消してしまっても、マスターデータは蓄積用データベースにあるのでリスクがありません。
また、生成AI用データベースはノートPC上に立てられるため、大がかりなサーバー構築は不要です。
2つのデータベースを持つメリット
この構成には、技術的なメリットだけでなく、組織面でも大きな効果がありました。
**現場のモチベーション向上:** これまで「データを溜めても使わない」と言われていた実験現場でも、蓄積したデータをLLMにつないでデモを見せると「これは面白いね」という反応が生まれ、データ登録への協力が広がっていきました。他部署への紹介やDX系の会議での発表依頼など、波及効果もありました。
**経営陣への説得力:** スライドだけで「DXが重要」と説明してもなかなか伝わりませんが、実際に動くデモを見せると反応が大きく変わります。上層部から活発な質問や発言が出てくるようになり、こうした活動への理解とサポートを得るための強力な武器となりました。
おすすめツール
グラフ型データベース:Neo4j
生成AIとの接続用データベースとして、Neo4j社の「**Neo4j**」を推奨します。
無償版でも有償版とほぼ同等の機能が使えます。クエリ言語「Cypher」は生成AIが学習済みのため、CSVデータの登録コードなども生成AIに書かせることができます。複数のデータベースを一つのアプリ上に立てられるのも便利な機能です。
生データ蓄積用データベース:Brix Lite
生データ蓄積用のリレーショナルデータベースとしては、弊社iASYS Technology Solutionsの「**Brix Lite**」があります。
装置から出力される「プログラムにとって読みづらい生データ」を、読みやすい形に変換して登録できる点が特徴です。
APIも備えており、Python等からデータを取得できます。クラウド上で体験版もご利用いただけますので、実験データベースの導入を検討されている方はぜひお試しください。
まとめ
生成AIと実験データベースを組み合わせることは、実験現場に大きな価値をもたらします。実験データベースは単なるデータの保管場所ではなく、生成AIという賢い相棒をつなげることで、ベテラン技術者の暗黙知を形式知に変換する、パワフルなツールへと進化します。
そして今の時代、このような環境を構築するコストや実装負荷は、それほど大きくありません。機会がありましたら、ぜひ生成AIと実験データベースの連携をお試しいただければと思います。
生成AIと実験データベースの連携にご関心のある方は、お気軽にお問い合わせください。










