- TsaheyluインターフェースがLLMと科学基盤モデルを双方向接続し、言語推論と特化計算を適応的に切り替える仕組みを提供
- EywaAgent / EywaMAS / EywaOrchestraの3構成で、単一エージェントから動的マルチエージェント調整まで段階的にカバー
- 物理・生命・社会科学9ドメインのEywaBenchで単一LLM比7%性能向上と約30%トークン削減を実証
研究の背景と課題
大規模言語モデル(LLM)は自然言語の推論において高い汎用性を持ちますが、科学分野への応用には根本的な制約があります。分子動態シミュレーション、タンパク質構造予測、時系列予測といったタスクは、テキストではなく数値・グラフ・座標データを専門に扱う基盤モデル(Foundation Model)が最適です。
既存のLLMエージェントはこうした非言語科学モデルをうまく活用できず、テキスト変換を経由することで情報が失われる「シリアライゼーションボトルネック」が問題となっていました。UIUCの研究グループが発表したEywaは、LLMの推論能力を損なわずに異種(ヘテロジニアス)科学基盤モデルを統合するエージェントフレームワークとして設計されています。
TsaheyluインターフェースとMCP連携
Eywaの核となるのが「Tsaheyluボンド」と呼ばれる双方向通信チャネルです。このインターフェースは2つの関数で構成されます。
- Query Compiler(ϕ): エージェントの状態を基盤モデルが受け取れる構造化された呼び出しに変換
- Response Adapter(ψ): 基盤モデルの出力をLLMが理解できる言語表現に逆変換
実装にはModel Context Protocol(MCP)を採用し、各科学基盤モデルをリモートサービスとして公開します。入出力スペースに明示的なスキーマを定義することで、LLMが「基盤モデルを呼び出すか・スキップするか」をステップごとに適応的に判断できます。MCPを活用した自己進化型エージェントと同様に、Eywaもエコシステムの標準基盤としてMCPを積極的に活用している点が特徴です。

3つのシステム構成
EywaAgentは、1つのLLMと1つの科学基盤モデルをTsaheyluボンドで接続した最小単位です。制御ポリシーが各ステップで基盤モデルへの委譲を判断し、言語推論と特化計算を動的に使い分けます。論文では情報理論的な枠組みを用いて、EywaAgentが言語のみのエージェントよりも解けるタスクの空間を厳密に拡張することを証明しています。
EywaMAS(Multi-Agent System)は、既存のマルチエージェントシステムへの組み込みを想定した構成です。通常のLLMエージェントとEywaAgentが固定トポロジー上で共存し、標準化されたインターフェースで連携します。アーキテクチャを大幅に変更せずに異種エージェントを追加できる柔軟性を持ちます。また、出力ノードに到達する経路上に少なくとも1つのEywaAgentが存在すれば、マルチエージェント全体の性能向上が伝播することも理論的に示されています。
EywaOrchestraは、コンダクターLLMがエージェント構成・モデル選択・通信トポロジーをタスクに応じて動的に決定する調整フレームワークです。固定設計に依存せず入力に合わせた最適編成を選択するため、推論コストを抑えながら広いタスク範囲に対応できます。
EywaBenchによる実験結果
研究チームは評価用ベンチマーク「EywaBench」を独自に構築しました。物理科学(材料・エネルギー・宇宙)、生命科学(生物・臨床・創薬)、社会科学(経済・ビジネス・インフラ)の9サブドメインをカバーし、自然言語・時系列・表形式データの複合タスクで構成されています。
評価には時系列予測モデル「Chronos」と表形式学習モデル「TabPFN」(インコンテキスト学習によるTransformerベースの表形式予測モデル)を科学基盤モデルとして採用しました。主な結果は以下の通りです。
- EywaAgentは単一LLMベースラインに比べ7%の性能向上と約30%のトークン削減を達成
- EywaMASは同種マルチエージェントシステムを性能・トークン効率の両面で上回る
- EywaOrchestraは固定構成のEywaMASと同等の性能を維持しつつ、推論コストを11%削減
トークン削減は単なるコスト低下だけでなく、不要な言語変換を省くことで情報損失も抑えられる点で重要です。言語依存度を下げた設計が、科学タスク全体の精度向上に寄与しています。
まとめと今後の展望
EywaはLLMと専門科学基盤モデルを体系的に橋渡しする設計を示した研究です。Tsaheyluインターフェースによる双方向接続と3層のシステム設計により、単一エージェントから動的マルチエージェントへ段階的に拡張できる構造を提供します。
一方で、実験に使用した基盤モデルはChronosとTabPFNの2種類に限られており、タンパク質構造予測や分子動態など大型生命科学モデルへの適用検証は今後の課題となります。EywaOrchestraの動的ルーティングがより複雑なタスク連鎖でどの程度有効かについても継続的な検証が必要です。コードはGitHubで公開されており、他の科学基盤モデルとの組み合わせを試みる研究者にとって再現性の高い出発点となるでしょう。
