【METAGENE-1】ウイルス検出や感染症の監視を強化するTransformer

ウイルス検出や感染症監視を強化するためのTransformerモデル「METAGENE-1」を提案
独自のトークン化戦略と7億パラメータで効率的な遺伝子データ分析を可能に
実験で他モデルを上回る精度を確認し、未知の病原体検出にも有効

論文：METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。

本論文の概要
図表の解説

本論文の概要

論文「METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring」は、ウイルス検出や感染症監視システムの向上を目指し、大規模なメタゲノムデータを活用したTransformerモデル「METAGENE-1」を提案しています。このモデルは、約11.5兆塩基対という膨大な規模のデータセットを事前学習し、感染症の発生源やパンデミック監視に役立つ基盤を提供します。

本モデルの主な特徴として、独自のトークン化戦略により遺伝子データを効率的に符号化し、多様な生物種を対象にした包括的な分析を可能にしています。さらに、7億パラメータのモデルアーキテクチャを採用し、長シーケンスの正確な処理に特化しています。事前学習では、遺伝子配列のコンテキストや生物学的関係性を学習することで、既存のメタゲノムモデルを超える性能を達成しています。

実験結果では、METAGENE-1がウイルス検出、ゲノム解析のタスクで他モデルを上回る精度を示し、特に未知の病原体検出における有効性が確認されました。具体的には、GUE (Genome Understanding Evaluation) ベンチマークやPathogen Detectionベンチマークで、他の競合モデルより高いスコアを達成しました。さらに、廃水中の異常データ検出にも応用可能性が示され、パンデミック監視や環境サンプル分析における応用にも貢献しています。

図表の解説

この図は、METAGENE-1モデルの概要とその応用を示しています。まず、廃水サンプルを収集し、DNAおよびRNA配列の深層メタゲノムシーケンシングが行われます。この結果、1.5兆を超える塩基対のデータが生成されます。次に、生成されたシーケンスデータをバイトペアエンコーディング（BPE）でトークナイズし、事前学習用に用います。このデータを使用して、7ビリオンのパラメータを持つトランスフォーマーモデルであるMETAGENE-1を訓練します。このモデルは、シーケンス埋め込み、病原体検出、シーケンスの補完や拡張、種の分類、異常検知といった多様なメタゲノム解析や監視に応用可能です。

この画像は、METAGENE-1というメタゲノミック基盤モデルの学習に使用されるメタゲノムデータ収集とシーケンシングの流れを示しています。最初に、様々な生物のゲノム断片を含む廃水が収集されます。この廃水には何万もの異なる生物が存在します。次に、このサンプルが高効率のメタゲノミクスシーケンシングによって処理され、数百万のペアエンドリードが生成されます。各リードは数百の塩基対からなり、全体で1.5兆塩基対以上のデータとなります。このデータはモデルの事前学習に使用され、パンデミック監視や病原体検出に役立ちます。

この表は、メタジェンモデル「METAGENE-1」のアーキテクチャに関する詳細を示しています。このモデルは、Llama-2-7Bアーキテクチャを採用し、パラメータ数が70億に及ぶ大規模な言語モデルです。エンベディングサイズは4096で、中間サイズは11008です。注目すべき点として、32個の注意ヘッドと隠れ層があり、ボキャブラリーサイズは1024です。シーケンス長は512であり、正規化にはRMSNormを使用しています。位置エンベディングはロータリーで、バイアスはありません。初期学習率は0.0006で、重み減衰は0.1です。コサイン減衰を学習率スケジュールとして使用し、ウォームアップステップは2000です。この構成により、無作為なメタゲノムデータのモデリングに適しています。

この表は、病原体検出ベンチマークの結果を示しています。評価に使用された指標はMCC（Matthews相関係数）です。DNABERT-2、DNABERT-S、NT-2.5b-Multi、NT-2.5b-1000g、METAGENE-1という5つのモデルの性能が比較されています。METAGENE-1は、他のモデルよりも優れた結果を示しており、特に平均MCCが92.96と他のモデルを上回っています。このデータは、METAGENE-1が多様なシーケンシング条件や配信パイプラインでも高い性能を発揮することを示しています。文献のセクション5.2に詳細があります。これによってMETAGENE-1の病原体検出の有効性が確認されました。

この図は、METAGENE-1の事前学習データセットのメタゲノム組成を示しています。Kraken 2というツールを使い分類された結果で、Kronaというソフトウェアで可視化されています。中心の「Root」から読んでいくと、全体の55%がバクテリアであることがわかります。続いて、ウイルスが2%、ヒトを主とする真核生物が2%を占め、残りの41%は未分類か未知の起源という構成です。これにより、公共衛生や病原体検出に役立つモデルを作成するための基盤データセットが非常に多様であることが示されています。このような可視化によって、データセット内の微生物の多様性やその割合が一目でわかります。

この表は、遺伝子組み込みベンチマーク（Gene-MTEB）でのいくつかのモデルの性能結果を示しています。特に、DNABERT-2、DNABERT-S、NT-2.5b-Multi、およびMETAGENE-1の5つの異なる設定でのモデル評価が行われています。各行は異なるデータセットやタスクの結果を示しており、HUMAN-VIRUS, HMPD, HVR, HMPRの各種が含まれています。例えば、HUMAN-VIRUS平均では、METAGENE-1が最高の性能（0.775）を示しています。また、表の最下部には、これら全体の平均結果が示されており、METAGENE-1が全体的に優れた性能を持つことが明らかになっています。このように、METAGENE-1は他のモデルに対して高い精度を示しており、特に病原体検出やゲノム埋め込みで有効です。

この図はMETAGENE-1の事前学習中におけるz損失を示しています。z損失は、ニューラルネットワークの安定性を示す重要な指標です。図を見ると、ステップ数の初期段階ではz損失が急激に減少し、その後ほぼ安定している様子が確認できます。これは、モデルが効率的に学習し、安定した状態に達したことを示しています。METAGENE-1は多様なメタゲノムデータセットに基づいて訓練されており、この安定した学習は、疫病監視や病原体検出のための効果的な基盤モデル構築を支えています。

画像は、論文でMETAGENE-1と他のモデルの比較を示しています。この表は、様々なゲノム評価ベンチマークにおけるモデルの性能を示しており、特にパンデミックモニタリングのために設計されたMETAGENE-1モデルが強調されています。この表の「Global Win %」は、各タスクにおいて最も高いスコアを達成したモデルの割合を示しており、METAGENE-1が46.4%という高い数値を示しています。これにより、METAGENE-1が多くのタスクで優れたパフォーマンスを示していることが分かります。評価にはMCCなど異なる指標が使用されており、COVIDタスクのみF1スコアを用いて評価されています。