- 新しい手法「Graph Generative Pre-trained Transformer(GPT)」を提案し、科学と工学の問題解決を目指す
- トランスフォーマーでグラフをシーケンス形式に変換し、自己教師付き学習で事前学習を行うプロセス
- 実験結果で既存手法と同等以上の性能を示し、強化学習で目標指標を最適化する手法
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。
本論文の概要
本論文では、グラフ生成タスクに特化した新たな手法「Graph Generative Pre-trained Transformer(GPT)」が提案されています。この手法は、分子構造の生成や物性予測など、科学と工学におけるさまざまな問題を解決するために、グラフ表現の優れたモデリング能力を持つことを目指しています。
提案されたGPTモデルのコアは、トランスフォーマーを用いてグラフをシーケンス形式に変換し、生成や予測を行う点にあります。この変換プロセスでは、ノードとエッジを特定の順序に基づきシーケンシャルに表現します。その順序の選択は生成性能に重要な影響を及ぼすため、論文では深さ優先探索やランダムな順序付けといった手法を比較検討しています。また、GPTモデルは、自己教師付き学習で事前学習を行い、その後、具体的なタスクに合わせて微調整されます。
実験では、一般的なグラフ生成タスクと分子生成タスクの両方で評価を行いました。分子データセット(MOSESやGuacaMol)を用いた実験結果によると、GPTは分子の有効性・独自性・多様性といった指標で既存手法と同等以上の性能を達成しました。また、物性予測では、最先端の方法と比較して高い精度を示しました。
さらに、微調整の段階では、強化学習ベースのProximal Policy Optimization(PPO)アルゴリズムを活用することで、目標指標(例:分子の化学的特性)を最適化しました。このアプローチは、分子デザインやバイオ医薬品開発といった実践的応用において優れた成果を示しています。
図表の解説
この図は、グラフをシーケンスとして表現する方法を示しています。まず、左側の「Graph representation」では、グラフのノードにインデックスを付け、そのエッジの順序をサンプリングしています。このサンプリングされた順序は右側に示され、シーケンスとしてエンコードされます。 中央の「Training Transformer on Sequence representation」では、このシーケンスがどのようにトランスフォーマーモデルに入力されるかが示されています。ノードやエッジには異なるトークンが割り当てられ、これらを統一的な語彙空間にマッピングして、モデルが次のトークンを予測する形で学習します。この方法は、グラフ生成の処理を効率的に行うためのものです。
この画像は、論文内の表1で、グラフ生成モデルの概要を示しています。主に3つのモデル、「ディフュージョン」モデルと2つの「自己回帰」モデルに焦点を当てています。 はじめに、ディフュージョンモデルは、隣接行列のタイムステップごとの生成を行い、各タイムステップが他と独立していると仮定します。 次に、自己回帰モデルは、隣接行列とエッジ表現を用いてグラフを生成します。隣接行列を用いる場合、すべてのノードとエッジの関係を完全に分解して考慮しますが、エッジ表現を使用する場合は、実際に存在するエッジのみに焦点を当てて効率よく処理します。 最後に、この表は、新しい自己回帰モデルG2PTがエッジ表現に基づいて学習することを示しています。このアプローチは、効率的な次のトークン予測を通じてグラフ構造をモデル化しています。
この画像は、さまざまなモデルがグラフデータセットに対する生成性能を比較した結果を示しています。具体的には、Planar、Tree、Lobster、SBMといったデータセットにおける異なるモデルの性能指標が記載されています。指標には、ノードの次数(Deg.)、クラスタリング係数(Clus.)、オービット数(Orbit)、スペクトル特性(Spec.)、ウェーブレット変換(Wavelet)、そして有効・独自性・新規性率(V.U.N.)が含まれています。 この表からは、提案されたG2PTモデルが、多くの既存のモデルと比較して優れた性能を示していることが読み取れます。特に、G2PT_baseは多くの指標で最高またはそれに次ぐスコアを獲得しており、アドバンテージを持っていることがわかります。このことは、グラフ生成におけるG2PTモデルの有効性と汎用性を示しています。
この画像は、提案されたエッジシーケンス表現と隣接行列表現の生成性能を比較したものです。表の「Rep.」列は表現方法を示し、「A」は従来の隣接行列表現、「Ours」は提案モデルを指しています。「#Tokens」はトークン数を示し、提案モデルは737と少ない数で効率的にグラフを表現しています。各評価指標(Deg., Clus., Orbit, etc.)では、矢印が下向き(↓)のものは値が小さいほど良いことを示しており、提案モデルがすべての指標で優れた性能を示していることが分かります。また、V.U.N.は生成したグラフの有効性、独自性、新規性を評価するもので、提案モデルが高いスコアを得ています(95)。この表により、提案されたエッジシーケンス表現が、より少ないトークン数で隣接行列表現よりも性能が良いことが示されています。
この表は、分子グラフデータセットにおける生成モデルの性能を比較したものです。二つのデータセット、MOSESとGuacaMolでの評価指標が示されています。評価指標には、生成された分子の有効性(Validity)、ユニーク性(Unique.)、新規性(Novelty)、類似性(FCD)、および骨格の多様性(Scaffold)が含まれます。 特に、新しいモデルG2PTの3つのバージョン(small、base、large)が他の既存モデル(DiGressやDisCoなど)と比較されており、G2PTモデルは多くの指標で他のモデルよりも高性能を示しています。生成された分子の図が視覚的な成果として示されており、G2PTがトレーニングしたデータセットと比較して優れた分子構造を生成できることが示されています。
この表は、様々な手法による分子プロパティ予測の性能を示したものです。具体的には、異なるデータセットに対するROC-AUC(受信者動作特性管理の下領域)による結果が報告されています。 表では、各手法のパフォーマンスが異なるデータセット(BBBP、Tox21、ToxCastなど)に対して比較されています。各セルには平均値と標準偏差が示され、3回の試行の平均結果が提示されています。最も右の「Avg.」列は、全データセットにおける平均パフォーマンスを示しています。 この表から、G2PTが他の手法と比較して優れた結果を示していることが読み取れます。特に、「G2PT_base」は「GraphMAE」と並んで最高の平均パフォーマンスを達成しています。 全体的に見て、G2PTは分子プロパティ予測タスクにおいて効果的であることが示されています。
この画像は、論文で提案されたグラフ生成モデルを用いた試みを示しています。具体的には、ゴール指向の分子生成の評価結果です。上段(a)はリジェクションサンプリングによるファインチューニングの結果を、下段(b)は強化学習(PPO)を用いた結果を示しています。 左のグラフはQEDスコア(薬剤の類似性)、中央はSAスコア(合成しやすさ)、右はGSK3βスコア(ターゲットプロテインに対する活性)に関する分布を表しています。リジェクションサンプリングではサンプリング効率を向上させるために段階的なファインチューニングが行われ、特定の特性を持つ分子の生成を可能にしています。一方で、PPOを用いると安定性を保ちながらも、期待する特性への分布の偏りを効果的に調整できることが分かります。
この図は、グラフ生成におけるモデルとデータのスケーリング効果を示しています。左のグラフでは、異なるモデルサイズに対する有効性の変化を示し、1Mから1.5Bまでのモデルサイズ増加に伴い、MOSESとGuacaMolでは有効性が上昇し、その後安定しています。一方、QM9の有効性は常に高いです。右のグラフは、各グラフに対するシーケンス数の変更が有効性に与える影響を示しています。増加するシーケンス数は有効性を高め、特に10または100のシーケンスが有効です。これらの結果は、生成モデルの精度向上にはモデルとデータの適切なスケーリングが重要であることを示しています。