成功したタスク解決を実行可能なPythonコードとして蓄積・再利用するLLMエージェントフレームワーク「AgentFactory」の仕組みと実験結果を解説します。
45,320個のDocker環境を自動合成し、SWE-bench Verifiedで66.0%を達成したオープンソースSWEエージェント訓練基盤「daVinci-Env」を紹介します。品質フィルタリングで抽出した9,000個の環境と完全公開されたインフラで、AI駆動型ソフトウェア開発の民主化を実現します。
事前学習済みモデルの重みの近傍には、タスク固有の専門家解が高密度に存在するという「Neural Thicket」現象を報告したMIT発の研究。ランダムサンプリングとアンサンブルのみでPPO・GRPOと同等性能を実現します。
事前学習済みビデオ拡散モデルを決定論的な深度回帰器に変換する世界初フレームワーク「DVD」を解説します。識別モデル比163倍少ないデータでNYUv2・KITTIなど複数ベンチマークのゼロショットSOTAを達成した3つの核心設計を紹介します。
Mengdi Wang氏らが提案するOpenClaw-RLは、ユーザー返答やツール出力などの次状態信号からPRMでスカラー報酬、OPDでトークン教師信号を自動抽出し、個人エージェント実験でパーソナライゼーションスコア0.81を達成したRLエージェント訓練フレームワークです。
Tencent AILabが提案するPenguin-VLは、CLIPなどの対比学習エンコーダを廃しLLM初期化のビジョンエンコーダを採用。DocVQAやChartQAなど文書・OCR系ベンチマークでQwen3-VLを上回る性能を2B規模で実現します。
FlashPrefillは動的スパースアテンションでLLMのプリフィリングを高速化するフレームワークです。256Kトークンで27.78倍、4Kでも1.71倍の高速化を実現し、既存手法の弱点だった短文脈での性能劣化も解消しています。
NVIDIA Blackwell GPUの非対称ハードウェアスケーリングに対応したFlashAttention-4が登場。完全非同期MMA・softmax最適化・CuTe-DSL Python実装により、cuDNN比1.3倍・Triton比2.7倍の高速化を実現した仕組みを解説します。
KV-cacheや量子化を一切使わずに単一H100 GPUで19.5 FPSを実現した14B自己回帰拡散モデル「Helios」。長時間動画のdrifting問題もトレーニング戦略で根本解決し、T2V・I2V・V2Vをネイティブサポートします。
推論候補解を粒子として扱い、PRM(プロセス報酬モデル)のスコアで逐次洗練するアルゴリズム「PRISM」を解説します。gpt-oss-20bでAIME25 90.0%・GPQA Diamond 71.4%を達成し、6倍大きなモデルと同等の性能を計算効率よく実現。
テキスト・画像・動画の3種類のマルチモーダル指示からLottie形式のベクターアニメーションを自動生成するフレームワーク「OmniLottie」を解説します。専用トークナイザーと200万件データセットMMLottie-2Mによる仕組みを詳しく紹介します。
ByteDance Seedが開発したCUDA Agentは、アジェンティック強化学習でGPUカーネルを自動生成・最適化します。KernelBenchで幾何平均2.11倍のスピードアップを達成し、Claude Opus 4.5やGemini 3 Proなどフロンティアモデルを大きく凌駕する性能を実証しました。
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル
開発者向け検索AI「Phind 2」登場、視覚的検索強化!