自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。
Tencent Hunyuanが開発したHY-World 2.0は、テキスト・画像・動画から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデルです。5つの専門モジュールが連携し、オープンソースながらクローズドソースのMarbleと同等の性能を実現しました。
LLMの強化学習訓練でポリシーが同じ誤りを繰り返す「サンプリング多様性崩壊」を解消するMEDSを紹介します。過去ロールアウトの中間表現を密度ベースクラスタリングで分析し動的ペナルティを付与することで、pass@1を最大4.13ポイント向上させた新手法です。
Allen Institute for AI が発表した WildDet3D は、単一RGB画像からオープンワールドの3D物体検出を行うフレームワークです。テキスト・点・ボックスの3種プロンプトに対応し、複数ベンチマークで最高精度を達成しました。
Matrix-Game 3.0は、Unreal Engineとゲームデータを活用した大規模学習と3段階の推論最適化により、720p・最大40FPSのリアルタイムインタラクティブ動画生成を実現した世界モデルです。ゲームや自動運転分野への実用化が注目されます。
「SFTは暗記、RLは一般化」という通説を再考。長いCoTによる推論SFTでも最適化・データ品質・モデル能力の3条件が揃えばドメイン横断的な一般化が可能であることを解説します。
Tencent Hunyuanが発表したロボット専用VLM「HY-Embodied-0.5」を解説します。MoTアーキテクチャの仕組みから22ベンチマーク中16項目での最優秀達成、実ロボット操作の検証結果まで詳しく紹介します。
Stanford・UW・Microsoftの研究チームが提案したRAGEN-2は、エントロピーでは検出できない「テンプレート崩壊」という新失敗モードを相互情報量で診断し、SNR-Awareフィルタリングで修正します。
Netflixが開発したVOIDは、動画から物体を削除する際に衝突・接触などの物理的インタラクションの因果連鎖ごと除去する手法です。
CORALは固定ヒューリスティクスに依存せず、LLMエージェントが共有メモリと非同期実行で自律的に協調進化する新フレームワークです。ニューラルアーキテクチャ探索、データキュレーション、強化学習の3領域で従来手法比3〜10倍の改善率を達成し、GitHubでコードが公開されています。
単視点3D生成で問題だった裏面の「確率的生成」を解決するKnow3Dを解説。Qwen2.5-VLのMMDiT中間層hidden statesを3D生成モデルへ注入し、HY3D-BenchでSOTA超えを達成した手法を紹介します。
Mistral AIが開発したオープンな多言語TTSモデル「Voxtral TTS」を解説。3秒の参照音声から話者の声質を再現し、ElevenLabs Flash v2.5に68.4%の勝率を達成した仕組みを紹介します。
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
OpenAI、Axiosのサプライチェーン攻撃に対応しmacOS証明書を更新