「エージェントが適切に諦められるか」を3環境・28,000件超タスクで検証。大規模化でも棄権タイミングは改善されにくい実態と、ファインチューニング不要でAbsRec@1を2倍超に高めるCONVOLVEを紹介します。
CognitionがAIコーディングエージェントDevinの新機能「Devin Fusion」を発表。複数モデルを動的に切り替えるマルチモデルハーネスで、フロンティアモデル比最大41%のコスト削減を実現します。
35Bパラメータのモデルが平均45Kトークンの長期軌跡を学習する「エージェント水平スケーリング」により、Kimi-K2.6など1兆パラメータ超のモデルを複数ベンチマークで超えたAgents-A1を解説します。
サムスンとSKハイニクスが計570億ドル超の設備投資を発表。AI需要が急増するなか、HBM(広帯域メモリ)の需給逼迫「RAMageddon」の実態と投資の詳細を解説します。
NVIDIAらが提案するPhysisForcing は、ロボット操作ビデオ生成モデルに2段階の物理的整合性損失を導入し、R-Benchを最大22.3%改善。クローズドループ成功率も16.0%→24.0%に向上させた学習フレームワークです。
OpenAIが2026年6月にEU全域の労働市場を分析したレポートを公開。データ入力や一般事務の自動化リスクから、AIガバナンスや医療技術の成長機会まで職種別に可視化しています。
ピクセル空間の自己回帰(AR)画像生成が抱える2つの根本課題を並列ロールアウト近似(PRA)で解決。ImageNet 256×256でFID 1.94という新たな最高性能を511Mパラメータの実用的なモデルで達成した北京大学の研究を解説します。
ファナックがAWS EC2 P5 GPUインスタンスを活用し、ロボット模倣学習の所要時間を60時間から4.8時間へ約92%短縮。VLAモデルと仮想空間学習を組み合わせた製造現場でのフィジカルAI活用事例を解説します。
安全ポリシーをモデルに埋め込まず実行時に切り替える新しいガードレール手法「SingGuard」を紹介します。fast-slow分離RLで3段階推論を最適化し、56,340例・80超のリスク分類を含むベンチマークで35ベンチマークファミリーにてSOTAを達成しました。
「AIに設計要件を入力すれば高品質製品が生まれる」という誤解がフォードの品質低下を招きました。350人のベテランエンジニア再雇用後、10億ドル削減とJDパワー首位を達成した事例を解説します。
RL後訓練の方策モデルと参照モデルの対数確率比が、理論的に最適な優位関数と等価であることを証明した研究を紹介します。追加アノテーションなしで専用プロセス報酬モデルを上回る精度を達成し、テスト時スケーリング・不確実性定量化・失敗原因特定に即座に応用可能な Progress Advantage を解説します。
ソフトバンク孫CEOが軌道上データセンター構想を「コスト効果が乏しく時間がかかりすぎる」と批判。AI競争の勝負は今後数年であり、10年先の宇宙構想とは時間軸が合わないと指摘しています。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
Qwen-AgentWorldとは?LLMを環境シミュレーターに変換するエージェント向け言語世界モデル
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化