ロボットVLAモデルの専門家データ不足を解決する2段階事前学習「TAP」を解説。失敗軌跡も含む未ラベルデータで動作スキルを先習得し、行動模倣学習比+10%の向上とカメラ擾乱下25%の成功率を達成しました。
マイクロンテクノロジーが広島工場に総額1.5兆円を投資し、2026年7月4日に起工式を実施しました。AI需要の急増に対応するHBMなどのメモリを2028年中盤から量産する計画です。
LLMが3D軌跡とカメラ動作を計画し、画面外に消えたオブジェクトを正確に再現する「永続的動的オブジェクトメモリ」を備えたビデオ世界モデル「WorldDirector」を解説します。PSNRで18.1を達成し、既存手法を大幅に上回りました。
AlibabaがClaude Codeを「高リスクソフトウェア」に指定し全従業員の使用を禁止しました。中国ユーザーを識別する実験的機能の発覚が引き金となった経緯と、Anthropicの説明を解説します。
強化学習で視覚生成モデルを改善する際に生じるモードコラプスを、生成分布全体を評価するDistribution-wise Rewardで解決する手法をICML 2026論文が提案。SiTモデルでFID-50Kを8.30から5.77に改善しました。
トランプ大統領が7月2日のCNBCインタビューで「AIへの政府介入は最小限に」と表明。中国との開発競争で「大幅リード」を強調しつつ、規制緩和路線を改めて確認しました。
医療VQAの推論連鎖エラーを断ち切るRL手法「MRPO」を解説。初期推論エラー率を64.0%から13.0%に削減し、8B規模のQwen3-VL-8BがHuatuoGPT-Vision-34Bを2.79ポイント上回る精度を実現しました。
西オーストラリアのエネルギー企業Woodsideが、LNGプラントの起動支援・予測保守に50個のAIエージェントを本番運用し、5年間で保守時間を最大15%削減できる見込みを発表しました。
分布マッチング(MMD損失+14エンコーダ)で1ステップ画像生成のSOTAを更新したiRDMを解説します。FLUX.2を90 H200 GPU時間で1ステップ化し、GenEvalで4ステップ版を超える0.826を達成しました。
AWS Summit Japan 2026でOpenAIとAnthropicを相次いで登壇させたAWSの戦略的意図を解説。Amazon Bedrock AgentCoreが示すマルチモデル対応インフラの全体像と、企業のAI調達設計への影響を整理します。
ByteDance Seedが提案するFlashMorphは、既存のフルAttention Transformerをゼロから再学習せずMamba/線形Attentionとのハイブリッドへ変換します。層選択をHALOの7.3分の1のGPU時間で完了し、256Kトークンでのプリフィルを2.81倍高速化します。
Google DeepMindとA24が業界初の研究提携を発表。映画制作者がAIツール開発に直接フィードバックを提供する双方向モデルが特徴で、GoogleによるA24への投資も明らかになりました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
Qwen-AgentWorldとは?LLMを環境シミュレーターに変換するエージェント向け言語世界モデル
AIのイエスマン化が人間に悪影響、スタンフォード・CMU研究が実証
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
PP-OCRv6: わずか34Mパラメータで235B超の大規模VLMを超えた軽量OCRシステム