NVIDIAが世界生成・物理推論・行動生成を単一モデルに統合した初のオープン統合AIモデル「Cosmos 3」を公開しました。
知識グラフのランダムウォークと検索軌跡を訓練データとするRL手法「LongTraceRL」が提案されました。ルーブリック報酬で推論の質を直接最適化し、4B〜30Bモデルで5つの長文脈ベンチマークを上回る性能を達成しています。
Hugging Faceが公開したAIエージェント用語集では、「ハーネス」「スキャフォールド」など開発者間で混乱しやすい13の基本概念を定義。Claude CodeやOpenAI Codexとの用語の違いも明示し、共通言語の確立を促す実用的な内容となっている。
BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。
GitHub Copilotが6月1日より定額制からトークン消費量ベースの従量課金制に移行しました。一部ユーザーで月額29ドルが750ドルに急騰するケースが報告され、開発者コミュニティで強い批判が相次いでいます。
DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
SoftBankがフランスのデータセンター建設に最大750億ユーロの投資計画を発表しました。欧州最大規模のAIインフラ整備の詳細と、その背景にある国際的なAI基盤競争を解説します。
テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。
Google I/O 2026で発表されたGemini Sparkは、PCがオフでもクラウド上で稼働し続ける常時接続型AIアシスタントです。Gmail・Calendar・Docsと連携してメール要約や買い物支援をこなす実用性を、実際のテスト結果から検証します。
拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling(CNS)を解説。追加学習不要でFIDを最大30%改善します。
torch.profilerを使ってGPUのボトルネックを特定する方法を解説します。CPU/GPU処理時間の比較、Chromeトレースによる可視化、torch.compileの効果と初回ウォームアップコストまで実測値を交えて説明します。
テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング