標準的な次トークン予測(NTP)に浅い層の表現を自己教師信号とした連続監督を追加するNITPが提案されました。0.5B〜9BパラメータのLLMでMMLP-Proに5.7%・C3に6.4%の精度向上を実現しながら推論コストはゼロです。
VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing(RF)。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。
MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。
知識グラフのランダムウォークと検索軌跡を訓練データとするRL手法「LongTraceRL」が提案されました。ルーブリック報酬で推論の質を直接最適化し、4B〜30Bモデルで5つの長文脈ベンチマークを上回る性能を達成しています。
BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。
DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。
拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling(CNS)を解説。追加学習不要でFIDを最大30%改善します。
テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。
50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。
AgentDoG 1.5は、コード実行エージェントの安全性を評価する軽量フレームワークです。影響関数ベースのデータ浄化で、0.8B〜8Bの小型モデルがGPT-5.4と同等の安全判定精度を達成しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング