KVキャッシュ量子化の根本課題「Token Norm Imbalance(TNI)」を定義・解決する軽量フレームワーク「OScaR」を解説。INT2量子化でBF16比3倍高速・5.3倍省メモリを実現し、KIVI等の既存手法を精度で上回ります。
動画AIモデルが映像から音を推測する「音のClever Hans効果」を診断するThudフレームワークを解説。Shift・Mute・Swapの3種の介入で欠陥を体系的に暴き、わずか1万サンプルで28ポイントの性能向上を達成した最新研究です。
単一24GB GPUで10億個超の3Dガウシアンを訓練するフレームワーク「TideGS」を解説。ブロック仮想化・非同期パイプライン・差分ストリーミングの3技術でVRAMの壁を突破し、ICML 2026 Spotlightに採択されました。
テキストから1億画素(100MP)の超高解像度画像をネイティブ生成するフレームワーク「PixVerve」を解説。9.5万枚のデータセットと8指標の評価ベンチを合わせて紹介します。
ByteDanceが提案するLanceは、画像・動画の理解・生成・編集を単一モデルで統合するフレームワークです。3Bの活性化パラメータで7BクラスのShow-o2やBAGELを複数ベンチマークで上回る性能を発揮します。
凍結した視覚基盤モデル(VFM)を画像トークナイザーへ転用するVFMTokを解説します。領域適応的量子化とセマンティック再構成目標により、ImageNetでgFID 1.36を達成し、収束速度3倍・推論速度最大4倍の高速化も実現します。
NVIDIAが発表したLongLive-2.0は、NVFP4(4bit浮動小数点)精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。
正しい答えを返しながら根拠箇所を誤引用する「帰属ハルシネーション」を体系的に定量化するベンチマーク「CiteVQA」が公開されました。711本のPDF・1,897問・7ドメインで構成し、最強モデルでもSAA 76.0%という大きなギャップを明らかにします。
人間の一人称視点映像を物理常識QAへ変換しロボット制御に転移するVLAモデル「PhysBrain 1.0」が登場。Franka実機での操作成功率を47.1%から63.3%に引き上げ、複数ベンチマークで最高性能を達成しました。
自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。
VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。
カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング