AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

ホーム
論文解説

論文解説

論文解説言語・LLM

NITPとは？暗黙トークン予測でLLM事前学習を強化し推論コストゼロで精度向上

標準的な次トークン予測（NTP）に浅い層の表現を自己教師信号とした連続監督を追加するNITPが提案されました。0.5B〜9BパラメータのLLMでMMLP-Proに5.7%・C3に6.4%の精度向上を実現しながら推論コストはゼロです。

2026年6月2日

論文解説マルチモーダル

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing（RF）。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。

2026年6月1日

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

論文解説マルチモーダル

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。

2026年6月1日

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

論文解説言語・LLM

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

知識グラフのランダムウォークと検索軌跡を訓練データとするRL手法「LongTraceRL」が提案されました。ルーブリック報酬で推論の質を直接最適化し、4B〜30Bモデルで5つの長文脈ベンチマークを上回る性能を達成しています。

2026年6月1日

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

論文解説マルチモーダル

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。

2026年5月31日

論文解説動画

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。

2026年5月31日

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

論文解説言語・LLM

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。

2026年5月31日

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

論文解説画像

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling（CNS）を解説。追加学習不要でFIDを最大30%改善します。

2026年5月30日

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

論文解説画像

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。

2026年5月30日

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

論文解説マルチモーダル

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。

2026年5月30日

論文解説画像

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。

2026年5月29日

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

論文解説言語・LLM

AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

AgentDoG 1.5は、コード実行エージェントの安全性を評価する軽量フレームワークです。影響関数ベースのデータ浄化で、0.8B〜8Bの小型モデルがGPT-5.4と同等の安全判定精度を達成しました。

2026年5月29日

論文解説

NITPとは？暗黙トークン予測でLLM事前学習を強化し推論コストゼロで精度向上

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

人気記事