AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (2ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説画像

PDDとは？画像・動画生成を数ステップに高速化する並列デコード蒸留

NVIDIAが提案した並列デコード蒸留「PDD」を解説します。複数区間の平均速度を1回でまとめて予測し、単純なMSE損失だけでImageNet FID2.69（NFE=1）や動画VBench84.92（NFE=4）を達成した高速生成手法です。

2026年7月29日

論文解説言語・LLM

Relay-OPDとは？教師が要所で引き継ぐ軌跡リレー型蒸留でLLM推論を効率化

オンポリシー蒸留で生徒が序盤の推論ミスを引きずる問題を、教師が要所で引き継ぐ軌跡リレー方式Relay-OPDで解決。Qwen3-1.7Bで標準OPD比+5.73%、学習軌跡長を50%以上短縮した新手法を解説します。

2026年7月29日

Relay-OPDとは？教師が要所で引き継ぐ軌跡リレー型蒸留でLLM推論を効率化

論文解説言語・LLM

StateActとは？PC操作エージェントを状態優先で動かす新手法

Salesforce Researchが発表したPC操作エージェントStateActを解説。画面ではなくプログラム状態を直接扱い、OSWorld 2.0で成功率を20.6%から26.9%へ改善しコストを約9分の1に削減した仕組みを紹介します。

2026年7月28日

論文解説マルチモーダル

OmniVAEとは？音声と動画を単一VAEで統合し同時生成を実現する新手法

音声と動画を別々に符号化してきた従来手法に対し、単一VAEで統一潜在空間を学習する「OmniVAE」を解説します。セグメント単位の対照学習と特徴蒸留でクロスモーダル同期を高め、text-to-audio-video生成の品質を一貫して向上させました。

2026年7月28日

論文解説言語・LLM

Kimi K3とは？Moonshot AIが公開した2.8兆パラメータのオープン重みLLM

Moonshot AIが総2.8兆パラメータのMoEモデル「Kimi K3」をオープン重みで公開。Kimi Delta AttentionとStable LatentMoEでK2比約2.5倍の学習効率を実現し、1M文脈と視覚対応を備えた新モデルを解説します。

2026年7月28日

Kimi K3とは？Moonshot AIが公開した2.8兆パラメータのオープン重みLLM

論文解説画像

TBSMとは？三体散乱に着想した1ステップ生成でImageNet FID1.63達成

物理の三体散乱に着想した1ステップ生成モデルTBSMが登場しました。実サンプルへの引力と生成サンプルへの斥力で学習し、敵対的批評器なしでImageNet-256のFID1.63を達成した新手法をわかりやすく解説します。

2026年7月27日

TBSMとは？三体散乱に着想した1ステップ生成でImageNet FID1.63達成

論文解説強化学習

Skill Self-Playとは？スキルを仲介役にLLMを共進化させる自己対戦RL

Qwenが提案する自己対戦RLフレームワーク「Skill-SP」を解説。スキルを仲介役にタスク生成器・解答器・スキル制御器を共進化させ、ツール利用や論理推論で最大40ポイント超の改善を実現した仕組みを紹介します。

2026年7月27日

Skill Self-Playとは？スキルを仲介役にLLMを共進化させる自己対戦RL

論文解説強化学習

Moltとは？8.6千行で本番並み性能を出すNVIDIAの強化学習基盤

NVIDIAが公開したエージェント強化学習フレームワーク「Molt」を解説します。約8.6千行のPyTorch中心コードで6万行超のverlより改変しやすく、700B MoEまでスケールしslimeと同等のスループットを実現します。

2026年7月27日

論文解説言語・LLM

LLMは会話途中で意図が変わると性能急落？主要モデルの盲点を検証

会話の途中でユーザーの意図が明かされ・修正され・方向転換すると、静的評価では高性能なLLMも性能が急落する。Microsoft Researchらが検証した対話AIの盲点をわかりやすく解説します。

2026年7月26日

論文解説マルチモーダル

VCSDとは？画像を消した対比信号でVLMの視覚推論を鍛える自己蒸留手法

外部教師や正解を使わずVLMの視覚推論を鍛える自己蒸留手法VCSDを解説します。画像を消した対照との対比信号でトークンを選別し、Qwen3-VLで2Bから8Bまで全規模の精度を一貫して向上させました。

2026年7月26日

論文解説データセット

ProVisEとは？生成ピクセルでAIの空間認知を評価する新枠組み

画像生成モデルとVLMの空間認知を、テキストではなく生成ピクセルで答えさせ同一指標で比較する新枠組みProVisEを解説。14サブタスク470問のベンチマークで、人間88%に対しGPT-5.4は61%にとどまる実態を紹介します。

2026年7月26日

論文解説動画

WorldWeaverとは？世界状態レジスタで多エージェント動画の一貫性を保つ新手法

永続トークン「世界状態レジスタ」で複数エージェント間の世界状態を共有するストリーミング世界モデル「WorldWeaver」を解説します。二エージェントMinecraft生成でWorldScore 105.1、一貫性76.6%を達成しました。

2026年7月25日

論文解説

PDDとは？画像・動画生成を数ステップに高速化する並列デコード蒸留

Relay-OPDとは？教師が要所で引き継ぐ軌跡リレー型蒸留でLLM推論を効率化

StateActとは？PC操作エージェントを状態優先で動かす新手法

OmniVAEとは？音声と動画を単一VAEで統合し同時生成を実現する新手法

Kimi K3とは？Moonshot AIが公開した2.8兆パラメータのオープン重みLLM

TBSMとは？三体散乱に着想した1ステップ生成でImageNet FID1.63達成

Skill Self-Playとは？スキルを仲介役にLLMを共進化させる自己対戦RL

Moltとは？8.6千行で本番並み性能を出すNVIDIAの強化学習基盤

LLMは会話途中で意図が変わると性能急落？主要モデルの盲点を検証

VCSDとは？画像を消した対比信号でVLMの視覚推論を鍛える自己蒸留手法

ProVisEとは？生成ピクセルでAIの空間認知を評価する新枠組み

WorldWeaverとは？世界状態レジスタで多エージェント動画の一貫性を保つ新手法

人気記事