AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

論文解説の記事一覧 (3ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説マルチモーダル

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

InternLMが発表したIntern-S1-Proは、MoEアーキテクチャで1兆パラメータを実現したオープンソース初の科学マルチモーダル基盤モデルです。化学・材料科学・生命科学など100以上の専門タスクでプロプライエタリモデルを上回る性能を達成しました。

2026年3月29日

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

論文解説言語・LLM

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

スパース注意機構で文脈長を1億トークンまで線形拡張するMSAを解説。同一バックボーンのRAGを4ベンチマーク平均16%上回り、2枚のGPUで実用推論を実現した新手法です。

2026年3月28日

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

論文解説動画

PackForcingとは？5秒学習で2分動画を生成する24倍時間外挿フレームワーク

自己回帰型動画拡散モデルのKVキャッシュ爆発問題を解決するPackForcing。5秒クリップの学習から120秒（2分）の動画をH200単一GPU上で生成し、VBench Dynamic Degree 56.25を達成しています。

2026年3月27日

PackForcingとは？5秒学習で2分動画を生成する24倍時間外挿フレームワーク

論文解説マルチモーダル

HopChainとは？マルチホップデータ合成でVLMの汎化推論能力を高めるQwen新手法

Qwen研究チーム提案の「HopChain」は、複数の推論ステップが論理的に連鎖するマルチホップデータを自動合成してVLMを訓練する4段階パイプライン。24ベンチマーク中20個で性能改善を実現し、超長CoT領域では50ポイント超の向上を達成します。

2026年3月24日

HopChainとは？マルチホップデータ合成でVLMの汎化推論能力を高めるQwen新手法

論文解説マルチモーダル

VEGA-3Dとは？動画生成モデルの暗黙的3D知識をMLLMのシーン理解に活かす新手法

動画生成モデルが時間的整合性のある映像を生成するために習得した暗黙的な3D構造知識を、明示的な3D監督なしでMLLMへ注入するVEGA-3Dを解説します。複数のシーン理解ベンチマークで既存手法を上回る性能を達成しました。

2026年3月22日

VEGA-3Dとは？動画生成モデルの暗黙的3D知識をMLLMのシーン理解に活かす新手法

論文解説言語・LLM

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

成功したタスク解決を実行可能なPythonコードとして蓄積・再利用するLLMエージェントフレームワーク「AgentFactory」の仕組みと実験結果を解説します。

2026年3月20日

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

論文解説データセット

OpenSWEとは？45,320のDocker環境を自動合成しSWE-bench Verified 66%を達成する訓練基盤

45,320個のDocker環境を自動合成し、SWE-bench Verifiedで66.0%を達成したオープンソースSWEエージェント訓練基盤「daVinci-Env」を紹介します。品質フィルタリングで抽出した9,000個の環境と完全公開されたインフラで、AI駆動型ソフトウェア開発の民主化を実現します。

2026年3月16日

OpenSWEとは？45,320のDocker環境を自動合成しSWE-bench Verified 66%を達成する訓練基盤

論文解説言語・LLM

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

事前学習済みモデルの重みの近傍には、タスク固有の専門家解が高密度に存在するという「Neural Thicket」現象を報告したMIT発の研究。ランダムサンプリングとアンサンブルのみでPPO・GRPOと同等性能を実現します。

2026年3月15日

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

論文解説マルチモーダル

DVDとは？ビデオ拡散モデルの生成的事前知識を深度推定に転用する世界初フレームワーク

事前学習済みビデオ拡散モデルを決定論的な深度回帰器に変換する世界初フレームワーク「DVD」を解説します。識別モデル比163倍少ないデータでNYUv2・KITTIなど複数ベンチマークのゼロショットSOTAを達成した3つの核心設計を紹介します。

2026年3月14日

DVDとは？ビデオ拡散モデルの生成的事前知識を深度推定に転用する世界初フレームワーク

論文解説強化学習

OpenClaw-RLとは？次状態信号から報酬を自動抽出し任意のRLエージェントを訓練する統合フレームワーク

Mengdi Wang氏らが提案するOpenClaw-RLは、ユーザー返答やツール出力などの次状態信号からPRMでスカラー報酬、OPDでトークン教師信号を自動抽出し、個人エージェント実験でパーソナライゼーションスコア0.81を達成したRLエージェント訓練フレームワークです。

2026年3月13日

OpenClaw-RLとは？次状態信号から報酬を自動抽出し任意のRLエージェントを訓練する統合フレームワーク

論文解説マルチモーダル

Penguin-VLとは？CLIPを捨てLLM初期化ビジョンエンコーダでVLMの効率限界に挑む

Tencent AILabが提案するPenguin-VLは、CLIPなどの対比学習エンコーダを廃しLLM初期化のビジョンエンコーダを採用。DocVQAやChartQAなど文書・OCR系ベンチマークでQwen3-VLを上回る性能を2B規模で実現します。

2026年3月10日

Penguin-VLとは？CLIPを捨てLLM初期化ビジョンエンコーダでVLMの効率限界に挑む

論文解説言語・LLM

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

FlashPrefillは動的スパースアテンションでLLMのプリフィリングを高速化するフレームワークです。256Kトークンで27.78倍、4Kでも1.71倍の高速化を実現し、既存手法の弱点だった短文脈での性能劣化も解消しています。

2026年3月9日

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

前へ
1
2
3
4
…
13
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
2026年4月4日
HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
2026年4月17日
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
2026年2月23日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
2026年2月19日