パイプライン並列化の「weight binding問題」を解消する新手法RoundPipeを解説します。GPUをステートレスなワーカープールとして扱うラウンドロビン方式で8×RTX 4090でのLLMファインチューニングを最大2.16倍高速化し、単一コンシューマーサーバーでQwen3-235BのLoRAチューニングを実現します。
UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。
9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。
MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。
推論ステップに64種の抽象トークンを使う「Abstract CoT」を解説。Qwen3-8BでMATH-500精度90.8%を保ちながら推論コストを最大11.6倍削減する後学習手法です。
CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。
離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。
ByteDance Seedが発表したAgent-Worldは、MCPを活用して1,978の実世界環境を自律合成し、自己進化型の強化学習ループで23ベンチマークでGPT-4oなど商用モデルを上回る性能を実現しました。
CVPR 2026採択。4種類のメモリ構造とBig Five性格モデルで時間的に進化するユーザープロファイルを構築し、Persona-MMEベンチマークで既存手法比22.4%向上・GPT-4oを5.2%上回るパーソナライズドマルチモーダルLLM「PersonaVLM」を解説します。
Flow MatchingモデルFluxの後訓練アライメントを、長い生成軌跡の2ステップへの圧縮で効率化した手法LeapAlignを解説。HPSv2.1スコアで既存手法を6ポイント超上回り、CVPR 2026に採択されました。
自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。
Tencent Hunyuanが開発したHY-World 2.0は、テキスト・画像・動画から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデルです。5つの専門モジュールが連携し、オープンソースながらクローズドソースのMarbleと同等の性能を実現しました。
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方