医療VQAの推論連鎖エラーを断ち切るRL手法「MRPO」を解説。初期推論エラー率を64.0%から13.0%に削減し、8B規模のQwen3-VL-8BがHuatuoGPT-Vision-34Bを2.79ポイント上回る精度を実現しました。
西オーストラリアのエネルギー企業Woodsideが、LNGプラントの起動支援・予測保守に50個のAIエージェントを本番運用し、5年間で保守時間を最大15%削減できる見込みを発表しました。
分布マッチング(MMD損失+14エンコーダ)で1ステップ画像生成のSOTAを更新したiRDMを解説します。FLUX.2を90 H200 GPU時間で1ステップ化し、GenEvalで4ステップ版を超える0.826を達成しました。
AWS Summit Japan 2026でOpenAIとAnthropicを相次いで登壇させたAWSの戦略的意図を解説。Amazon Bedrock AgentCoreが示すマルチモデル対応インフラの全体像と、企業のAI調達設計への影響を整理します。
ByteDance Seedが提案するFlashMorphは、既存のフルAttention Transformerをゼロから再学習せずMamba/線形Attentionとのハイブリッドへ変換します。層選択をHALOの7.3分の1のGPU時間で完了し、256Kトークンでのプリフィルを2.81倍高速化します。
Google DeepMindとA24が業界初の研究提携を発表。映画制作者がAIツール開発に直接フィードバックを提供する双方向モデルが特徴で、GoogleによるA24への投資も明らかになりました。
自然言語の処理仕様を4BコンパイラがLoRAアダプタに変換し、凍結した0.6Bモデル上で実行するProgram-as-Weightsを解説。Qwen3-32B相当の精度を推論メモリ約50分の1・MacBook M3で毎秒31トークンで実現します。
GodotエンジンのFoundationが2026年6月末、AI生成コードのプルリクエスト投稿を原則禁止しました。PR急増でレビュアーが疲弊し、「機械と話したくない」というボランティアの声がポリシー改訂の決め手となりました。
FLUXを追加学習なしで最大25倍高速化するMrFlowを解説します。4段階のマルチ解像度パイプラインで画質劣化を1%以内に抑えながら、既存モデルへの大幅な推論コスト削減を実現する手法です。
OpenAIのサム・アルトマンCEOが自社株式の5%を米国政府系ウェルスファンドへ提供する案を自発的に提示。AI利益の国民還元モデルの先例となるかが注目されています。
NVIDIAが提案したロボット向け継続学習フレームワーク「ASPIRE」を解説します。LLMによるコード生成・自律デバッグ・スキルライブラリ構築の3要素で、LIBERO-Proマニピュレーションで既存手法比77%向上を実現しました。
川崎重工・ファナック・安川電機の3社が経産省GENIACに採択。製造現場の繊細な手先作業を自動化するVTLAモデルのデータセットを大阪大学・FingerVisionと共同構築します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
Qwen-AgentWorldとは?LLMを環境シミュレーターに変換するエージェント向け言語世界モデル
AIのイエスマン化が人間に悪影響、スタンフォード・CMU研究が実証
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
PP-OCRv6: わずか34Mパラメータで235B超の大規模VLMを超えた軽量OCRシステム