テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
Google I/O 2026で発表されたGemini Omniは、テキスト指示だけで動画を段階的に編集できるオムニモーダルモデルです。公式デモ9本を通じて映像編集とエージェント機能の全容を解説します。
動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。
ボストン小児病院がOpenAI技術を活用し、希少疾患40件以上の新規診断に成功しました。従来手法では困難だった症例にAIが答えを出し、医療現場での実用化が具体的成果を上げています。
50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。
三菱UFJフィナンシャル・グループがChatGPT Enterpriseを全社展開し「AIネイティブバンク」への転換を宣言。法務・コンプライアンス・開発など多領域での活用と組織文化の変革まで含む包括的なAI戦略を解説します。
AgentDoG 1.5は、コード実行エージェントの安全性を評価する軽量フレームワークです。影響関数ベースのデータ浄化で、0.8B〜8Bの小型モデルがGPT-5.4と同等の安全判定精度を達成しました。
エンタープライズAI検索プラットフォームのGleanが年間収益3億ドルを突破。15か月で3倍成長を達成した背景と、Google・OpenAIとの競争を勝ち抜く「コスト削減」戦略を解説します。
Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。
OpenAIがフロンティアAIモデルのガバナンス枠組みを公式公開しました。EUのAI法やカリフォルニア州規制への整合性を明示した本文書は、AI活用企業のリスク管理とコンプライアンス判断の参照基準として注目されています。
VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。
AI論文の構造・効率的な読む順序・arXivの活用法を初心者向けに体系解説します。AbstractとIntroductionの優先読みからベンチマーク表の見方・批判的読解まで一通り紹介します。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル