動画AIモデルが映像から音を推測する「音のClever Hans効果」を診断するThudフレームワークを解説。Shift・Mute・Swapの3種の介入で欠陥を体系的に暴き、わずか1万サンプルで28ポイントの性能向上を達成した最新研究です。
SNSで見る画像がAI生成かどうか、誰でも即座に確認できるようになります。OpenAIがContent CredentialsとSynthIDを導入し、偽情報対策を強化しました。
単一24GB GPUで10億個超の3Dガウシアンを訓練するフレームワーク「TideGS」を解説。ブロック仮想化・非同期パイプライン・差分ストリーミングの3技術でVRAMの壁を突破し、ICML 2026 Spotlightに採択されました。
Google I/O 2026でSundar PichaiがAI戦略の転換点を宣言しました。月間処理トークン数が3200兆(前年比7倍)に達し、24時間稼働の個人エージェント「Gemini Spark」など具体的な製品群を解説します。
テキストから1億画素(100MP)の超高解像度画像をネイティブ生成するフレームワーク「PixVerve」を解説。9.5万枚のデータセットと8指標の評価ベンチを合わせて紹介します。
GoogleがGemini 3.5 Flashを発表。競合フロンティアモデル比4倍の出力速度と最高水準のエージェント性能を両立し、並列サブエージェント実行で複雑な開発タスクの処理時間を大幅に短縮します。
ByteDanceが提案するLanceは、画像・動画の理解・生成・編集を単一モデルで統合するフレームワークです。3Bの活性化パラメータで7BクラスのShow-o2やBAGELを複数ベンチマークで上回る性能を発揮します。
凍結した視覚基盤モデル(VFM)を画像トークナイザーへ転用するVFMTokを解説します。領域適応的量子化とセマンティック再構成目標により、ImageNetでgFID 1.36を達成し、収束速度3倍・推論速度最大4倍の高速化も実現します。
イーロン・マスクがOpenAI共同創業者を訴えた裁判で、陪審員9名が全員一致でマスクの請求を棄却しました。決め手は「時効」という法的理由です。OpenAIの営利転換計画への影響と今後の展望を解説します。
NVIDIAが発表したLongLive-2.0は、NVFP4(4bit浮動小数点)精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。
AnthropicがSDK自動生成ツール「Stainless」を買収しました。OpenAI・Google・Cloudflareも利用する開発者インフラを取り込んだ戦略的意図を解説します。
正しい答えを返しながら根拠箇所を誤引用する「帰属ハルシネーション」を体系的に定量化するベンチマーク「CiteVQA」が公開されました。711本のPDF・1,897問・7ドメインで構成し、最強モデルでもSAA 76.0%という大きなギャップを明らかにします。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方