DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
SoftBankがフランスのデータセンター建設に最大750億ユーロの投資計画を発表しました。欧州最大規模のAIインフラ整備の詳細と、その背景にある国際的なAI基盤競争を解説します。
テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。
Google I/O 2026で発表されたGemini Sparkは、PCがオフでもクラウド上で稼働し続ける常時接続型AIアシスタントです。Gmail・Calendar・Docsと連携してメール要約や買い物支援をこなす実用性を、実際のテスト結果から検証します。
拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling(CNS)を解説。追加学習不要でFIDを最大30%改善します。
torch.profilerを使ってGPUのボトルネックを特定する方法を解説します。CPU/GPU処理時間の比較、Chromeトレースによる可視化、torch.compileの効果と初回ウォームアップコストまで実測値を交えて説明します。
テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
Google I/O 2026で発表されたGemini Omniは、テキスト指示だけで動画を段階的に編集できるオムニモーダルモデルです。公式デモ9本を通じて映像編集とエージェント機能の全容を解説します。
動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。
ボストン小児病院がOpenAI技術を活用し、希少疾患40件以上の新規診断に成功しました。従来手法では困難だった症例にAIが答えを出し、医療現場での実用化が具体的成果を上げています。
50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。
三菱UFJフィナンシャル・グループがChatGPT Enterpriseを全社展開し「AIネイティブバンク」への転換を宣言。法務・コンプライアンス・開発など多領域での活用と組織文化の変革まで含む包括的なAI戦略を解説します。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング