自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。
Ford・GM・Stellantisが2020年代の雇用ピーク比19%にあたる2万人超を2024〜2025年に削減。GMはIT部門10%超を整理しAI人材採用に切り替え。自動車業界でのAI主導の人材構造転換を詳しく解説します。
VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。
2025年1月、中国では1日平均470本のAI生成短編ドラマがリリースされ、FlexTVなど主要プラットフォームが実写制作を停止してAIへ全面移行した実態が浮き彫りになった。製作コストは最大90%削減され、産業構造の変容が加速している。
カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。
世界最大の学術プレプリントサーバーarXivが、LLMへの論文丸投げを確認した著者を最長1年間投稿禁止にする新ポリシーを発表。AI使用の可否よりも「責任ある使用」が問われる段階に入りました。
NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。
OpenAI共同創業者のGreg Brockmanが製品戦略責任者に正式就任しました。ChatGPTとプログラミング製品Codexを単一プラットフォームへ統合する計画も社内メモで明らかになっています。
動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。
OpenAIがマルタ政府と提携し、全市民約53万人へのChatGPT Plus提供とAIスキル教育を国家事業として展開すると発表。政府がAIサブスクを公共サービスとして配布する世界初のモデルを解説します。
LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。
DatabricksがGPT-5.5をエンタープライズAIエージェントに採用し、業務文書QAベンチマークOfficeQA Proで最高性能を達成したとOpenAIが発表しました。データ基盤とLLMの垂直統合戦略を詳しく解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
Qwen-AgentWorldとは?LLMを環境シミュレーターに変換するエージェント向け言語世界モデル
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化