ARMは7Bパラメータの単一モデルで画像の理解・生成・編集を統合した自己回帰型マルチモーダルAIです。独自の離散視覚トークナイザーと強化学習でWISE総合スコアが0.50から0.56に向上し、コードも公開されています。
70言語超の音声をほぼリアルタイムで翻訳するGemini 3.5 Live Translateを発表。話者の声の抑揚やピッチを保ちながら、Google Translate・Meet・AI Studioで利用できます。
250名以上の業界専門家と共同設計した1,490タスクで構成されるAIエージェント評価ベンチマーク「ALE」を解説します。最良モデルでも全体合格率26.2%にとどまる結果が示す、現在のAIエージェントの実力と今後の課題を詳しく紹介します。
AIコーディングプラットフォームのLovableが年間収益5億ドルを達成しました。週100万件のプロジェクト生成が示すバイブコーディング市場の実態と、従来型SaaSへの影響を解説します。
LLMのChain-of-Thought推論をテキストから画像に変換するOptical Reasoningを解説。タイポグラフィ型・グラフィカル型の2方式で言語タスク28.57%、マルチモーダルタスク16%のトークン削減を実証します。
2026年6月8日、OpenAIはSECへの機密S-1登録届出書提出を公表し、IPO準備を正式に開始しました。直近評価額は約8520億ドルに達し、AI企業として史上最大規模の上場になる可能性があります。
Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。
OpenAIが経済研究者向けプログラム「Economic Research Exchange」を開設。AIの雇用・生産性・賃金への影響を実証分析するため、研究者にAPIデータや集計統計を提供する。
知覚と推論を分離するフレームワーク「MemDreamer」が、全文入力の2%というコンテキスト量で長時間動画理解の精度を12.5ポイント向上し、4つのベンチマークでSOTAを達成しました。
Sakana AIが再帰的自己改善(RSI)専門の研究チーム「RSI Lab」を設立しました。「大量の計算資源ではなくアイデアで進歩する」方針を掲げ、AI自身がAIを改善する研究の実用化を目指す取り組みを解説します。
連続潜在空間で音声をモデル化する20億パラメータのTTS基盤モデルdots.ttsを解説。AudioVAEと自己補正後学習で中国語WER 0.94%・英語WER 1.30%を達成し、初音遅延85msも実現。Apache 2.0で完全公開予定。
Anthropicが2026年6月、エージェント型AI「Claude Cowork」をPro・Team・Enterpriseの全有料プランで一般提供開始。RBAC・OpenTelemetry・Zoom MCPなど組織展開向け管理機能を一斉に拡充しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
Qwen-AgentWorldとは?LLMを環境シミュレーターに変換するエージェント向け言語世界モデル
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化