記事一覧 (9ページ目)

論文解説マルチモーダル

ARMとは？離散視覚トークンと強化学習で理解・生成・編集を統合した自己回帰型マルチモーダルAI

ARMは7Bパラメータの単一モデルで画像の理解・生成・編集を統合した自己回帰型マルチモーダルAIです。独自の離散視覚トークナイザーと強化学習でWISE総合スコアが0.50から0.56に向上し、コードも公開されています。

2026年6月10日

ARMとは？離散視覚トークンと強化学習で理解・生成・編集を統合した自己回帰型マルチモーダルAI

ニュース技術

Gemini 3.5 Live Translate、70言語超をほぼリアルタイムで音声翻訳

70言語超の音声をほぼリアルタイムで翻訳するGemini 3.5 Live Translateを発表。話者の声の抑揚やピッチを保ちながら、Google Translate・Meet・AI Studioで利用できます。

2026年6月10日

Gemini 3.5 Live Translate、70言語超をほぼリアルタイムで音声翻訳

論文解説データセット

Agents' Last Exam（ALE）とは？経済的価値で測るAIエージェント汎用ベンチマーク

250名以上の業界専門家と共同設計した1,490タスクで構成されるAIエージェント評価ベンチマーク「ALE」を解説します。最良モデルでも全体合格率26.2%にとどまる結果が示す、現在のAIエージェントの実力と今後の課題を詳しく紹介します。

2026年6月9日

Agents' Last Exam（ALE）とは？経済的価値で測るAIエージェント汎用ベンチマーク

ニュースビジネス

Lovable、年間収益5億ドルを突破 — バイブコーディング市場の急成長を証明

AIコーディングプラットフォームのLovableが年間収益5億ドルを達成しました。週100万件のプロジェクト生成が示すバイブコーディング市場の実態と、従来型SaaSへの影響を解説します。

2026年6月9日

Lovable、年間収益5億ドルを突破 — バイブコーディング市場の急成長を証明

論文解説マルチモーダル

Optical Reasoningとは？推論を「画像」に変換してトークン29%削減を実現する新手法

LLMのChain-of-Thought推論をテキストから画像に変換するOptical Reasoningを解説。タイポグラフィ型・グラフィカル型の2方式で言語タスク28.57%、マルチモーダルタスク16%のトークン削減を実証します。

2026年6月9日

Optical Reasoningとは？推論を「画像」に変換してトークン29%削減を実現する新手法

ニュースビジネス

OpenAI、SECに機密S-1を提出 — AI業界史上最大のIPOへ向け正式始動

2026年6月8日、OpenAIはSECへの機密S-1登録届出書提出を公表し、IPO準備を正式に開始しました。直近評価額は約8520億ドルに達し、AI企業として史上最大規模の上場になる可能性があります。

2026年6月9日

OpenAI、SECに機密S-1を提出 — AI業界史上最大のIPOへ向け正式始動

論文解説動画

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。

2026年6月9日

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

ニュースビジネス

OpenAI、AIの経済・雇用影響を研究する「Economic Research Exchange」を開設

OpenAIが経済研究者向けプログラム「Economic Research Exchange」を開設。AIの雇用・生産性・賃金への影響を実証分析するため、研究者にAPIデータや集計統計を提供する。

2026年6月9日

OpenAI、AIの経済・雇用影響を研究する「Economic Research Exchange」を開設

論文解説マルチモーダル

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

知覚と推論を分離するフレームワーク「MemDreamer」が、全文入力の2%というコンテキスト量で長時間動画理解の精度を12.5ポイント向上し、4つのベンチマークでSOTAを達成しました。

2026年6月8日

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

ニュース技術

Sakana AI、「AIでAIを開発」専門チーム RSI Lab 設立 — 大規模計算なしの自己改善AI研究へ

Sakana AIが再帰的自己改善（RSI）専門の研究チーム「RSI Lab」を設立しました。「大量の計算資源ではなくアイデアで進歩する」方針を掲げ、AI自身がAIを改善する研究の実用化を目指す取り組みを解説します。

2026年6月8日

Sakana AI、「AIでAIを開発」専門チーム RSI Lab 設立 — 大規模計算なしの自己改善AI研究へ

論文解説音声

dots.ttsとは？連続潜在空間で学習する20億パラメータの多言語TTS基盤モデル

連続潜在空間で音声をモデル化する20億パラメータのTTS基盤モデルdots.ttsを解説。AudioVAEと自己補正後学習で中国語WER 0.94%・英語WER 1.30%を達成し、初音遅延85msも実現。Apache 2.0で完全公開予定。

2026年6月8日

dots.ttsとは？連続潜在空間で学習する20億パラメータの多言語TTS基盤モデル

ニュース技術

Anthropic、「Claude Cowork」を全有料プランで一般提供 — RBAC・OpenTelemetry対応で組織展開を本格化

Anthropicが2026年6月、エージェント型AI「Claude Cowork」をPro・Team・Enterpriseの全有料プランで一般提供開始。RBAC・OpenTelemetry・Zoom MCPなど組織展開向け管理機能を一斉に拡充しました。

2026年6月8日

ARMとは？離散視覚トークンと強化学習で理解・生成・編集を統合した自己回帰型マルチモーダルAI

Gemini 3.5 Live Translate、70言語超をほぼリアルタイムで音声翻訳

Agents' Last Exam（ALE）とは？経済的価値で測るAIエージェント汎用ベンチマーク

Lovable、年間収益5億ドルを突破 — バイブコーディング市場の急成長を証明

Optical Reasoningとは？推論を「画像」に変換してトークン29%削減を実現する新手法

OpenAI、SECに機密S-1を提出 — AI業界史上最大のIPOへ向け正式始動

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

OpenAI、AIの経済・雇用影響を研究する「Economic Research Exchange」を開設

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

Sakana AI、「AIでAIを開発」専門チーム RSI Lab 設立 — 大規模計算なしの自己改善AI研究へ

dots.ttsとは？連続潜在空間で学習する20億パラメータの多言語TTS基盤モデル

Anthropic、「Claude Cowork」を全有料プランで一般提供 — RBAC・OpenTelemetry対応で組織展開を本格化

人気記事