64人の数学者が設計した研究レベル数学ベンチマーク「Soohak」を解説します。最先端モデルでもGemini-3-Proが30.4%、GPT-5が26.4%止まりで、不当な問題を見抜く「Refusal Subset」ではいかなるモデルも50%未満でした。
QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。
Flow Matchingを言語生成に初めて本格適用した拡散言語モデル「ELF」を解説します。最終ステップまで連続埋め込み空間にとどまる設計でCFGが自然に転用可能となり、少ないトレーニングで既存DLMを上回る性能を達成しました。
拡散モデルの超深層化で発生するトークン均質化崩壊「Mean Mode Screaming」を初特定。MV-Split残差で世界初の1000層DiT安定学習とFID 2.68を達成した研究を解説します。
Test-Time Scaling戦略の設計を自動化するAutoTTSをGoogleが提案しました。LLMエージェントがオフラインリプレイ環境で反復的に戦略を探索・評価し、わずか$39.9・160分で手動設計を上回る推論戦略を発見します。
スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。
GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。
SwiftI2Vは2段階フレームワークとCSG(セグメント単位生成)を組み合わせ、2K解像度のImage-to-Video生成においてGPU処理時間を202倍削減しながらVBench-I2Vで最高スコアを達成した新手法です。RTX 4090でも実用的な運用が可能です。
Continuous-Time Distribution Matching(CDM)は、固定離散タイムステップへの依存を動的連続スケジュールで置き換えることで拡散モデルの蒸留を刷新。GANや報酬モデル不要で過平滑化を解消し、SD3-MediumとLongcat-Imageで4ステップの高品質生成を実現した新手法を解説します。
Google DeepMindが開発した数学研究支援エージェント「AI Co-Mathematician」を解説します。非同期マルチエージェントで仮説立案から定理証明まで一貫支援し、FrontierMath Tier 4で全AIシステム中最高の48%を達成しました。
埋め込みモデルとベクトル検索を使わず、grepやシェルで生コーパスを直接探索するDCI(Direct Corpus Interaction)がBRIGHTとBEIRで既存手法を大幅に上回ることを示した論文を解説します。
Text VAE・ブロック因果DiT・条件付きデコードの3段階で構成されるCola DLMを解説します。連続潜在拡散によって自己回帰パラダイムとは異なるアプローチを提案し、約2Bパラメータで8ベンチマークにわたる強いスケーリング特性を示しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング