OpenAIが2026年2月、コーディングAI評価の業界標準「SWE-bench Verified」の廃止を公式発表。審査した問題の過半数にテスト欠陥があり、主要3モデルすべてで学習データへの汚染が確認されたことが理由です。
LLMの強化学習訓練で問題となるポリシー陳腐化に対処するVESPOを解説します。変分定式化と分散削減を統合した閉形式カーネルにより、gbs/mbs=64という極端な条件でもGRPOを14ポイント上回る安定訓練を実現します。
RAGアプリやAI開発に欠かせないベクトルデータベース(Pinecone・Qdrant・Weaviate・Milvus・ChromaDB)を性能・コスト・ユースケース別に徹底比較し、最適な選び方を解説します。
2026年2月のカナダ銃乱射事件で、容疑者のChatGPTチャットが事件8か月前に検知されていたことが判明。OpenAIは通報基準を満たさないと判断して警察への連絡を見送っており、AI企業によるユーザー監視と通報義務のあり方に関する議論が高まっています。
GoogleがImageNet-512でFID 1.4、Kinetics-600でFVD 1.3を達成する新フレームワーク「Unified Latents(UL)」を提案。拡散事前分布で潜在空間を正則化し、Stable Diffusionより少ない学習FLOPsで優れた品質を実現する潜在表現学習の仕組みを解説します。
GoogleのスタートアップVP Darren Mowryが、TechCrunchポッドキャストでLLMラッパーとAIアグリゲーターという2種類のビジネスモデルが存続困難になりつつあると警告しました。差別化の壁とクラウド黎明期との類比を解説します。
CES 2026では「フィジカルAI」が主役でした。NVIDIAのジェンスン・フアン氏が宣言した「フィジカルAIのChatGPTモーメント」とは何か。触覚ロボット・腸内AI・現場監督AI・ペン型録音・音声遮断ウェアラブルの5事例と、日本企業の勝ち筋を読み解きます。
再学習不要でDiffusion Transformerを最大3.52倍高速化するDDiTの仕組みと検証結果を解説。FLUX-1.DevやWan 2.1に即適用でき、推論コスト削減に活用できます。
OpenAIが数学コンペ「First Proof」の全10問にAIモデルで挑戦し、専門家評価で少なくとも5問が正解の可能性ありと判定。研究レベルの定理証明における形式的推論能力の到達点と今後の展望を解説します。
フリーランスになったとたん年収は上がる。しかし「作業者」のままでは5年後にAIと内製化に仕事を奪われる。AI時代を生き抜くフリーランスが実践する「探索(シナプス)戦略」とは何か。
llama.cppの作者Georgi Gerganov氏とGGMLチームがHugging Faceに参加。プロジェクトの独立性・オープンソース方針を維持しつつ、transformersとの統合によりローカルAI推論のワンクリック実行を目指します。
清華大学が提案したSpargeAttention2は、Top-kとTop-pのマスキング限界を理論分析し、ハイブリッド統合と蒸留微調整でアテンション計算を95%削減・16.2倍高速化しながら、既存手法を全指標で上回る生成品質を実現します。
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル
Composition-RL: 簡単な問題を組み合わせてLLMの推論力を伸ばす強化学習フレームワーク
llama.cpp開発元GGMLがHugging Faceに参加 — ローカルAI推論とtransformersの統合を加速