本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VITA-1.5は、音声と視覚のマルチモーダルなリアルタイムインタラクションを目指したモデルとして提案されました。 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、ロボット操作における「未来空間」生成を目的とした新しいフレームワーク「EnerVerse」が提案されて […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この研究は、画像生成モデルにおける「個性化」を実現しつつ、元の特徴や品質を保つ新たな手法「Nested Atten […]
競技プログラミング向けの新ベンチマーク「CodeELO」を解説。ELOレーティングに基づきLLMのコード生成能力を多面的に評価する仕組みと、各モデルの評価結果を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、時系列データを生成するために新しいモデル「Population-Aware Diffusion fo […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、Transformerモデルの性能を向上させる新しい位置エンコーディングフレームワーク「TAPE(Tr […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、動画データに基づいた細粒度動作認識を対象として、新しい半教師あり学習フレームワーク「SeFAR」を提 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、State Space Models(SSM)における情報の再現性や長期的依存関係の限界を克服するた […]
Lightricks開発の動画生成AI「LTX-Video」の技術詳細を解説。Video Latent Diffusionにより、リアルタイムで高品質な動画生成を実現する仕組みとアーキテクチャの特徴を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、画像が有害かどうかを判断する手法「MLLM-as-a-Judge」を提案しています。この方法は、大規 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、コード生成モデルの評価における課題を克服するため、CodeRM-88という新たな手法が提案されていま […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、モバイルアプリのGUI(グラフィカルユーザインタフェース)上で動作するエージェントを評価・改善するため […]
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル