論文解説

マルチモーダル

長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案

視覚推論力を向上させるMLLM「Virgo」が登場!長い思考指示と知識蒸留の2アプローチで性能向上を実証。データの質が結果に及ぼす影響も重要と確認。
マルチモーダル

【VITA-1.5】音声と視覚の統合技術で人と機械の自然な対話を実現

VITA-1.5モデルは音声と視覚情報を統合し、人と機械の自然なコミュニケーションを強化。視覚と言語を学習後に音声を統合し、リアルタイムに動的処理と瞬時の出力を実現します。
強化学習

ロボット予測操作と計算最適化の新枠組みEnerVerse

新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。
画像

画像生成で個性を出せる新技術「Nested Attention」

画像生成モデルの新手法「Nested Attention」を紹介。特定部分を強調しつつ全体の一貫性も維持し、アテンションマップを改良。実験で高精度と一貫性を示し、従来の手法より好ましい結果を確認。
データセット

競技プログラミング向けベンチマーク「CodeELO」登場

競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。
データセット

時系列データ解析のための生成モデル「PaD-TS」

新しいモデル「PaD-TS」を紹介。時系列データ生成で構造とグループ特性を考慮し、他モデルを上回るCCスコアとFDDSスコアを達成。生成データは予測や分類タスクの精度向上に貢献!
言語・LLM

長文タスクに優れたエンコーディング「TAPE」で頑健性と効率性を向上

新しい位置エンコーディングフレームワーク「TAPE」を提案。モデルの頑健性と効率性を向上させ、長文タスクにおいて優れた性能を示す実験結果。効率的な処理で強力なパフォーマンスを実現。
動画

動画の細粒度認識のための半教師あり学習手法「SeFAR」

動画データに基づく細粒度動作認識のための新しい半教師あり学習フレームワーク「SeFAR」を提案。ラベル付きとラベルなしデータを活用し、高精度な擬似ラベル生成で性能向上を実現。実験で最先端手法を超え、計算コストやモデルサイズも低減を達成。
言語・LLM

SSMの長期依存タスクの性能向上を実現する新手法

SSMの情報依存と均一化問題を解明し、情報活用のための極性化手法を提案。長期依存性タスクでの性能向上を実証し、効果的な手法を確立。情報処理の効率化に貢献。
動画

リアルタイム高品質動画生成モデル「LTX-Video」

LTX-Videoモデルは、Video-VAEを用いた潜在空間への圧縮で計算コストを抑えつつ、リアルタイムで高品質な動画生成を実現します。視覚品質と効率性を両立し、ハードウェア効率化も考慮した設計です。