AI-Papers

動画

「STAR」映像超解像フレームワークで過去のフレームとの調和を実現

新フレームワーク「STAR」を提案し、T2Vモデルを活用して映像超解像を改善!リアルなテクスチャと時間的一貫性を強化。
強化学習

社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上

新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。
マルチモーダル

長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案

視覚推論力を向上させるMLLM「Virgo」が登場!長い思考指示と知識蒸留の2アプローチで性能向上を実証。データの質が結果に及ぼす影響も重要と確認。
マルチモーダル

【VITA-1.5】音声と視覚の統合技術で人と機械の自然な対話を実現

VITA-1.5モデルは音声と視覚情報を統合し、人と機械の自然なコミュニケーションを強化。視覚と言語を学習後に音声を統合し、リアルタイムに動的処理と瞬時の出力を実現します。
強化学習

ロボット予測操作と計算最適化の新枠組みEnerVerse

新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。
画像

画像生成で個性を出せる新技術「Nested Attention」

画像生成モデルの新手法「Nested Attention」を紹介。特定部分を強調しつつ全体の一貫性も維持し、アテンションマップを改良。実験で高精度と一貫性を示し、従来の手法より好ましい結果を確認。
データセット

競技プログラミング向けベンチマーク「CodeELO」登場

競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。
データセット

時系列データ解析のための生成モデル「PaD-TS」

新しいモデル「PaD-TS」を紹介。時系列データ生成で構造とグループ特性を考慮し、他モデルを上回るCCスコアとFDDSスコアを達成。生成データは予測や分類タスクの精度向上に貢献!
言語・LLM

長文タスクに優れたエンコーディング「TAPE」で頑健性と効率性を向上

新しい位置エンコーディングフレームワーク「TAPE」を提案。モデルの頑健性と効率性を向上させ、長文タスクにおいて優れた性能を示す実験結果。効率的な処理で強力なパフォーマンスを実現。
動画

動画の細粒度認識のための半教師あり学習手法「SeFAR」

動画データに基づく細粒度動作認識のための新しい半教師あり学習フレームワーク「SeFAR」を提案。ラベル付きとラベルなしデータを活用し、高精度な擬似ラベル生成で性能向上を実現。実験で最先端手法を超え、計算コストやモデルサイズも低減を達成。