論文解説

言語・LLM

SSMの長期依存タスクの性能向上を実現する新手法

SSMの情報依存と均一化問題を解明し、情報活用のための極性化手法を提案。長期依存性タスクでの性能向上を実証し、効果的な手法を確立。情報処理の効率化に貢献。
動画

リアルタイム高品質動画生成モデル「LTX-Video」

LTX-Videoモデルは、Video-VAEを用いた潜在空間への圧縮で計算コストを抑えつつ、リアルタイムで高品質な動画生成を実現します。視覚品質と効率性を両立し、ハードウェア効率化も考慮した設計です。
マルチモーダル

画像の安全性を自動判断するAI技術「MLLM-as-a-Judge」

新たな手法「MLLM-as-a-Judge」を提案。画像の安全性を自動判断し、CLUEフレームワークを活用して関連性や条件を高度に判定。従来より高精度・効率的な結果を実現し、応用可能性も示唆。
言語・LLM

【CodeRM-88】コード生成評価を改善する新手法

新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。
言語・LLM

【A3】モバイルアプリ上で動作するエージェント評価

モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。
データセット

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

新データセット「MapEval」を提案し、地理空間推論能力を評価。リアルな地理情報を基にした新たなLLM評価方法を確立。最新のGPT-4等で性能を検証し、課題を発見する試み。
言語・LLM

生成回答を改善する自己修正手法「ProgCo」の効果やいかに

言語モデルの能力向上手法としてProgCoを提案。プログラムで生成された回答を検証・改善するプロセスを導入し、実験でGPT-3.5やGPT-4の性能を向上。自己修正で言語モデルの有用性を強化。
画像

VF LossでLightDiffusionDTの速度2.5倍向上

LightDiffusionDTモデルを用いた新しいVF Lossを提案し、生成性能と計算コストのトレードオフを解消。トレーニング収束速度を約2.5倍向上させ、再構成と生成のバランスを効果的に改善した手法を実現。
データセット

YouTubeの教育動画データセットで視覚質問の応答性能を向上

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。
言語・LLM

自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ!

自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。