論文解説

画像

複雑な幾何学図形を認識する「Slow Perception」の提案

複雑な幾何学的図形を認識できる「Slow Perception」を提案。図形を線と点で段階的に予測し、復元精度を向上させる。人間の視覚認識に近い逐次的認識プロセスを用いて、精度と理解性を向上させるモデルを構築。
言語・LLM

【SWE-Gym】ソフトウェア開発のシミュレーション学習環境!

ソフトウェアエンジニアリングタスクをシミュレーションする学習環境「SWE-Gym」を提案。Transformerを使用し高精度のコード修正を実現。オープンソースで公開され、研究者や開発者が利用可能に!
言語・LLM

LLMの考えすぎを抑え効率性20%向上する手法

LLMの考えすぎ問題がモデルの効率と精度に与える影響を分析し、Reasoning Preference Optimizationで緩和。提案手法により数学テストの精度と効率が約10%-20%向上。o1やQwQ-32Bなどを用い、数学的問題や一般知識に基づくテストを実施。
言語・LLM

埋め込み技術で強化されたロシア語LLMの新成果

ロシア語特化大規模言語モデルの改良法「学習型埋め込み伝播」を提案。埋め込み空間の整合性向上で未学習領域でも高性能を実現。複数ロシア語ベンチマークで優れた結果を確認。
画像

【Edicho】画像編集で特定要素を編集しても一貫性を保つ

画像編集で一貫性を保つ新手法Edichoの提案対応づけと生成ステップによる自然な編集結果の実現デザインやエンタメ業界での応用可能性と実務的価値論文:Edicho: Consistent Image Editing in the Wild本記...
論文解説

高速な音声生成TangoFlox!Flox変換とCLAPランク付け最適化

この論文では、高速・効率的な音声生成技術「TangoFlox」を開発。オープンデータセットを活用して柔軟性と音質を向上。流れ変換技術とCLAPランク付け最適化を採用し、高品質な音声生成を実現。
言語・LLM

LLM高速化へ新手法Dynasorで効率と精度向上

この論文では、LLMの推論効率を高めるために「Certainties」という概念を導入し、それに基づくリソース配分手法「Dynasor」を提案しています。Dynasorは計算効率と応答精度の両方を向上させることに成功しています。
動画

3Dオブジェクトからリアルタイム4Dシーンの生成

3Dオブジェクトを動きのある4Dオブジェクトに変換する新手法を提案しました。この手法は動きを抽出し、4Dシーンをリアルタイムで生成する最適なプロセスを活用。視覚的な品質と動的な表現のバランスが優れており、その優位性を実証しました。
マルチモーダル

医療画像解析マルチモーダルLLMとデータセットMed-MAT

医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。
マルチモーダル

視覚タスクのゼロショット学習を刷新する「Explanatory Instructions」

視覚タスクにゼロショット能力を持たせる「Explanatory Instructions」アプローチを提案。指示付き説明で複数タスクに対応、視覚データの汎用性を向上。これにより効率的な機械学習モデルの開発が期待される。