マルチモーダル 視覚言語モデル活用を活用しロボ操作を改善する「OmniManip」 新アプローチ「OmniManip」を提案し、ロボットの物体操作を改善。視覚言語モデルを活用してタスク情報を抽出し、インタラクションプリミティブを生成。日常的なタスクで高い成功率を確認した。 2025.01.31 マルチモーダル論文解説
マルチモーダル 動画に対応したRAG手法「VideoRAG」で視覚情報の活用の質が向上 動画応答生成手法「VideoRAG」を提案!動画とテキスト情報を統合し、質問に適した外部情報を活用。従来のRAGと比べ、視覚情報の利用により応答の質が向上。これで動画への質問ももっとスムーズに! 2025.01.31 マルチモーダル論文解説
マルチモーダル データ拡張で進化する数理モデルURSA!数式処理や幾何学的問題でGTP-4を上回る? 数学的推論に特化した多モーダルモデルURSAが登場!新しいデータ拡張技術と誤答例を活用し、推論能力を向上。数式処理や幾何学的問題でGTP-4を上回る? 2025.01.30 マルチモーダル論文解説
マルチモーダル 長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案 視覚推論力を向上させるMLLM「Virgo」が登場!長い思考指示と知識蒸留の2アプローチで性能向上を実証。データの質が結果に及ぼす影響も重要と確認。 2025.01.29 マルチモーダル論文解説
マルチモーダル 【VITA-1.5】音声と視覚の統合技術で人と機械の自然な対話を実現 VITA-1.5モデルは音声と視覚情報を統合し、人と機械の自然なコミュニケーションを強化。視覚と言語を学習後に音声を統合し、リアルタイムに動的処理と瞬時の出力を実現します。 2025.01.29 マルチモーダル論文解説
マルチモーダル 画像の安全性を自動判断するAI技術「MLLM-as-a-Judge」 新たな手法「MLLM-as-a-Judge」を提案。画像の安全性を自動判断し、CLUEフレームワークを活用して関連性や条件を高度に判定。従来より高精度・効率的な結果を実現し、応用可能性も示唆。 2025.01.26 マルチモーダル論文解説
マルチモーダル 医療画像解析マルチモーダルLLMとデータセットMed-MAT 医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。 2025.01.05 マルチモーダル論文解説
マルチモーダル 視覚タスクのゼロショット学習を刷新する「Explanatory Instructions」 視覚タスクにゼロショット能力を持たせる「Explanatory Instructions」アプローチを提案。指示付き説明で複数タスクに対応、視覚データの汎用性を向上。これにより効率的な機械学習モデルの開発が期待される。 2025.01.02 マルチモーダル論文解説
マルチモーダル 【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究 この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ... 2024.11.13 マルチモーダル画像論文解説
マルチモーダル 【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現 画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。 2024.11.07 マルチモーダル画像論文解説