マルチモーダル

マルチモーダル

データ拡張で進化する数理モデルURSA!数式処理や幾何学的問題でGTP-4を上回る?

数学的推論に特化した多モーダルモデルURSAが登場!新しいデータ拡張技術と誤答例を活用し、推論能力を向上。数式処理や幾何学的問題でGTP-4を上回る?
ニュース

ストリームラボ、AI配信アシスタントで配信革命へ!

Streamlabsが2025年1月に次世代AIアシスタント「Intelligent Streaming Assistant」を発表!NVIDIAとInworld AIの技術を活用し、配信者の負担軽減と視聴者体験の向上を実現します。
ニュース

2024年のAI動向を振り返る!GPT-4超え70モデル登場

2024年、AI市場が劇的に進化!GPT-4を超える70のAIモデル登場し、コンテキストウィンドウが大幅に拡張。特にGoogleのGemini 1.5 Proが注目。価格低下で多くの分野での革新が期待されます。
データセット

YouTubeの教育動画データセットで視覚質問の応答性能を向上

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。
マルチモーダル

医療画像解析マルチモーダルLLMとデータセットMed-MAT

医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。
マルチモーダル

視覚タスクのゼロショット学習を刷新する「Explanatory Instructions」

視覚タスクにゼロショット能力を持たせる「Explanatory Instructions」アプローチを提案。指示付き説明で複数タスクに対応、視覚データの汎用性を向上。これにより効率的な機械学習モデルの開発が期待される。
ニュース

Amazon、AI基盤モデル「Nova」シリーズを発表!

AmazonがAWSのBedrockに新AIモデル「Nova」シリーズを追加。「Nova Micro」「Nova Lite」「Nova Pro」など多様なモデルを提供。さらに、2025年には「Nova Premier」や音声変換モデルのリリースを予定 しているとのこと。
マルチモーダル

【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ...