マルチモーダル

ByteDance、新AI「OmniHuman-1」発表！写真1枚からリアル動画生成

中国のByteDanceが、写真からリアルな動きの動画を生成できるAI「OmniHuman-1」を発表。動画のリアリティ向上に成功し、映画やゲームに革新をもたらす一方、ディープフェイクの悪用が懸念されています。

2025.02.12

ニュース技術

数学的推論に特化した多モーダルモデルURSAが登場！新しいデータ拡張技術と誤答例を活用し、推論能力を向上。数式処理や幾何学的問題でGTP-4を上回る？

2025.01.30

マルチモーダル論文解説

Streamlabsが2025年1月に次世代AIアシスタント「Intelligent Streaming Assistant」を発表！NVIDIAとInworld AIの技術を活用し、配信者の負担軽減と視聴者体験の向上を実現します。

2025.01.10

ニュース技術

2024年、AI市場が劇的に進化！GPT-4を超える70のAIモデル登場し、コンテキストウィンドウが大幅に拡張。特にGoogleのGemini 1.5 Proが注目。価格低下で多くの分野での革新が期待されます。

2025.01.07

ニュースビジネス

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。

2025.01.07

データセット論文解説

医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。

2025.01.05

マルチモーダル論文解説

視覚タスクにゼロショット能力を持たせる「Explanatory Instructions」アプローチを提案。指示付き説明で複数タスクに対応、視覚データの汎用性を向上。これにより効率的な機械学習モデルの開発が期待される。

2025.01.02

マルチモーダル論文解説

AmazonがAWSのBedrockに新AIモデル「Nova」シリーズを追加。「Nova Micro」「Nova Lite」「Nova Pro」など多様なモデルを提供。さらに、2025年には「Nova Premier」や音声変換モデルのリリースを予定しているとのこと。

2024.12.04

ニュース技術

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像（自然画像、Webページ...

2024.11.13

マルチモーダル画像論文解説