AI-Papers
最新のAI論文・Newsを追うメディア
  • ホーム
  • 論文解説
    • 言語・LLM
    • 画像
    • 動画
    • 音声
    • 音楽
    • マルチモーダル
    • データセット
    • 強化学習
  • ニュース
    • 技術
    • ビジネス
  • お問い合わせ

マルチモーダル

マルチモーダル

【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ...
2024.11.13
マルチモーダル画像論文解説
マルチモーダル

【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現

画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。
2024.11.07
マルチモーダル画像論文解説
前へ 1 2
ホーム
論文解説
マルチモーダル
AI-Papers
  • ホーム
  • お問い合わせはこちら
© 2025 AI-Papers All Rights Reserved.
    • ホーム
    • 論文解説
      • 言語・LLM
      • 画像
      • 動画
      • 音声
      • 音楽
      • マルチモーダル
      • データセット
      • 強化学習
    • ニュース
      • 技術
      • ビジネス
    • お問い合わせ
  • ホーム
  • トップ