マルチモーダル 【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現 画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。 2024.11.07 マルチモーダル画像論文解説