マルチモーダル 【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究 この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ... 2024.11.13 マルチモーダル画像論文解説