視覚と言語を統合する強力なAIモデル「PaliGemma 2」登場

Google、視覚と言語を統合したAIモデル「PaliGemma 2」を発表
画像キャプション生成や物体検出など多様なタスクで高性能を発揮
簡単なファインチューニングとオープンソース提供で、開発者の利用が容易に

※ AIによる要約

Googleは、視覚と言語を統合した強力なAIモデル「PaliGemma 2」を発表。

このモデルは、既存のGemma 2モデルに視覚的な能力を追加し、画像やテキストの入力から高精度な出力を生成することが可能。

Introducing PaliGemma 2, the tunable vision-language model that brings the power of sight to Gemma 2 👁🗣 → https://t.co/xn9lAPdWih pic.twitter.com/D7Ii5oJ1T7
— Google for Developers (@googledevs) 2024年12月5日

twitter.com

PaliGemma 2は、画像キャプション生成、視覚的質問応答、画像内テキストの理解、物体検出、セグメンテーションなど、多岐にわたる視覚と言語のタスクで優れた性能を発揮。

特筆すべきは、PaliGemma 2のファインチューニングが非常に簡単である点です。デベロッパーは、最小限のデータと計算リソースでモデルを特定のユースケースに適応可能。これにより、専門的な知識がなくても、さまざまなアプリケーションにPaliGemma 2を組み込むことができます。

さらに、PaliGemma 2はオープンソースとして提供されており、研究者やデベロッパーはモデルの重みやコードにアクセスして、自身のプロジェクトに活用できるとのこと。これにより、コミュニティ全体での協力とイノベーションが促進され、AI技術の進化が期待されます。

PaliGemma 2のリリースは、視覚と言語を統合したAIモデルの開発と利用を大幅に簡素化し、より多くの人々が先進的なAI技術を活用できる未来を切り開くでしょう。

Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning- Google Developers Blog

Explore PaliGemma 2, which offers scalable performance with multiple model sizes and resolutions, and is designed as a drop-in replacement for existing PaliGemma users.

developers.googleblog.com

視覚と言語を統合する強力なAIモデル「PaliGemma 2」登場

人気記事

関連記事

OpenAI、AIが数学の難問10件に進展 — 幾何・暗号・計算複雑性で成果

avatarin、GPT-Realtimeでヤマダ電機に接客AI 2週間で3万人利用

Thinking Machines、Inkling-Small公開 4分の1サイズで上位超え