GoogleがPaliGemma 2 mixをリリース:多タスクをサポートするオープンソースの視覚言語モデル
Googleは公式にPaliGemma 2 mixをリリースしました。これは強力な多タスク視覚言語モデルです。このモデルはGemmaシリーズの最新のメンバーで、単一のモデルで多くの視覚に関連するタスクを処理することができ、画像の説明、光学文字認識(OCR)、オブジェクト検出、画像のセグメンテーションなどを含みます。
主要特徴
多タスクサポート
PaliGemma 2 mixは多くの視覚タスクをサポートします:
- 画像の説明:正確で詳細な画像の説明を生成
- 光学文字認識(OCR):画像内のテキストコンテンツを認識
- オブジェクト検出:画像内のオブジェクトを検出して位置を特定
- 画像のセグメンテーション:画像の精確なセマンティックセグメンテーションを実行
- 文書理解:文書画像のコンテンツを理解して分析
- オープンエンドの視覚言語プロンプト:柔軟な視覚言語のインタラクションをサポート
多くのスケールオプション
異なるアプリケーションシナリオに適応するために、モデルは三つの異なるスケールを提供します:
- 3Bパラメータバージョン:リソースが制限されたシナリオに適合
- 10Bパラメータバージョン:性能とリソース消費をバランスさせる
- 28Bパラメータバージョン:最高の性能を提供
フレキシブルな解像度サポート
モデルは二つの画像入力解像度をサポートします:
- 224px:通常の画像処理タスクに適合
- 448px:より高い詳細が必要なシナリオに適合
開発者向けの特徴
-
フレームワークの互換性
- Hugging Face Transformersをサポート
- Kerasをサポート
- PyTorchをサポート
- JAXをサポート
- Gemma.cppをサポート
-
シンプルなタスクの切り替え
- 異なるプロンプトを通じて異なるタスクに切り替える
- モデルの追加のロードや切り替えが不要
クイックスタート
開発者は以下の方法でPaliGemma 2 mixを始めることができます:
-
モデルダウンロード
- Hugging Face または Kaggle から事前に訓練されたモデルをダウンロード
- 公式ドキュメント を参照して詳細な情報を学び
- 例のコードリポジトリ を参照してクイックスタート
-
開発フレームワークのサポート
- Hugging Face Transformers - 最も人気のあるAIフレームワークを使用
- Keras - 公式に推奨される深層学習フレームワーク
- PyTorch - フレキシブルな深層学習フレームワーク
- JAX - 高性能の機械学習フレームワーク
- Gemma.cpp - C++でのデプロイスキーム
-
学習リソース
- 推理チュートリアル を参照してクイックスタート
- カスタムデータセットの微調整チュートリアル を試してみる
- オンラインデモ 通过オンラインデモでモデル機能を体験
- Google Colabノートブックを使用して実験
- Vertex Model Gardenを通じてクラウドでのデプロイ
将来の展望
Googleは、PaliGemma 2 mixのリリースが始まりにすぎないと述べています。チームはモデル性能をさらに最適化し、コミュニティのフィードバックを通じてユーザーエクスペリエンスを不断に改善します。特定のドメインで微調整が必要なユーザーに対して、公式は完全なドキュメントと例のコードを提供します。