Google lance PaliGemma 2 mix : un modèle de langage visuel open-source supportant plusieurs tâches
Google a officiellement lancé PaliGemma 2 mix, un puissant modèle de langage visuel multi-tâches. Ce modèle est le dernier membre de la série Gemma, capable de traiter plusieurs tâches liées à la vision dans un seul modèle, notamment la description d’images, la reconnaissance optique de caractères (OCR), la détection d’objets, et la segmentation d’images.
Principales caractéristiques
Support multi-tâches
PaliGemma 2 mix supporte plusieurs tâches visuelles :
- Description d’images : génère des descriptions d’images précises et détaillées
- Reconnaissance optique de caractères (OCR) : reconnaît le contenu textuel dans les images
- Détection d’objets : détecte et localise les objets dans les images
- Segmentation d’images : effectue une segmentation sémantique précise des images
- Compréhension de documents : comprend et analyse le contenu des images de documents
- Prompt visuel ouvert : supporte des interactions de langage visuel flexibles
Choix de plusieurs échelles
Pour s’adapter à différents scénarios d’application, le modèle offre trois échelles différentes :
- Version 3B : convient aux scénarios où les ressources sont limitées
- Version 10B : équilibre les performances et la consommation de ressources
- Version 28B : offre les meilleures performances
Support de résolution flexible
Le modèle supporte deux résolutions d’entrée d’images :
- 224px : convient aux tâches de traitement d’images régulières
- 448px : convient aux scénarios nécessitant un détail plus élevé
Caractéristiques amicales pour les développeurs
-
Compatibilité avec les frameworks
- Supporte Hugging Face Transformers
- Supporte Keras
- Supporte PyTorch
- Supporte JAX
- Supporte Gemma.cpp
-
Changement de tâche simple
- Permet de changer de tâche simplement en utilisant des prompts différents
- Sans nécessiter de charger ou de changer de modèle supplémentaire
Démarrage rapide
Les développeurs peuvent commencer à utiliser PaliGemma 2 mix de la manière suivante :
-
Téléchargement du modèle
- Télécharger le modèle pré-entraîné depuis Hugging Face ou Kaggle
- Consulter la documentation officielle pour obtenir plus d’informations
- Référencez le répertoire d’exemples de code pour démarrer rapidement
-
Support des frameworks de développement
- Hugging Face Transformers - Utilise le framework AI le plus populaire
- Keras - Framework de deep learning recommandé par Google
- PyTorch - Framework de deep learning flexible
- JAX - Framework d’apprentissage automatique haute performance
- Gemma.cpp - Solution de déploiement C++
-
Ressources d’apprentissage
- Référencez le tutoriel d’inférence pour démarrer rapidement
- Essayez le tutoriel de fine-tuning sur un jeu de données personnalisé
- Expérimentez le modèle avec la démonstration en ligne
- Utilisez un notebook Google Colab pour expérimenter
- Déployez le modèle avec Vertex Model Garden
Perspectives futures
Google indique que le lancement de PaliGemma 2 mix n’est que le début. L’équipe continuera d’améliorer les performances du modèle et d’améliorer l’expérience utilisateur par le biais des commentaires de la communauté. Pour les utilisateurs qui ont besoin de micro-ajuster dans un domaine spécifique, l’officiel fournit une documentation complète et des exemples de code.