Aucun article pour le moment. Revenez plus tard !

Google lance PaliGemma 2 mix : un modèle de langage visuel open-source supportant plusieurs tâches

Google a officiellement lancé PaliGemma 2 mix, un puissant modèle de langage visuel multi-tâches. Ce modèle est le dernier membre de la série Gemma, capable de traiter plusieurs tâches liées à la vision dans un seul modèle, notamment la description d’images, la reconnaissance optique de caractères (OCR), la détection d’objets, et la segmentation d’images. PaliGemma 2 mix

Principales caractéristiques

Support multi-tâches

PaliGemma 2 mix supporte plusieurs tâches visuelles :

Description d’images : génère des descriptions d’images précises et détaillées
Reconnaissance optique de caractères (OCR) : reconnaît le contenu textuel dans les images
Détection d’objets : détecte et localise les objets dans les images
Segmentation d’images : effectue une segmentation sémantique précise des images
Compréhension de documents : comprend et analyse le contenu des images de documents
Prompt visuel ouvert : supporte des interactions de langage visuel flexibles

Choix de plusieurs échelles

Pour s’adapter à différents scénarios d’application, le modèle offre trois échelles différentes :

Version 3B : convient aux scénarios où les ressources sont limitées
Version 10B : équilibre les performances et la consommation de ressources
Version 28B : offre les meilleures performances

Support de résolution flexible

Le modèle supporte deux résolutions d’entrée d’images :

224px : convient aux tâches de traitement d’images régulières
448px : convient aux scénarios nécessitant un détail plus élevé

Caractéristiques amicales pour les développeurs

Compatibilité avec les frameworks
- Supporte Hugging Face Transformers
- Supporte Keras
- Supporte PyTorch
- Supporte JAX
- Supporte Gemma.cpp
Changement de tâche simple
- Permet de changer de tâche simplement en utilisant des prompts différents
- Sans nécessiter de charger ou de changer de modèle supplémentaire

Démarrage rapide

Les développeurs peuvent commencer à utiliser PaliGemma 2 mix de la manière suivante :

Téléchargement du modèle
- Télécharger le modèle pré-entraîné depuis Hugging Face ou Kaggle
- Consulter la documentation officielle pour obtenir plus d’informations
- Référencez le répertoire d’exemples de code pour démarrer rapidement
Support des frameworks de développement
- Hugging Face Transformers - Utilise le framework AI le plus populaire
- Keras - Framework de deep learning recommandé par Google
- PyTorch - Framework de deep learning flexible
- JAX - Framework d’apprentissage automatique haute performance
- Gemma.cpp - Solution de déploiement C++
Ressources d’apprentissage
- Référencez le tutoriel d’inférence pour démarrer rapidement
- Essayez le tutoriel de fine-tuning sur un jeu de données personnalisé
- Expérimentez le modèle avec la démonstration en ligne
- Utilisez un notebook Google Colab pour expérimenter
- Déployez le modèle avec Vertex Model Garden

Perspectives futures

Google indique que le lancement de PaliGemma 2 mix n’est que le début. L’équipe continuera d’améliorer les performances du modèle et d’améliorer l’expérience utilisateur par le biais des commentaires de la communauté. Pour les utilisateurs qui ont besoin de micro-ajuster dans un domaine spécifique, l’officiel fournit une documentation complète et des exemples de code.

Lien vers l’article original

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD