Skip to content
Devenir Parrain Aidez à Construire une Meilleure Base de Connaissances ComfyUI
ActualitésGoogle lance PaliGemma 2 mix : un modèle de langage visuel open-source supportant plusieurs tâches

Google lance PaliGemma 2 mix : un modèle de langage visuel open-source supportant plusieurs tâches

Google a officiellement lancé PaliGemma 2 mix, un puissant modèle de langage visuel multi-tâches. Ce modèle est le dernier membre de la série Gemma, capable de traiter plusieurs tâches liées à la vision dans un seul modèle, notamment la description d’images, la reconnaissance optique de caractères (OCR), la détection d’objets, et la segmentation d’images. PaliGemma 2 mix

Principales caractéristiques

Support multi-tâches

PaliGemma 2 mix supporte plusieurs tâches visuelles :

  • Description d’images : génère des descriptions d’images précises et détaillées
  • Reconnaissance optique de caractères (OCR) : reconnaît le contenu textuel dans les images
  • Détection d’objets : détecte et localise les objets dans les images
  • Segmentation d’images : effectue une segmentation sémantique précise des images
  • Compréhension de documents : comprend et analyse le contenu des images de documents
  • Prompt visuel ouvert : supporte des interactions de langage visuel flexibles

Choix de plusieurs échelles

Pour s’adapter à différents scénarios d’application, le modèle offre trois échelles différentes :

  • Version 3B : convient aux scénarios où les ressources sont limitées
  • Version 10B : équilibre les performances et la consommation de ressources
  • Version 28B : offre les meilleures performances

Support de résolution flexible

Le modèle supporte deux résolutions d’entrée d’images :

  • 224px : convient aux tâches de traitement d’images régulières
  • 448px : convient aux scénarios nécessitant un détail plus élevé

Caractéristiques amicales pour les développeurs

  1. Compatibilité avec les frameworks

    • Supporte Hugging Face Transformers
    • Supporte Keras
    • Supporte PyTorch
    • Supporte JAX
    • Supporte Gemma.cpp
  2. Changement de tâche simple

    • Permet de changer de tâche simplement en utilisant des prompts différents
    • Sans nécessiter de charger ou de changer de modèle supplémentaire

Démarrage rapide

Les développeurs peuvent commencer à utiliser PaliGemma 2 mix de la manière suivante :

  1. Téléchargement du modèle

  2. Support des frameworks de développement

    • Hugging Face Transformers - Utilise le framework AI le plus populaire
    • Keras - Framework de deep learning recommandé par Google
    • PyTorch - Framework de deep learning flexible
    • JAX - Framework d’apprentissage automatique haute performance
    • Gemma.cpp - Solution de déploiement C++
  3. Ressources d’apprentissage

Perspectives futures

Google indique que le lancement de PaliGemma 2 mix n’est que le début. L’équipe continuera d’améliorer les performances du modèle et d’améliorer l’expérience utilisateur par le biais des commentaires de la communauté. Pour les utilisateurs qui ont besoin de micro-ajuster dans un domaine spécifique, l’officiel fournit une documentation complète et des exemples de code.

Lien vers l’article original