Google lanza PaliGemma 2 mix: un modelo de lenguaje visual de código abierto que admite múltiples tareas
Google ha lanzado oficialmente PaliGemma 2 mix, un potente modelo de lenguaje visual de código abierto que admite múltiples tareas. Este modelo es el miembro más reciente de la serie Gemma, capaz de manejar varias tareas relacionadas con la visión en un solo modelo, incluyendo descripción de imágenes, reconocimiento óptico de caracteres (OCR), detección de objetos, segmentación de imágenes, etc.
Características principales
Soporte para múltiples tareas
PaliGemma 2 mix admite varias tareas visuales:
- Descripción de imágenes:genera descripciones de imágenes precisas y detalladas
- Reconocimiento óptico de caracteres (OCR):reconoce el contenido de texto en imágenes
- Detección de objetos:detecta y localiza objetos en imágenes
- Segmentación de imágenes:realiza una segmentación semántica precisa de imágenes
- Comprensión de documentos:entiende y analiza el contenido de imágenes de documentos
- Sugerencias de lenguaje visual abiertas:admite interacciones de lenguaje visual flexibles
Selección de escalas múltiples
Para adaptarse a diferentes escenarios de aplicación, el modelo ofrece tres escalas diferentes:
- Versión de 3B:apta para escenarios con recursos limitados
- Versión de 10B:equilibra el rendimiento y el consumo de recursos
- Versión de 28B:ofrece el mejor rendimiento
Soporte de resolución flexible
El modelo admite dos resoluciones de entrada de imágenes:
- 224px:apta para tareas de procesamiento de imágenes estándar
- 448px:apta para escenarios que requieren más detalles
Características amigables para desarrolladores
-
Compatibilidad de marcos
- Soporta Hugging Face Transformers
- Soporta Keras
- Soporta PyTorch
- Soporta JAX
- Soporta Gemma.cpp
-
Cambio de tarea simple
- Cambia entre diferentes tareas mediante diferentes sugerencias
- Sin necesidad de cargar o cambiar modelos adicionales
Comienzo rápido
Los desarrolladores pueden comenzar a usar PaliGemma 2 mix de las siguientes maneras:
-
Descarga del modelo
- Descarga el modelo preentrenado de Hugging Face o Kaggle
- Consulta la documentación oficial para obtener más información
- Consulta el repositorio de código de ejemplo para empezar rápidamente
-
Soporte de marcos de desarrollo
- Hugging Face Transformers - Usando el marco de AI más popular
- Keras - El marco de aprendizaje profundo recomendado oficialmente
- PyTorch - Un marco de aprendizaje profundo flexible
- JAX - Un marco de aprendizaje automático de alto rendimiento
- Gemma.cpp - Un plan de implementación en C++
-
Recursos de aprendizaje
- Consulta el tutorial de inferencia para empezar rápidamente
- Intenta el tutorial de ajuste fino de datos personalizados
- Experimenta con la demostración en línea para probar las funciones del modelo
- Usa el cuaderno de Google Colab para experimentar
- Implementa en la nube a través de Vertex Model Garden
Perspectivas futuras
Google indica que el lanzamiento de PaliGemma 2 mix es solo el comienzo. El equipo continuará optimizando el rendimiento del modelo y mejorando la experiencia del usuario a través de retroalimentación de la comunidad. Para los usuarios que necesitan ajustar el modelo en un dominio específico, se proporcionan documentación completa y código de ejemplo.