Publicado 28/01/2025 05:55

Portaltic.-El modelo Qwen2.5-VL de Alibaba Cloud puede analizar documentos, comprender vídeos y ejecutar tareas en móviles y PC

Qwen2.5-VL
Qwen2.5-VL - QWENLM

   MADRID, 28 Ene. (Portaltic/EP) -

   Alibaba Cloud ha anunciado un nuevo modelo de Inteligencia Artificial (IA) denominado Qwen2.5-VL, que se incluye en su familia de modelos de lenguaje grande (LLM) multimodales Qwen y que puede analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma en 'smartphones' y ordenadores.

   La compañía tecnológica china ha aprovechado el interés que está generando el asistente DeepSeek, lanzado por la compañía homónima y también de origen chino, para presentar un modelo de lenguaje que reúne capacidades similares a este 'chatbot' gratuito.

En su caso, Alibaba Cloud ha explicado que el nuevo Qwen2.5-VL deriva de Qwen2-VL, que los desarrolladores han estado probando en los últimos cinco meses y gracias al cual han logrado crear un modelo de lenguaje "más útil". De ese modo, éste "da un salto significativo con respecto al modelo anterior" y lo ha mejorado al incorporar "potentes capacidades de análisis de documentos", tal y como ha señalado la compañía en una entrada publicada en GitHub y en su blog.

Más concretamente, puede analizar documentos de gran tamaño, en varias lenguas, con diferentes orientaciones del texto y con otros elementos integrados. Por ejemplo, entradas de texto manuales, tablas, gráficos, fórmulas químicas y partituras musicales.

También ha mejorado significativamente sus capacidades generales de reconocimiento de imágenes, ampliando su clasificación a diferentes categorías, productos, objetos y escenarios, como plantas, animales, monumentos o ríos, así como capturas de películas y series de televisión.

   Asimismo, se puede utilizar para obtener una precisión mejorada de coordenadas absolutas y formatos pensados para el intercambio de datos Javacript Object Notation (JSON), que sirve como base para ejecutar un razonamiento espacial avanzado. En ese caso, puede detectar cuántas motos hay en una carretera, dónde se sitúan y si los conductores llevan casco, entre otras opciones.

   Este modelo también puede comprender vídeos "que duren horas" y, al mismo tiempo, extraer segmentos de escenas en unos segundos; y brinda capacidades avanzadas de razonamiento y toma de decisiones, potenciando el modelo con una funcionalidad de agente autónomo en 'smartphones' y ordenadores. Esto significa que tiene un funcionamiento muy parecido a Operator, recientemente lanzado por OpenAI.

Los desarrolladores han avanzado otras actualizaciones de la arquitectura del modelo, como que este modelo no solo convierte imágenes de diferentes tamaños en tokens de longitudes variables de forma dinámica, sino que también representa coordenadas como puntos de detección empleando la escala de tamaño real a la imagen.

Esto, en la denominada dimensión espacial. En la temporal, se han introducido tanto el entrenamiento dinámico de fotogramas por segundo (fps) como la codificación de tiempo absoluto. Gracias a ello, el modelo puede aprender una secuencia y su velocidad, así como identificar momentos específicos de un vídeo. Por otra parte, se ha mejorado la velocidad de entrenamiento y de la inferencia, al implementar la arquitectura del transformador de visión (ViT) de forma nativa.

Finalmente, han señalado que, "en un futuro cercano", mejorarán las capacidades de razonamiento y resolución del problemas del modelo, al tiempo que incorporarán más modalidades. Gracias a esto, Qwen25-VL será "más inteligente" y les permitirá llegar a un modelo completo que les permita manejar "múltiples tipos de entradas y tareas".

El equipo de desarrollo de Qwen ha puesto el modelo base Qwen2.5-VL a disposición de los desarrolladores y adaptado a tres tamaños (3B, 7B y 72B) para cubrir sus necesidades. Se puede obtener a través de Hugging Face y ModelScope.

Contador

Leer más acerca de: