la Competencia por Superar a DeepSeek También se Libra en la Propia China
POR: REDACCIÓN
Días de vértigo en el mundo de la inteligencia artificial (IA). Cuando parecía que los gigantes tecnológicos estadounidenses no tenían rival capaz de hacerles sombra, DeepSeek causó un auténtico terremoto. El excelente desempeño de los últimos modelos de lenguaje de la compañía china se tradujo en una amenaza directa para las firmas de Silicon Valley, que en cuestión de horas perdieron miles de millones de dólares de valor de mercado.
El éxito de DeepSeek V3 y DeepSeek-R1 radica en una clave muy sencilla de entender. Son propuestas que, en muchos aspectos, están a la altura de lo más avanzado del mundo, como GPT-4 y o1. No solo funcionan muy bien, sino que los costes de entrenamiento y funcionamiento son varias veces más bajos que los de OpenAI. Mientras Occidente se alista para lanzar modelos “mucho mejores”, como mencionaba Sam Altman, la competencia para superar a DeepSeek también se juega en China.
Alibaba, en carrera para superar a DeepSeek
Las cosas se están moviendo muy rápidamente en el campo de la IA. Alibaba, el gigante del comercio electrónico conocido “el Amazon chino”, acaba de lanzar su modelo de lenguaje más avanzado: Qwen2.5-Max. Estamos ante una alternativa preentrenada con 20 billones de tokens y mejorada mediante técnicas de fine-tuning supervisado (SFT) y aprendizaje por refuerzo a partir de comentarios humanos (RLHF).
Al igual que GPT-4 y DeepSeek, Qwen2.5-Max utiliza una arquitectura Mixture of Experts (MoE), optimizando los recursos al activar únicamente las partes necesarias del modelo, los llamados “expertos”. Está diseñado para destacar en tareas como la programación y conversaciones, pero lo más interesante es que supera en varios benchmarks a rivales como DeepSeek V3 y Llama 3.1.
Qwen2.5-Max ha logrado una puntuación del 87,9 % en MMLU, una de las pruebas más exigentes para evaluar el conocimiento general de un modelo, frente al 87,1% de DeepSeek V3 y del 85,2% de Llama 3.1. En BBH, una prueba diseñada para evaluar el razonamiento complejo, Qwen2.5-Max ha alcanzado un 89,3%, situándose por delante de DeepSeek V3 (87,5 %) y Llama 3.1 (85,9 %).
Si nos fijamos en MATH, el benchmark que evalúa el desempeño en matemáticas a nivel olímpico, el modelo de Alibaba alcanza un 68,5%, mientras que sus rivales DeepSeek V3 y Llama 3.1 alcanzan los 61,6% y 53,8% respectivamente. La diferencia no es abrumadora, pero sigue siendo un dato interesante, sobre todo porque muestra que sus competidores, tanto dentro como fuera de China, no están tan lejos.