DeepGEMM: La librería de código abierto que está cambiando la economía del cómputo en la IA
El tercer lanzamiento de código abierto de DeepSeek en una semana: Lo que necesitas saber
En un movimiento audaz para impulsar los límites de la eficiencia de la IA, DeepSeek ha lanzado su tercer proyecto de código abierto esta semana: DeepGEMM, una librería de multiplicación de matrices ligera pero de alto rendimiento diseñada para la precisión FP8. Este lanzamiento sigue a las presentaciones anteriores de la compañía de FlashMLA y DeepEP, reforzando su compromiso con la innovación abierta en la infraestructura de la IA.
DeepGEMM está optimizada para las GPUs Hopper de NVIDIA, un habilitador clave de las cargas de trabajo de IA de próxima generación. Soporta tanto Multiplicaciones de Matrices Generales densas estándar como GEMMs agrupados de Mix-of-Experts, lo que la convierte en una herramienta fundamental para acelerar la inferencia y el entrenamiento en modelos de IA a gran escala.
Por qué DeepGEMM es importante
1. FP8: La próxima frontera en la eficiencia de la IA
DeepGEMM está diseñada para la aritmética de precisión FP8, un importante avance en la eficiencia del cómputo de la IA. Las cargas de trabajo tradicionales de IA se basan principalmente en FP16 y BF16, pero FP8 ofrece mayor rendimiento y un menor uso del ancho de banda de la memoria, lo que la hace ideal para escalar modelos masivos de IA.
Sin embargo, FP8 tiene un desafío inherente: menor precisión numérica. DeepGEMM aborda esto introduciendo la acumulación de dos niveles CUDA-core, que mitiga la pérdida de precisión al tiempo que mantiene los beneficios de velocidad de FP8. Esta innovación permite a DeepGEMM igualar o superar los benchmarks de rendimiento establecidos por librerías estándar de la industria como CUTLASS, al tiempo que reduce significativamente la sobrecarga computacional.
2. Alto rendimiento con mínima complejidad
A diferencia de muchas librerías de cómputo de IA que se basan en plantillas anidadas profundamente y una abstracción excesiva, DeepGEMM es simple y eficiente por diseño. La implementación central consta de solo ~300 líneas de código CUDA, lo que la hace no solo altamente optimizada sino también fácil de entender y modificar.
3. Diseñada para la compilación Just-In-Time
DeepGEMM evita la necesidad de la compilación tradicional aprovechando la compilación JIT. Esto significa que no se requiere pre-compilación en la instalación, lo que permite que los kernels se compilen en tiempo de ejecución. Este enfoque permite la optimización dinámica basada en configuraciones de hardware específicas, lo que garantiza la máxima eficiencia.
4. Optimización MoE para modelos de IA de próxima generación
Las arquitecturas MoE se están volviendo cada vez más populares en la IA debido a su capacidad de escalar eficientemente manteniendo la rentabilidad. DeepGEMM está optimizada de forma única para los modelos MoE mediante la implementación de:
- GEMMs contiguos agrupados, donde las secuencias de tokens se agrupan para un procesamiento óptimo.
- GEMMs enmascarados agrupados, lo que permite una computación eficiente incluso cuando las activaciones de los expertos son escasas.
Estas optimizaciones hacen que los modelos de IA de DeepSeek-V3 sean significativamente más rápidos y rentables, estableciendo un nuevo benchmark en el rendimiento del cómputo MoE.
Benchmarking del rendimiento
DeepSeek probó DeepGEMM en una variedad de tamaños de matrices y cargas de trabajo en la GPU NVIDIA H800 SXM5. Los resultados son convincentes:
- Aceleraciones de hasta 2.7× sobre implementaciones anteriores.
- Consistentemente alto TFLOPS (Tera Operaciones de Punto Flotante por Segundo) en diversas formas de matrices.
- Utilización superior del ancho de banda de la memoria, lo que garantiza una asignación eficiente de los recursos de la GPU.
Si bien DeepGEMM sobresale en la mayoría de los casos, ciertas formas de matrices muestran margen para una mayor optimización, y DeepSeek ha invitado a los desarrolladores a contribuir con mejoras a través de GitHub.
Implicaciones estratégicas y de mercado
1. DeepSeek está forzando un colapso de los precios de las APIs de IA
DeepSeek ha destrozado las normas de precios. Las tarifas de la API de DeepSeek son 1/10 del precio de los equivalentes de OpenAI, un movimiento que ya ha provocado pánico entre los proveedores de servicios de IA. Esto no se trata solo de asequibilidad; se trata de redefinir las expectativas del mercado.
Si las ganancias de eficiencia del modelo de DeepSeek continúan, los proveedores de infraestructura de IA se enfrentan a una brutal guerra de precios, que refleja la infame carrera hacia el fondo del sector de la computación en la nube. OpenAI, Anthropic y Cohere tienen pocas opciones, ya sea igualar los precios o justificar sus ofertas premium con un valor inigualable, lo que en esta etapa parece cada vez más difícil.
2. El monopolio de NVIDIA se refuerza, ligeramente
El enfoque de DeepGEMM en las GPUs Hopper fortalece la posición de NVIDIA en el cómputo de IA de alto rendimiento, pero las implicaciones son dobles. Por un lado, estas optimizaciones hacen que el hardware de NVIDIA sea más atractivo al reducir el coste total de las operaciones de IA, incentivando a más jugadores a elegir su ecosistema. Por otro lado, una mayor eficiencia significa que cada jugador puede requerir menos GPUs en general, lo que podría reducir la demanda general del hardware de NVIDIA a largo plazo. Si DeepSeek y jugadores similares quieren desafiar el dominio de NVIDIA, es posible que aún necesiten ampliar el soporte para los aceleradores AMD MI300 e Intel Gaudi para crear un panorama más competitivo.
3. Los modelos MoE son el futuro, y DeepSeek lo sabe
El impulso agresivo de DeepSeek hacia el cómputo optimizado para MoE señala un cambio en la industria. Las arquitecturas heredadas pronto se considerarán reliquias ineficientes, ya que los modelos MoE permiten escalar con costes computacionales significativamente más bajos. Cualquier empresa de IA que no se adapte corre el riesgo de quedar obsoleta.
DeepSeek está claramente apostando por el dominio de MoE, y su liderazgo temprano en la optimización de las cargas de trabajo de MoE significa que los competidores pueden tener dificultades para alcanzarlo. Se espera que los principales laboratorios de IA se esfuercen por obtener mejores implementaciones de MoE en los próximos 12 meses.
Mirando hacia el futuro: ¿Qué sigue para el cómputo de la IA?
DeepGEMM no es solo una librería, representa un cambio filosófico en la eficiencia del cómputo de la IA. Con DeepSeek optimizando sistemáticamente cada aspecto de la infraestructura de la IA, la industria se está moviendo hacia modelos de IA ultraeficientes y de bajo coste.
Algunas tendencias clave a tener en cuenta:
- Adopción ampliada de FP8: A medida que DeepGEMM sienta un precedente, más frameworks de IA pueden integrar FP8 como un estándar.
- Más contribuciones de código abierto: La comunidad podría extender las optimizaciones de DeepGEMM a más arquitecturas más allá de NVIDIA Hopper.
- Democratización del cómputo de la IA: Si las optimizaciones de DeepSeek continúan, ejecutar modelos de IA a gran escala podría volverse asequible para empresas medianas y startups, rompiendo el dominio de los gigantes tecnológicos.
Reflexiones finales
El lanzamiento de DeepGEMM es más que un hito técnico, es un movimiento estratégico con implicaciones para toda la industria. Al hacer que el cómputo de la IA sea más eficiente, rentable y accesible, DeepSeek está remodelando el panorama competitivo de la investigación y el despliegue de la IA.
La verdadera pregunta ahora es: ¿Cómo contraatacarán OpenAI, NVIDIA y otras potencias de la IA? Si no se adaptan, DeepSeek podría no ser solo un desamparado, sino que podría redefinir la economía de la IA en sí misma.