La revolucionaria infraestructura de IA de DeepSeek reduce los costes al mínimo; la comunidad pide el Premio Nobel junto al creador de GPT, Altman
Una clase magistral en eficiencia de la IA
DeepSeek acaba de revelar un nivel de transparencia sin precedentes en su sistema de inferencia de IA, detallando su infraestructura, la eficiencia de los costes y los posibles márgenes de beneficio. Los datos compartidos han causado conmoción en el sector de la infraestructura de la IA, dejando a los competidores luchando por justificar sus propias estructuras de costes.
Esta es su publicación en X sobre esta nueva revelación de los avances innovadores en la infraestructura de la IA: 🚀 Día 6 de la #OpenSourceWeek: Una cosa más – Visión general del sistema de inferencia DeepSeek-V3/R1
Rendimiento y latencia optimizados a través de: 🔧 Escalado de lotes con tecnología EP entre nodos 🔄 Superposición de computación-comunicación ⚖️ Equilibrio de carga
Estadísticas del servicio en línea de DeepSeek: ⚡ 73,7k/14,8k tokens de entrada/salida por segundo por nodo H800 🚀 Margen de beneficio de coste 545%
💡 Esperamos que los conocimientos de esta semana ofrezcan valor a la comunidad y contribuyan a nuestros objetivos comunes de AGI. 📖 Inmersión profunda: https://bit.ly/4ihZUiO
El enfoque de DeepSeek se centra en el paralelismo experto a gran escala, combinado con el equilibrio de carga avanzado, el almacenamiento en caché de tokens y las estrategias de eficiencia del hardware. Su capacidad para extraer un rendimiento extremo de las GPU H800 eleva el listón para los proveedores de servicios de IA. Pero lo que es más importante, sus cálculos de coste-beneficio revelan cuánta ineficiencia todavía existe en el sector de la IA.
Inferencia de IA a escala: la ventaja técnica de DeepSeek
Paralelismo experto: el arma secreta
DeepSeek emplea el paralelismo experto multi-nodo, dividiendo su modelo en cientos de expertos, con sólo un puñado activado por capa. Esta configuración logra:
- Mayor rendimiento y menor latencia al optimizar las operaciones de matriz de la GPU y minimizar la carga de memoria por GPU.
- Menor sobrecarga de comunicación a través de un sistema avanzado de canalización de doble lote, superponiendo la computación y la comunicación para reducir los ciclos inactivos de la GPU.
- Equilibrio de carga dinámico a través de grupos paralelos de datos y fragmentos expertos, evitando cuellos de botella en la GPU y manteniendo una eficiencia constante en todos los nodos.
Utilización del hardware y optimización de los costes
DeepSeek despliega exclusivamente GPU H800, logrando una precisión de inferencia comparable a la de los entornos de entrenamiento. También utiliza el formato FP8 para los cálculos de matrices y BF16 para los mecanismos de atención, garantizando el mejor equilibrio entre precisión y velocidad. El sistema también emplea:
- Escalado dinámico de la implementación – Utilización total de los recursos durante las horas punta, reasignación de recursos al entrenamiento por la noche.
- Almacenamiento en caché de disco duro KVCache – El 56,3% de los tokens de entrada se almacenan en caché, lo que reduce la computación redundante y reduce drásticamente los costes.
- Superposición de computación-comunicación canalizada – Una estructura de canalización de varias etapas en la decodificación maximiza la eficiencia.
La bomba de rentabilidad: ¿un margen del 545%?
Las cifras que DeepSeek reveló son asombrosas:
- Coste de la GPU durante 24 horas: 87.072 $ (el alquiler de la H800 se estima en 2 $ por hora por GPU)
- Tokens de entrada diarios procesados: 608 mil millones (con un 56,3% alcanzando KVCache)
- Tokens de salida diarios generados: 168 mil millones
- Carga máxima de inferencia: 278 nodos (~2500 GPU en uso a máxima capacidad)
- Ingresos máximos teóricos (si se monetizan completamente a través de la API): 562.027 $/día
- Margen de beneficio estimado: 545% (si todos los tokens se cobraran al precio de DeepSeek R1)
Esta cifra está enviando ondas a través del mundo de la infraestructura de la IA. Si DeepSeek puede operar a este nivel de eficiencia, ¿por qué otros proveedores de IA tienen dificultades para alcanzar el punto de equilibrio?
Las profundas implicaciones para los proveedores de infraestructura e IA en la nube
1. Los equipos de infraestructura están en la cuerda floja
Con este nivel de transparencia de costes, los equipos internos de infraestructura de IA de otras empresas están ahora bajo una inmensa presión. Si sus márgenes de beneficio no se acercan a los de DeepSeek, debe justificar por qué. Los servicios de IA basados en la nube que dependen del alquiler de GPU de alto coste pueden encontrarse ahora en una posición precaria.
2. La muerte de la implementación ineficiente de la IA
La ventaja de eficiencia de DeepSeek proviene de exprimir cada onza de rendimiento de sus GPU. Otros proveedores, especialmente los que dependen de la infraestructura genérica de la nube, tendrán dificultades para igualar este nivel de optimización de costes a menos que:
- Adopten el paralelismo experto y optimicen los tamaños de los lotes.
- Implementen soluciones de almacenamiento basadas en KVCache.
- Utilicen optimizaciones de precisión a nivel de hardware como FP8/BF16.
3. Las empresas emergentes de IA se enfrentan a un ajuste de cuentas
Muchas empresas emergentes de IA han confiado en el costoso alquiler de GPU en la nube mientras intentaban crear modelos de inferencia escalables. La divulgación de DeepSeek remodela efectivamente la economía de la inferencia de IA. Si su modelo no está tan optimizado, su coste por token será significativamente mayor, lo que hará que su modelo de negocio sea insostenible a largo plazo.
4. La disrupción del código abierto acaba de acelerarse
DeepSeek no sólo está hablando de eficiencia, sino que está abriendo el código de gran parte de sus herramientas de infraestructura:
- FlashMLA – Kernels de decodificación optimizados para GPU NVIDIA Hopper.
- DeepEP – Una biblioteca de comunicación de paralelismo experto MoE, la primera de su clase.
- DeepGEMM – Multiplicación de matrices FP8 optimizada.
- DualPipe & EPLB – Herramientas de equilibrio de carga y eficiencia de la canalización.
- 3FS – Un sistema de archivos paralelo para cargas de trabajo de IA.
Esto significa que los competidores ya no pueden ignorar estas optimizaciones. Si no las está adoptando, se está quedando atrás.
La predicción: ¿Qué ocurre a continuación?
1. Los precios de la API bajarán, agresivamente
Ahora que DeepSeek ha expuesto la estructura de costes real detrás de la inferencia de la IA, espere que los proveedores de API empiecen a bajar los precios. Si su API es significativamente más cara que la de DeepSeek, los clientes empezarán a exigir explicaciones, o a migrar.
2. MoE se convierte en el estándar de la industria
La Mezcla de Expertos se ha debatido durante mucho tiempo, pero la implementación de DeepSeek demuestra su eficiencia a escala. Los proveedores de IA que se han resistido a la adopción de MoE ahora tendrán que reconsiderarlo, porque si no lo está utilizando, está pagando de más por la computación.
3. La carrera armamentista de la infraestructura se intensificará
Con DeepSeek liberando abiertamente sus optimizaciones, espere una ola de rápida adopción. Los equipos de infraestructura de otras empresas de IA se adaptarán o quedarán obsoletos. Los precios de las GPU en la nube y las estrategias de implementación se convertirán en un campo de batalla competitivo, y las empresas emergentes de IA se verán obligadas a repensar su estrategia de infraestructura.
4. Los inversores empezarán a hacer preguntas difíciles
Esto no es sólo una revelación técnica, es un ajuste de cuentas financiero. Los inversores en empresas emergentes de IA y proveedores de la nube ahora exigirán métricas de eficiencia más altas, cuestionando por qué sus empresas de cartera no están operando con márgenes al nivel de DeepSeek.
El sector de la IA acaba de recibir una bofetada de realidad
DeepSeek ha desmantelado eficazmente muchas de las suposiciones sobre los costes de la infraestructura de la IA. Al exponer tanto sus métricas de eficiencia como sus márgenes de beneficio teóricos, han establecido un nuevo punto de referencia en el sector que los competidores no pueden ignorar.
Para aquellos que se dedican a la infraestructura de la IA, el mensaje es claro: adaptarse o quedarse atrás. La era de la inferencia ineficiente de la IA ha terminado, y las empresas que no optimicen tendrán dificultades para seguir siendo relevantes.
DeepSeek no es sólo otra empresa de IA, sino que está reescribiendo el libro de jugadas para la eficiencia de la IA. Y si no está prestando atención, ya se está quedando atrás.