Revisión técnica del documento DeepSeek-R1: Redefiniendo la IA de razonamiento

1. Introducción e impresiones generales

DeepSeek-R1 ha llamado mucho la atención por su nuevo enfoque para entrenar modelos lingüísticos grandes (LLM). En comparación con su predecesor, DeepSeek-V3, este nuevo trabajo destaca un estilo “más simple pero elegante” en su diseño experimental y teórico.

Al evaluar DeepSeek-R1, muchos investigadores han recordado la evolución de AlphaGo, particularmente debido al proceso de entrenamiento R1-Zero → R1. DeepSeek-R1 destaca por su alto rendimiento en varios puntos de referencia desafiantes, incluso superando o igualando a modelos de primer nivel como OpenAI-o1-1217. Además, una versión destilada de 32B (DeepSeek-R1-32B) ha ofrecido resultados impresionantes, rivalizando con OpenAI-o1-mini.

A grandes rasgos, DeepSeek-R1 demuestra que es posible lograr una sólida capacidad de razonamiento sin depender de un ajuste fino supervisado (SFT) masivo al principio. El modelo emplea una combinación de aprendizaje por refuerzo (RL) con un enfoque SFT ligero, además de un modelo de recompensa basado en reglas que evita algunos de los inconvenientes del modelado de recompensas convencional.

2. Diseño de recompensa: Alejándose de PRM y ORM

2.1 ¿Por qué una recompensa basada en reglas?

Los autores optaron por recompensas basadas en reglas en lugar de un modelo de recompensa parametrizado (PRM). Sus puntos principales son:

El etiquetado granular de pasos es difícil En las tareas de razonamiento general, es difícil definir criterios claros y detallados para cada paso intermedio.
Costo y precisión del etiquetado La automatización de la generación de etiquetas suele ser deficiente, mientras que la anotación manual es demasiado costosa para escalar.
Evitar la manipulación de recompensas Cuando la función de recompensa es modelada por un sistema de aprendizaje automático (PRM), el modelo puede aprender a manipular o explotar esa recompensa (manipulación de recompensas). El reentrenamiento continuo de un PRM también aumenta la complejidad y las demandas de recursos.

En consecuencia, DeepSeek-R1 utiliza señales directas basadas en reglas, especialmente en tareas matemáticas o de programación, comparando las respuestas finales con las verdades fundamentales o utilizando la compilación y los casos de prueba para verificar la corrección. También incorporan reglas para verificar el formato de salida (por ejemplo, si el razonamiento está encerrado entre etiquetas <think>...</think>) y la coherencia del lenguaje.

2.2 Descartando las recompensas de salida basadas en modelos (ORM)

DeepSeek-R1 incluso abandona un enfoque alternativo “ORM”, donde un modelo separado juzga o puntúa las salidas, debido a preocupaciones similares sobre la alucinación, la posible manipulación de recompensas y la inestabilidad. A pesar de las ventajas de los métodos de “recompensa densa” en algunas tareas, el equipo valora la simplicidad, estabilidad y robustez que ofrece un enfoque puramente basado en reglas.

3. Estrategia de entrenamiento: De “cero” a un proceso de varias etapas

El entrenamiento de DeepSeek-R1 se puede dividir en fases distintas:

DeepSeek-R1-Zero
- Punto de partida: Tomar DeepSeek-V3-Base (o un modelo base preentrenado similar) y aplicar RL directamente, sin ningún SFT inicial.
- Método: Usar una recompensa basada en reglas combinada con el algoritmo GRPO (Generalized Rejection Policy Optimization).
- Objetivo: Maximizar la corrección en tareas matemáticas/de programación y asegurar ciertas reglas de formato.
- Resultados:
  - Las salidas del modelo se vuelven más largas durante el entrenamiento, mostrando signos tempranos de introspección o autorreflexión en sus respuestas.
  - Sin embargo, el texto puede ser difícil de leer y hay una mezcla de idiomas.
Transición a DeepSeek-R1 completo
- Si bien R1-Zero aumenta con éxito el rendimiento del razonamiento, todavía tiene dificultades con la legibilidad y la coherencia lingüística.
- El equipo luego agrega una pequeña cantidad de datos de alta calidad para realizar SFT, mejorando así la claridad y la coherencia generales. Después de este inicio en frío de SFT, reanudan RL para impulsar aún más el rendimiento.
La canalización de entrenamiento final de R1 consta de cuatro pasos:
1. SFT mínimo con datos de alta calidad
  - Recopilar unos pocos miles de ejemplos seleccionados (por ejemplo, datos CoT detallados).
  - Realizar un SFT corto para que el modelo “hable” de manera más coherente.
2. RL enfocado para el razonamiento
  - Las mismas recompensas basadas en reglas para tareas matemáticas/lógicas que en R1-Zero.
  - Agrega una recompensa de coherencia del lenguaje para reducir la mezcla de varios idiomas en una respuesta.
3. Muestreo por rechazo + SFT
  - Usar el muestreo por rechazo para filtrar las salidas del modelo de la fase anterior, eliminando las respuestas de baja calidad o con formato incorrecto.
  - Incorporar tareas que no son fácilmente juzgadas por un enfoque basado en reglas simple utilizando la verificación de estilo “LLM-como-juez” (por ejemplo, de DeepSeek-V3).
  - Combinar ~60k–600k (dependiendo de la mención del conjunto de datos exacto) muestras de razonamiento filtradas con ~20k–200k muestras de no razonamiento para realizar otra ronda de SFT (2 épocas).
4. RL para cobertura completa
  - Para diferentes tipos de tareas, el modelo utiliza diferentes indicaciones y reglas de recompensa.
  - Las tareas matemáticas/lógicas continúan dependiendo de la puntuación basada en reglas original.
  - Las “tareas generales” utilizan un modelo de recompensa estándar para la utilidad y la seguridad.
Al final, DeepSeek-R1 logra un equilibrio entre el rendimiento del razonamiento y las cualidades orientadas al usuario, como la claridad y la inocuidad, igualando eficazmente a los modelos de primer nivel en muchos puntos de referencia.

4. Observaciones: Pérdida KL y GRPO vs. PPO

DeepSeek-R1 utiliza GRPO para su fase RL, lo que lo distingue de métodos como PPO:

PPO comúnmente multiplica el término de penalización KL por la recompensa antes de calcular el gradiente de política final.
GRPO en cambio resta un término KL directamente, normalmente con un estimador especializado (K3) para asegurar una varianza menor.

Este enfoque hace que el entrenamiento sea más estable, especialmente cuando solo se muestrean tokens parciales. Evita la mayor varianza que proviene del uso de estimaciones de Monte Carlo directas de KL.

5. Ecos de AlphaGo: Por qué “cero” se siente familiar

Los lectores a menudo notan paralelismos con AlphaGo porque los autores también probaron MCTS (Monte Carlo Tree Search) y un enfoque “similar a cero”:

R1-Zero es paralelo a AlphaGo Zero en que comienza con datos mínimos o nulos supervisados.
AlphaGo usó registros de juegos humanos para una política supervisada inicial, luego el juego automático llevó a AlphaZero. Por el contrario, DeepSeek realiza un flujo de trabajo casi inverso: R1-Zero primero hace RL desde cero, luego agrega algo de SFT.

En última instancia, los intentos de DeepSeek de usar MCTS en el razonamiento del lenguaje encontraron obstáculos (gran factor de ramificación, dificultad para entrenar un modelo de valor de grano fino, etc.), por lo que MCTS no se consideró exitoso en la canalización final.

6. Resultados experimentales y puntos de referencia

En una gama de tareas de alta dificultad (razonamiento matemático, compleción de código, QA compleja), DeepSeek-R1 ofrece un rendimiento comparable a OpenAI-o1-1217, colocándolo en el grupo líder de LLM con capacidad de razonamiento.

Mientras tanto, el R1-Zero intermedio ya muestra ganancias sustanciales sobre la línea de base en tareas de razonamiento. Sin embargo, produce una salida más incómoda o con mezcla de idiomas. Por lo tanto, los pasos de SFT introducidos posteriormente mejoran la experiencia del usuario y la fiabilidad, al tiempo que continúan preservando o incluso mejorando las sólidas capacidades de razonamiento del modelo.

7. Destilación del conocimiento y modelos pequeños

Los autores señalan que simplemente destilar DeepSeek-R1 en modelos más pequeños (por ejemplo, Qwen2.5-32B) puede producir resultados que están a la par con el entrenamiento RL de modelos pequeños más costoso. Este es un argumento convincente de que, en lugar de realizar una canalización RL completa en un modelo pequeño, se podrían recopilar eficientemente salidas de alta calidad de un modelo más capaz (como R1) y luego realizar un ajuste fino supervisado en estas salidas.

Resultado:

Se informa que el DeepSeek-R1-32B destilado alcanza un rendimiento cercano a OpenAI-o1-mini a una fracción del costo de desarrollar un modelo pequeño desde cero con RL.

8. Desafíos y futuras direcciones

Habilidades de propósito general
- DeepSeek-R1 se centra en tareas de razonamiento, pero aún se queda corto con respecto a DeepSeek-V3 en algunos dominios generales. El equipo planea mejorar la cobertura más amplia del modelo, posiblemente utilizando datos CoT o datos específicos del dominio más extensos.
Mezcla de idiomas y soporte multilingüe
- Aunque R1 tiene controles de coherencia del lenguaje para chino e inglés, todavía tiene dificultades con otros idiomas o escenarios de cambio de idioma.
Sensibilidad a la ingeniería de indicaciones
- R1 puede ser sensible a las indicaciones de varios turnos o de pocos ejemplos. Los autores recomiendan un enfoque de disparo cero, simplemente especificando el formato de salida deseado para obtener resultados óptimos.
Ingeniería de software y evaluaciones largas
- Debido a que las tareas de código pueden tardar más en verificarse, el RL a gran escala es más difícil. DeepSeek-R1 muestra mejoras en las pruebas de software, pero no un salto dramático sobre DeepSeek-V3. Los planes futuros incluyen la evaluación asíncrona para acelerar el RL en tareas de programación.
Escalado a 600B y más allá
- El artículo no demuestra completamente si este enfoque sigue siendo estable y eficaz a escalas extremas (por ejemplo, 600B parámetros). Esta es otra área abierta que el equipo podría explorar.

9. Conclusión

DeepSeek-R1 demuestra que el SFT masivo no es un requisito absoluto para aumentar significativamente la capacidad de razonamiento de un modelo lingüístico. Al aprovechar una recompensa basada en reglas simple pero robusta, omitiendo o minimizando el SFT al principio y luego integrando un pequeño conjunto de datos seleccionados más fases repetidas de RL, R1 logra un rendimiento de última generación en puntos de referencia desafiantes.

El estudio también destaca cómo la destilación del conocimiento, tomar salidas de un modelo más potente (R1) para entrenar un modelo más pequeño, puede ser más eficiente y producir resultados superiores que hacer que el modelo pequeño se someta directamente a un entrenamiento RL extenso.

Si bien DeepSeek-R1 todavía tiene algunas lagunas en la generalidad y sigue siendo sensible a las indicaciones, señala el camino hacia un futuro donde el RL híbrido + SFT mínimo puede producir LLM potentes, flexibles y más controlables. Este documento establece un hito prometedor, mostrando que con las recompensas adecuadas y las fases de entrenamiento iterativas, los modelos pueden “descubrir” la autorreflexión, el razonamiento extendido y el rendimiento robusto sin anotación paso a paso a gran escala.