Investigadores de ByteDance y Tsinghua publican DAPO de código abierto para mejorar el aprendizaje de refuerzo de LLM a gran escala

Por
Lang Wang
6 min de lectura

DAPO: Aprendizaje por Refuerzo de Código Abierto para Modelos de Lenguaje Grandes a Escala

Rompiendo las Barreras en el Razonamiento de LLM con Aprendizaje por Refuerzo de Código Abierto

En la carrera por construir Modelos de Lenguaje Grandes (LLM) más inteligentes, la industria ha dependido en gran medida del Aprendizaje por Refuerzo (RL) para mejorar las capacidades de razonamiento. Sin embargo, un desafío persistente ha sido la falta de transparencia: las técnicas de RL de última generación para LLM permanecen ocultas detrás de sistemas propietarios de grandes empresas de IA como OpenAI y DeepSeek. Este secreto no solo sofoca la innovación, sino que también dificulta que los investigadores y las empresas repliquen o construyan sobre estos avances.

Un nuevo esfuerzo de investigación, DAPO (Optimización Desacoplada de Clip y Política de Muestreo Dinámico), tiene como objetivo cambiar esto al abrir completamente un marco de RL escalable para el razonamiento de LLM. Desarrollado por ByteDance Seed, el Instituto de Investigación de la Industria de la IA de la Universidad de Tsinghua y la Universidad de Hong Kong, DAPO ofrece un sistema de RL transparente y de alto rendimiento, liberando no solo el algoritmo, sino también el código de entrenamiento y un conjunto de datos seleccionado. El objetivo: democratizar el razonamiento de LLM con RL y acelerar el progreso en la investigación de la IA y las aplicaciones de la industria.

Innovaciones Clave de DAPO

En el corazón de DAPO se encuentra un novedoso enfoque de RL que mejora el razonamiento en los LLM. La eficacia del sistema se ha demostrado a través de su rendimiento en el conjunto de datos de problemas matemáticos AIME 2024, donde alcanza 50 puntos utilizando el modelo base Qwen2.5-32B, superando los puntos de referencia anteriores y requiriendo menos pasos de entrenamiento.

1. Apertura de un Sistema Completo de Aprendizaje por Refuerzo

A diferencia de la mayoría de los modelos propietarios, DAPO proporciona un proceso de entrenamiento de RL totalmente abierto, que incluye:

  • Algoritmo DAPO – Un método de RL refinado basado en GRPO (Optimización de Política de Refuerzo Generalizada).
  • Código de Entrenamiento (marco verl) – Código de RL práctico y escalable para el entrenamiento de LLM.
  • Conjunto de Datos Seleccionado – Un conjunto de datos procesado específicamente para el razonamiento matemático y el entrenamiento de RL.

2. Innovaciones Algorítmicas: Cuatro Técnicas Clave

DAPO integra cuatro mejoras técnicas principales que mejoran la eficiencia y la estabilidad del entrenamiento de RL para LLM:

  • Clip-Superior: Los modelos de RL tradicionales utilizan técnicas de recorte para evitar fluctuaciones extremas de los valores, pero esto a menudo conduce al colapso de la entropía, lo que hace que el modelo sea demasiado determinista. DAPO desacopla los umbrales de recorte inferior y superior, fomentando una generación de tokens más diversa y una mejor exploración.
  • Muestreo Dinámico: Muchos procesos de entrenamiento de RL desperdician recursos computacionales en avisos redundantes. DAPO filtra los avisos ineficaces (aquellos que producen muestras de gradiente cero), lo que garantiza que cada lote de entrenamiento sea significativo y acelera la convergencia.
  • Pérdida del Gradiente de la Política a Nivel de Token: En lugar de tratar una respuesta completa como una sola muestra, DAPO asigna gradientes a nivel de token, lo que permite que las cadenas de razonamiento más largas tengan más peso. Esto es particularmente útil para la resolución de problemas complejos de varios pasos.
  • Modelado de Recompensas Sobrelargas: Los modelos tradicionales penalizan duramente las respuestas largas. DAPO refina este enfoque, escalando la penalización dinámicamente para evitar la pérdida abrupta de información valiosa, lo que conduce a un entrenamiento más estable.

Cómo DAPO Supera a los Modelos Existentes

1. Mayor Precisión en Tareas de Razonamiento Complejas

Los resultados empíricos muestran que DAPO alcanza 50 puntos en AIME 2024, superando la puntuación de 47 de DeepSeek-R1-Zero-Qwen-32B. A diferencia de los modelos anteriores, DAPO alcanza este rendimiento con la mitad de los pasos de entrenamiento, lo que demuestra tanto la eficacia como la eficiencia.

2. Mayor Eficiencia y Estabilidad del Entrenamiento

Al abordar los problemas comunes de RL (colapso de la entropía, ruido de la recompensa y muestreo ineficiente), DAPO agiliza el entrenamiento, reduciendo los costes computacionales necesarios para desarrollar LLM de alto rendimiento.

3. Reproducibilidad Total y Transparencia de Código Abierto

Un problema crítico en la investigación de LLM es la falta de métodos de RL de código abierto verificables. DAPO es uno de los pocos sistemas que proporciona un marco completo de entrenamiento de RL de extremo a extremo, lo que facilita a los investigadores académicos y a las empresas emergentes de IA replicar y ampliar el trabajo.

Impacto en la Industria y los Negocios

1. Aceleración de la Investigación y el Desarrollo de la IA

La disponibilidad de un sistema de entrenamiento de RL de última generación puede acelerar drásticamente la investigación en el razonamiento matemático, la tutoría basada en LLM y otras aplicaciones avanzadas de resolución de problemas. La accesibilidad de código abierto reduce las barreras de entrada, fomentando una participación más amplia en el desarrollo de la IA.

2. Expansión de las Aplicaciones Comerciales de LLM

Las empresas centradas en tareas de razonamiento impulsadas por la IA, desde la atención al cliente automatizada hasta los asistentes de codificación y el modelado financiero, pueden beneficiarse de los avances de DAPO. Al integrar las técnicas de DAPO, las empresas pueden entrenar modelos de IA más capaces y rentables adaptados a los retos específicos de la industria.

3. Reducción de los Costes de Entrenamiento de la IA

Con una mayor eficiencia y una reducción de los pasos de entrenamiento, DAPO hace que sea factible para las empresas más pequeñas y las empresas emergentes entrenar LLM de alto rendimiento sin gastos computacionales masivos. Esto podría conducir a una comercialización más amplia de la IA de razonamiento avanzado más allá de los gigantes tecnológicos.

Retos y Consideraciones

Si bien DAPO presenta una contribución innovadora, deben tenerse en cuenta ciertos factores:

  • Ámbito de Referencia: La eficacia del modelo se ha validado en AIME 2024, un conjunto de datos basado en las matemáticas. Se necesitan evaluaciones adicionales en otros puntos de referencia de razonamiento complejos (por ejemplo, MATH, GSM8K) para confirmar una aplicabilidad más amplia.
  • Requisitos Computacionales: A pesar de la mejora de la eficiencia, el entrenamiento de LLM con RL sigue exigiendo recursos sustanciales de GPU. Si bien DAPO reduce la barrera, las organizaciones más pequeñas aún pueden enfrentarse a problemas de infraestructura.
  • Complejidad de la Implementación: Las técnicas avanzadas de DAPO, en particular la pérdida del gradiente de la política a nivel de token y el modelado de recompensas sobrelargas, requieren una profunda comprensión de los principios de RL, lo que puede plantear retos de adopción para los equipos que no estén familiarizados con el aprendizaje por refuerzo.

Un Cambio Radical para la IA de Código Abierto

DAPO representa un importante salto adelante en el aprendizaje por refuerzo escalable y transparente para el razonamiento de LLM. Al abrir un sistema de RL completo y de alto rendimiento, el equipo de investigación no solo está avanzando en el conocimiento académico, sino que también está capacitando a las empresas y a las empresas emergentes para que desarrollen sus propios modelos de IA sofisticados.

Para los inversores y las empresas que buscan mejorar las capacidades de razonamiento de LLM, DAPO ofrece una oportunidad única: un marco de RL de última generación totalmente accesible que reduce tanto el coste como la complejidad del desarrollo de modelos de IA avanzados. A medida que la adopción de la IA se acelera en todas las industrias, las innovaciones de código abierto como DAPO desempeñarán un papel crucial en la configuración del futuro de la resolución de problemas impulsada por la IA.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal