Informe Técnico de Wan: La Potencia de Código Abierto de Alibaba para la Generación de Video con IA

Por
CTOL Editors - Ken
9 min de lectura

Wan: La Potencia de Código Abierto de Alibaba para la Generación de Vídeos con IA

A principios de 2024, Sora de OpenAI iluminó el mundo de la IA al generar vídeos con un nivel de realismo antes reservado para Hollywood. Aunque son impresionantes, modelos como Sora están cerrados a cal y canto, lo que deja a la comunidad de código abierto luchando por alcanzarles. Eso cambia ahora.

Wan, desarrollado por Alibaba Group, es un innovador conjunto de modelos de base de vídeo de código abierto. Diseñado para salvar la distancia entre los generadores de vídeo de calidad comercial y el mundo del código abierto, Wan no es solo un logro técnico, sino una declaración de intenciones. Con un rendimiento competitivo, una amplia gama de aplicaciones y una eficiencia sorprendente (incluso en GPU de consumo), Wan redefine lo que es posible con los modelos generativos abiertos.


Rompiendo el Cuello de Botella: Por Qué Era Necesario Construir Wan

La generación de vídeo ha evolucionado rápidamente, pero los principales retos siguen limitando su uso e innovación generalizados. La mayoría de los modelos de código abierto siguen estancados en tareas limitadas como la conversión básica de texto a vídeo y tienen dificultades con el movimiento de alta fidelidad, el soporte multilingüe o el despliegue eficiente. Mientras tanto, los modelos comerciales están avanzando a pasos agigantados, respaldados por una inmensa potencia informática y datos privados.

Wan se creó para resolver este desequilibrio. Está diseñado para ser abierto, escalable y, quizás lo más importante, capaz de generar vídeos que se sientan dinámicos, fundamentados y matizados. Imagina nieve arremolinándose, carteles legibles tanto en chino como en español, y movimientos de cámara que tienen sentido en el espacio físico. Todo ello respaldado por un conjunto de modelos reproducible, modular y diseñado para la escala.


Ingeniería del Núcleo: Dentro de la Arquitectura de Nueva Generación de Wan

En el corazón de Wan se encuentra una arquitectura altamente optimizada compuesta por tres componentes principales: un VAE espacio-temporal, un transformador de difusión y un codificador de texto multilingüe. Cada parte ha sido diseñada no solo para el rendimiento, sino también para la usabilidad en tareas del mundo real.

El Wan-VAE es responsable de comprimir los vídeos tanto en el tiempo como en el espacio. Es un autoencoder variacional causal 3D que reduce el volumen de datos de vídeo en más de 250 veces, manteniendo al mismo tiempo detalles de movimiento precisos. Utilizando convoluciones causales y un ingenioso mecanismo de caché de características, permite el procesamiento eficiente de vídeos de larga duración, un punto débil para la mayoría de los modelos de vídeo.

Complementando esto está el Transformador de Difusión, un modelo transformador puro diseñado para procesar estas características latentes comprimidas. Utiliza la atención espacio-temporal completa para razonar sobre la secuencia y el diseño del contenido de vídeo. Lo que es impresionante aquí es el uso de Flow Matching: un nuevo método de entrenamiento que evita la predicción iterativa de ruido en favor de un modelado ODE más estable y matemáticamente fundamentado.

Para interpretar las indicaciones del usuario y guiar la generación, Wan utiliza umT5, un codificador de texto multilingüe. Es capaz de manejar instrucciones complejas y descriptivas tanto en inglés como en español, asegurando que el modelo no solo genere vídeo, sino que siga las indicaciones.

Arquitectura Wan
Arquitectura Wan


La Columna Vertebral de Datos: Cómo Wan Fue Entrenado con Billones de Tokens

Un modelo es tan bueno como los datos con los que se entrena, y el pipeline de datos de Wan es una clase magistral en la ingeniería moderna de conjuntos de datos. Se seleccionaron, limpiaron y enriquecieron más de miles de millones de imágenes y vídeos para entrenar este modelo.

El proceso comenzó con un filtrado a gran escala, eliminando el contenido con marcas de agua, el material NSFW, las imágenes excesivamente borrosas y los clips de baja resolución. Pero Wan fue más allá. Introdujo un clasificador de calidad de movimiento para priorizar los vídeos con movimientos suaves y expresivos y una relación equilibrada entre movimiento y estática. Mientras tanto, un pipeline de texto visual procesó muestras de texto en imagen sintéticas y del mundo real, impulsando la capacidad de Wan para renderizar texto en pantalla de forma legible y precisa.

Para dar al modelo una comprensión más profunda de lo que está sucediendo en cada fotograma, Alibaba construyó su propio sistema de subtitulado denso, entrenado para rivalizar incluso con Gemini 1.5 Pro de Google. Este sistema etiqueta elementos como ángulo de cámara, recuento de objetos, tipos de movimiento, categorías de escena y más, creando un conjunto de entrenamiento ricamente anotado para tareas posteriores como la edición y la personalización.


Modelos Grandes, Huellas Pequeñas: Conozca Wan 1.3B y 14B

Wan viene en dos versiones: el modelo de 1.3B de parámetros y el modelo insignia de 14B de parámetros, más potente. Ambos son capaces de producir vídeo de alta resolución de hasta 480p, y ambos comparten la misma arquitectura robusta.

¿La verdadera sorpresa? El modelo 1.3B está diseñado para ejecutarse en GPU de consumo con solo 8.19 GB de VRAM. Eso cambia las reglas del juego. Significa que los artistas, desarrolladores y pequeños estudios pueden acceder a la generación de vídeo de alta calidad sin necesidad de un rack de A100.

El modelo 14B, por el contrario, está diseñado para superar los límites. Entrenado con billones de tokens, destaca en la consistencia de vídeo de larga duración, el movimiento realista y el seguimiento de indicaciones textuales complejas. Ya sea generando escenas naturales o animaciones estilizadas, el modelo 14B demuestra que el código abierto puede ser competitivo en la frontera.


Yendo Cara a Cara: Cómo Wan Se Compara Con la Competencia

Tanto en las evaluaciones de referencia como en las pruebas de preferencia humana cara a cara, Wan siempre sale ganando. No solo supera a los modelos de código abierto como Mochi y HunyuanVideo, sino que también compite favorablemente con pesos pesados comerciales como Runway Gen-3.

No se trata solo de calidad, sino de control. Wan permite el movimiento de cámara de grano fino, el renderizado de texto visual, el seguimiento de indicaciones y la diversidad de estilos, áreas en las que los modelos anteriores tenían dificultades o requerían un ajuste manual.

Además, en los estudios de ablación, el equipo de Wan demostró que su función de pérdida de coincidencia de flujo y su estrategia de subtitulado denso fueron fundamentales para lograr una alineación y coherencia tan sólidas. Esto hace que Wan no solo sea bueno, sino con principios: un conjunto de modelos en el que cada elección de diseño se valida y optimiza.

Puntuaciones de rendimiento del modelo en Vbench.

Nombre del ModeloPuntuación de CalidadPuntuación SemánticaPuntuación Total
MiniMax-Video-01 (MiniMax, 2024.09)84.85%77.65%83.41%
Hunyuan (Versión de Código Abierto) (Kong et al., 2024)85.09%75.82%83.24%
Gen-3 (2024-07) (Runway, 2024.06)84.11%75.17%82.32%
CogVideoX1.5-5B (5s SAT prompt-optimized) (Yang et al., 2025b)82.78%79.76%82.17%
Kling (2024-07 high-performance mode) (Kuaishou, 2024.06)83.39%75.68%81.85%
Sora (OpenAI, 2024)85.51%79.35%84.28%
Wan 1.3B84.92%80.10%83.96%
Wan 14B (2025-02-24)86.67%84.44%86.22%

Velocidad, Escala y Eficiencia: Un Modelo Que Realmente Puedes Usar

La eficiencia de entrenamiento e inferencia es donde Wan brilla aún más. Durante el entrenamiento, Alibaba utiliza un sofisticado esquema de paralelismo de contexto 2D (Ulysses + Ring Attention), reduciendo la sobrecarga de comunicación entre las GPU. Durante la inferencia, introdujeron el almacenamiento en caché de difusión, explotando las similitudes entre los pasos de muestreo para acelerar las cosas.

Combinado con la cuantificación FP8 y la descarga de activación, Wan logra velocidades de generación en tiempo real o casi en tiempo real. El resultado: una aceleración de 1.62 veces con respecto a los modelos tradicionales, sin una pérdida perceptible en la calidad del vídeo.

Mejoras en la Latencia de Wan
Mejoras en la Latencia de Wan


Más Que Solo Texto a Vídeo: Aplicaciones Reales, Ahora Mismo

Wan no se limita a una sola tarea, es una plataforma. Soporta una gama completa de tareas de vídeo multimodal, incluyendo:

  • Imagen a vídeo: Convierte una sola imagen en una escena dinámica.
  • Edición de vídeo instructiva: Modifica clips utilizando comandos en lenguaje natural.
  • Generación personalizada: Personalización sin ejemplos para avatares o contenido de marca.
  • Control de cámara: Ajusta el zoom, el paneo o el punto de vista utilizando texto.
  • Generación de vídeo en tiempo real: Gracias al almacenamiento inteligente en caché y a los modelos ligeros.
  • Generación de audio: Sonido sincronizado para acompañar las imágenes generadas.

Tanto si eres un cineasta, un educador, un publicista o un desarrollador de juegos, Wan puede adaptarse a tus necesidades.


El Panorama General: Lo Que Wan Significa Para la Investigación y la Industria

Desde un punto de vista académico, Wan es un tesoro. Con código abierto, pesos abiertos y metodologías de entrenamiento transparentes, establece un nuevo estándar de reproducibilidad en la comunidad de generación de vídeo. Los investigadores pueden construir sobre sus módulos, ejecutar evaluaciones y afinar el sistema para dominios novedosos.

En el ámbito empresarial, Wan abre la puerta a la generación de contenido rentable y de alta calidad. Vídeos de marketing, explicaciones educativas, clips para redes sociales: ahora se pueden crear a escala sin pagar tarifas por fotograma a las API de caja negra. Ofrece a los creadores, las empresas emergentes y las empresas una seria ventaja competitiva.


Lo Que Sigue: El Camino a Seguir Para Wan

Wan ya es uno de los modelos de generación de vídeo más capaces disponibles, pero su hoja de ruta apenas está comenzando. El equipo planea avanzar hacia la generación de 1080p y 4K, integrar la conciencia 3D y ampliar el soporte multilingüe para una mayor accesibilidad global.

También están trabajando en la narración interactiva, donde los modelos generan vídeo basándose en los comentarios de los usuarios en tiempo real, y en los adaptadores plug-and-play para verticales como la sanidad, la educación y los juegos.


Dónde Probarlo

Todo está disponible ahora mismo:

Tanto si eres un investigador, un artista, una startup o simplemente tienes curiosidad, Wan está abierto y listo.


TL;DR (Resumen)

Wan es el conjunto de generación de vídeo de código abierto más potente hasta la fecha. Con una arquitectura de vanguardia, un entrenamiento riguroso y una amplia accesibilidad, no solo compite con los modelos cerrados, sino que establece un nuevo punto de referencia para lo que puede lograr la IA abierta.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal