Los transformadores de difusión son la clave detrás de Sora de OpenAI, y están listos para cambiar radicalmente a GenAI

Sora de OpenAI, que puede generar videos y entornos 3D interactivos sobre la marcha, es una demostración notable de la vanguardia en GenAI: un hito auténtico.

Pero, curiosamente, una de las innovaciones que condujeron a esto, una arquitectura de modelo de IA conocida coloquialmente como transformador de difusión, llegó en la escena de la investigación de IA hace años.

El transformador de difusión, que también impulsa el generador de imágenes más nuevo de Stability AI, Stable Diffusion 3.0, parece estar preparado para transformar el campo GenAI al permitir que los modelos GenAI crezcan más allá de lo que antes era posible.

Saining Xie, profesor de informática en la Universidad de Nueva York, comenzó el proyecto de investigación que generó el transformador de difusión en junio de 2022. Con William Peebles, su aprendiz mientras Peebles realizaba prácticas en el laboratorio de investigación de IA de Meta y ahora codirector de Sora en OpenAI, Xie combinó dos conceptos en el aprendizaje automático: difusión y el transformador — para crear el transformador de difusión.

La mayoría de los generadores de medios modernos impulsados ​​por IA, incluido DALL-E 3 de OpenAI, se basan en un proceso llamado difusión para generar imágenes, videos, discursos, música, mallas 3D, obras de arte y más.

No es la idea más intuitiva, pero básicamente, el ruido se agrega lentamente a un medio (por ejemplo, una imagen) hasta que es irreconocible. Esto se repite para construir un conjunto de datos de medios ruidosos. Cuando un modelo de difusión se entrena con esto, aprende cómo restar gradualmente el ruido, acercándose, paso a paso, a un medio de salida objetivo (por ejemplo, una nueva imagen).

Los modelos de difusión suelen tener una “columna vertebral” o una especie de motor, llamado U-Net. La columna vertebral de U-Net aprende a estimar el ruido que se debe eliminar, y lo hace bien. Pero las U-Nets son complejas y cuentan con módulos especialmente diseñados que pueden ralentizar drásticamente el proceso de difusión.

Afortunadamente, los transformadores pueden reemplazar a los U-Net y ofrecer un aumento de eficiencia y rendimiento en el proceso.

Un vídeo generado por Sora.

Los transformadores son la arquitectura elegida para tareas de razonamiento complejas y alimentan modelos como GPT-4, Gemini y ChatGPT. Tienen varias características únicas, pero, con diferencia, la característica que define a los transformadores es su “mecanismo de atención”. Para cada dato de entrada (en el caso de difusión, ruido de imagen), transformadores pesar la relevancia de todas las demás entradas (otro ruido en una imagen) y extraer de ellas para generar la salida (una estimación del ruido de la imagen).

El mecanismo de atención no sólo hace que los transformadores sean más simples que otras arquitecturas modelo, sino que también hace que la arquitectura sea paralelizable. En otras palabras, se pueden entrenar modelos de transformadores cada vez más grandes con aumentos significativos, pero no inalcanzables, en la computación.

“Lo que los transformadores contribuyen al proceso de difusión es similar a una actualización del motor”, dijo Xie a TechCrunch en una entrevista por correo electrónico. “La introducción de transformadores… marca un salto significativo en escalabilidad y efectividad. Esto es particularmente evidente en modelos como Sora, que se benefician del entrenamiento con grandes volúmenes de datos de video y aprovechan amplios parámetros del modelo para mostrar el potencial transformador de los transformadores cuando se aplican a escala”.

Generado por Difusión Estable 3.

Entonces, dado que la idea de los transformadores de difusión existe desde hace algún tiempo, ¿por qué pasaron años antes de que proyectos como Sora y Stable Diffusion comenzaran a aprovecharlos? Xie cree que la importancia de tener un modelo de columna escalable no salió a la luz hasta hace relativamente poco tiempo.

“El equipo de Sora realmente hizo todo lo posible para mostrar cuánto más se puede hacer con este enfoque a gran escala”, dijo. “Han dejado bastante claro que los U-Nets están fuera y transformadores están en para difusión modelos de ahora en adelante”.

Transformadores de difusión debería ser un simple intercambio para los modelos de difusión existentes, dice Xie, ya sea que los modelos generen imágenes, videos, audio o alguna otra forma de medio. El proceso actual de entrenamiento de transformadores de difusión introduce potencialmente algunas ineficiencias y pérdida de rendimiento, pero Xie cree que esto se puede abordar a largo plazo.

“La conclusión principal es bastante sencilla: olvídese de los U-Nets y cambie a transformadores, porque son más rápidos, funcionan mejor y son más escalables”, afirmó. “Estoy interesado en integrar los dominios de comprensión y creación de contenidos en el marco de los transformadores de difusión. Por el momento, son como dos mundos diferentes: uno para comprender y otro para crear. Imagino un futuro en el que estos aspectos se integrarán y creo que lograr esta integración requiere la estandarización de las arquitecturas subyacentes, siendo los transformadores un candidato ideal para este propósito”.

Si Sora y Stable Diffusion 3.0 son un adelanto de lo que podemos esperar de los transformadores de difusión, diría que nos espera un viaje salvaje.

Fuente