La nueva IA generadora de video de Runway, Gen-3, ofrece controles mejorados

La nueva IA generadora de video de Runway, Gen-3, ofrece controles mejorados

La carrera por los vídeos de alta calidad generados por IA se está calentando.

El lunes, Runway, una empresa que crea herramientas de inteligencia artificial generativa dirigidas a creadores de contenido de imágenes y películas, presentó Gen-3 Alfa. El último modelo de IA de la compañía genera videoclips a partir de descripciones de texto e imágenes fijas. Runway dice que el modelo ofrece una mejora “importante” en la velocidad de generación y la fidelidad con respecto al modelo de video insignia anterior de Runway, Gen-2, así como controles detallados sobre la estructura, el estilo y el movimiento de los videos que crea.

Gen-3 estará disponible en los próximos días para los suscriptores de Runway, incluidos los clientes empresariales y los creadores del programa de socios creativos de Runway.

“Gen-3 Alpha sobresale en generar personajes humanos expresivos con una amplia gama de acciones, gestos y emociones”, escribió Runway. en una publicación en su blog. “Fue diseñado para interpretar una amplia gama de estilos y terminología cinematográfica. [and enable] transiciones imaginativas y encuadres clave precisos de los elementos de la escena”.

Gen-3 Alpha tiene sus limitaciones, incluido el hecho de que su metraje alcanza un máximo de 10 segundos. Sin embargo, el cofundador de Runway, Anastasis Germanidis, promete que Gen-3 es solo el primero (y el más pequeño) de varios modelos de generación de video que vendrán en una familia de modelos de próxima generación entrenados en una infraestructura mejorada.

“El modelo puede tener problemas con interacciones complejas entre personajes y objetos, y las generaciones no siempre siguen las leyes de la física con precisión”, dijo Germanidis a TechCrunch esta mañana en una entrevista. “Este lanzamiento inicial admitirá generaciones de alta resolución de 5 y 10 segundos, con tiempos de generación notablemente más rápidos que Gen-2. Un clip de 5 segundos tarda 45 segundos en generarse y un clip de 10 segundos tarda 90 segundos en generarse”.

Gen-3 Alpha, como todos los modelos de generación de videos, fue entrenado con una gran cantidad de ejemplos de videos (e imágenes) para poder “aprender” los patrones en estos ejemplos para generar nuevos clips. ¿De dónde provienen los datos de entrenamiento? Runway no lo diría. Hoy en día, pocos proveedores de IA generativa ofrecen voluntariamente dicha información, en parte porque ven los datos de entrenamiento como una ventaja competitiva y, por lo tanto, los mantienen junto con la información relacionada con ellos en secreto.

“Tenemos un equipo de investigación interno que supervisa toda nuestra capacitación y utilizamos conjuntos de datos internos seleccionados para entrenar nuestros modelos”, dijo Germanidis. Lo dejó así.

Una muestra del modelo Gen-3 de Runway. Tenga en cuenta que la borrosidad y la baja resolución provienen de una herramienta de conversión de video a GIF que utilizó TechCrunch, no de Gen-3.
Créditos de imagen: Pista

Los detalles de los datos de capacitación también son una fuente potencial de demandas relacionadas con la propiedad intelectual si el proveedor se capacitó con datos públicos, incluidos datos protegidos por derechos de autor de la web, lo que constituye otro desincentivo para revelar mucho. Varios casos que se abren camino en los tribunales rechazan las demandas de los vendedores defensas de datos de entrenamiento de uso legítimoargumentando que las herramientas de inteligencia artificial generativa replican los estilos de los artistas sin su permiso y permiten a los usuarios generar nuevas obras que se asemejan a las originales de los artistas por las cuales los artistas no reciben pago.

Runway abordó un poco la cuestión de los derechos de autor y dijo que consultó con artistas para desarrollar el modelo. (¿Qué artistas? No está claro). Eso refleja lo que Germanidis me dijo durante una charla informal en la conferencia Disrupt de TechCrunch en 2023:

“Estamos trabajando estrechamente con los artistas para determinar cuáles son los mejores enfoques para abordar este problema”, dijo. “Estamos explorando varias asociaciones de datos para poder seguir creciendo… y construir la próxima generación de modelos”.

Runway también dice que planea lanzar Gen-3 con un nuevo conjunto de medidas de seguridad, incluido un sistema de moderación para bloquear los intentos de generar videos a partir de imágenes con derechos de autor y contenido que no esté de acuerdo con los términos de servicio de Runway. También se está trabajando en un sistema de procedencia, compatible con el estándar C2PA, respaldado por Microsoft, Adobe, OpenAI y otros, para identificar que los videos provienen de Gen-3.

“Nuestro nuevo y mejorado sistema interno de moderación visual y de texto emplea supervisión automática para filtrar contenido inapropiado o dañino”, dijo Germanidis. “La autenticación C2PA verifica la procedencia y autenticidad de los medios creados con todos los modelos Gen-3. A medida que aumenten las capacidades del modelo y la capacidad de generar contenido de alta fidelidad, continuaremos invirtiendo significativamente en nuestros esfuerzos de alineación y seguridad”.

Pista Gen-3
Créditos de imagen: Pista

Runway también ha revelado que se ha asociado y colaborado con “organizaciones líderes en entretenimiento y medios” para crear versiones personalizadas de Gen-3 que permitan personajes más consistentes y “estilísticamente controlados”, dirigidos a “requisitos artísticos y narrativos específicos”. La empresa añade: “Esto significa que los personajes, fondos y elementos generados pueden mantener una apariencia y un comportamiento coherentes en varias escenas”.

Un problema importante sin resolver con los modelos de generación de vídeo es el control, es decir, lograr que un modelo genere un vídeo consistente y alineado con las intenciones artísticas del creador. Como escribió recientemente mi colega Devin Coldewey, cuestiones simples en el cine tradicional, como elegir un color en la ropa de un personaje, requieren soluciones con modelos generativos porque cada toma se crea independientemente de las demás. A veces ni siquiera las soluciones alternativas funcionan, lo que deja un extenso trabajo manual a los editores.

Runway ha recaudado más de 236,5 millones de dólares de inversores, incluidos Google (con quien tiene créditos de computación en la nube) y Nvidia, así como de capital de riesgo como Amplify Partners, Felicis y Coatue. La empresa se ha alineado estrechamente con la industria creativa a medida que crecen sus inversiones en tecnología de inteligencia artificial generativa. Runway opera Runway Studios, una división de entretenimiento que actúa como socio de producción para clientes empresariales y organiza el AI Film Festival, uno de los primeros eventos dedicados a exhibir películas producidas total o parcialmente por AI.

Pero la competencia es cada vez más feroz.

Pista Gen-3
Créditos de imagen: Pista

La startup de IA generativa Luma la semana pasada Anunciado Dream Machine, un generador de vídeos que se ha vuelto viral por su capacidad para animar memes. Y hace apenas un par de meses, Adobe reveló que está desarrollando su propio modelo de generación de video basado en contenido de su biblioteca multimedia de Adobe Stock.

En otros lugares, hay titulares como Sora de OpenAI, que sigue estando estrechamente cerrado pero que OpenAI ha estado sembrando con agencias de marketing y directores de cine independientes y de Hollywood. (La directora de tecnología de OpenAI, Mira Murati, estuvo presente en el Festival de Cine de Cannes de 2024). El Festival de Tribeca de este año, que también tiene una asociación con Runway para seleccionar películas realizadas con herramientas de inteligencia artificial, presentó cortometrajes producidos con Sora por directores a quienes se les dio acceso anticipado.

Google también ha puesto su modelo de generación de imágenes, Veo, en manos de creadores selectos, incluido Donald Glover (también conocido como Childish Gambino) y su agencia creativa Gilga, mientras trabaja para llevar Veo a productos como YouTube Shorts.

Independientemente de cómo se desarrollen las diversas colaboraciones, una cosa está quedando clara: las herramientas de vídeo de IA generativa amenazan con trastornar la industria del cine y la televisión tal como la conocemos.

Pista Gen-3
Créditos de imagen: Pista

El cineasta Tyler Perry dijo recientemente que suspendió una expansión planificada de 800 millones de dólares de su estudio de producción después de ver lo que Sora podía hacer. Joe Russo, el director de películas de Marvel como “Avengers: Endgame”, predice que dentro de un año la IA podrá crear una película completa.

Un 2024 estudiar Encargado por Animation Guild, un sindicato que representa a los animadores y caricaturistas de Hollywood, encontró que el 75% de las productoras cinematográficas que han adoptado la IA han reducido, consolidado o eliminado puestos de trabajo después de incorporar la tecnología. El estudio también estima que para 2026, más de 100.000 empleos en el sector del entretenimiento en Estados Unidos se verán afectados por la IA generativa.

Se necesitarán protecciones laborales muy sólidas para garantizar que las herramientas de generación de videos no sigan los pasos de otras tecnologías de inteligencia artificial generativa y conduzcan a fuertes caídas en la demanda de trabajo creativo.

Fuente