Los creadores del corto impulsado por Sora explican las fortalezas y limitaciones del video generado por IA

La herramienta de generación de vídeo de OpenAI, Sora, tomó por sorpresa a la comunidad de IA en febrero con un vídeo fluido y realista que parece estar muy por delante de la competencia. Pero el debut cuidadosamente organizado omitió muchos detalles, detalles que fueron completados por un cineasta al que se le dio acceso temprano para crear un corto con Sora.

Shy Kids es un equipo de producción digital con sede en Toronto que OpenAI eligió como uno de los pocos producir cortometrajes esencialmente con fines promocionales de OpenAI, aunque se les dio una libertad creativa considerable en la creación de “cabeza de aire”. en un entrevista con el medio de noticias de efectos visuales fxguideel artista de postproducción Patrick Cederberg describió “realmente usar a Sora” como parte de su trabajo.

Quizás la conclusión más importante para la mayoría es simplemente esta: si bien la publicación de OpenAI que destaca los cortos permite al lector asumir que surgieron más o menos completamente formados de Sora, la realidad es que se trataba de producciones profesionales, completas con un guión gráfico sólido, edición, corrección de color, y trabajos posteriores como rotoscopia y VFX. Así como Apple dice “filmado con iPhone” pero no muestra la configuración del estudio, la iluminación profesional y el trabajo de color después del hecho, la publicación de Sora solo habla de lo que permite hacer a las personas, no de cómo lo hicieron realmente.

La entrevista de Cederberg es interesante y nada técnica, así que si estás interesado en algo, Dirígete a fxguide y léelo.. Pero aquí hay algunas cosas interesantes sobre el uso de Sora que nos dicen que, por muy impresionante que sea, el modelo quizás sea un paso de gigante menor de lo que pensábamos.

El control sigue siendo lo más deseable y también lo más difícil de alcanzar en este momento. … Lo más cerca que pudimos llegar fue simplemente ser hiperdescriptivos en nuestras indicaciones. Explicar el vestuario de los personajes, así como el tipo de globo, fue nuestra forma de lograr la coherencia porque, plano a plano/generación en generación, todavía no existe la característica establecida para un control total sobre la coherencia.

En otras palabras, cuestiones que son simples en el cine tradicional, como elegir el color de la ropa de un personaje, requieren soluciones y controles elaborados en un sistema generativo, porque cada plano se crea independientemente de los demás. Obviamente, eso podría cambiar, pero ciertamente es mucho más laborioso en este momento.

También había que vigilar las salidas de Sora para detectar elementos no deseados: Cederberg describió cómo el modelo generaba rutinariamente una cara en el globo que el personaje principal tiene como cabeza, o una cuerda colgando del frente. Estos debían eliminarse en la publicación, otro proceso que requería mucho tiempo, si no recibían el mensaje para excluirlos.

La sincronización y los movimientos precisos de los personajes o de la cámara no son realmente posibles: “Hay un poco de control temporal sobre dónde ocurren estas diferentes acciones en la generación real, pero no es preciso… es una especie de toma en la oscuridad”, dijo Cederberg.

Por ejemplo, cronometrar un gesto como un saludo es un proceso muy aproximado basado en sugerencias, a diferencia de las animaciones manuales. Y una toma como una panorámica hacia arriba en el cuerpo del personaje puede reflejar o no lo que quiere el cineasta, por lo que en este caso el equipo renderizó una toma compuesta en orientación vertical y recortó una panorámica en la posproducción. Los clips generados también a menudo estaban en cámara lenta sin ningún motivo en particular.

Ejemplo de un disparo como salió de Sora y cómo acabó en el corto. Créditos de imagen: niños tímidos

De hecho, el uso del lenguaje cotidiano del cine, como “panorámica hacia la derecha” o “plano de seguimiento”, era inconsistente en general, dijo Cederberg, lo que el equipo encontró bastante sorprendente.

“Los investigadores, antes de acercarse a los artistas para que jugaran con la herramienta, en realidad no habían pensado como cineastas”, dijo.

Como resultado, el equipo hizo cientos de generaciones, cada una de 10 a 20 segundos, y terminó usando solo unas pocas. Cederberg estimó la proporción en 300:1, pero, por supuesto, probablemente a todos nos sorprendería la proporción en una sesión normal.

el equipo en realidad Hice un pequeño video detrás de escena. explicando algunos de los problemas con los que se encontraron, si tiene curiosidad. Como gran parte del contenido adyacente a la IA, Los comentarios son bastante críticos con todo el esfuerzo. – aunque no tan vituperante como el anuncio asistido por IA que vimos ridiculizado recientemente.

El último aspecto interesante tiene que ver con los derechos de autor: si le pides a Sora que te dé un clip de “Star Wars”, se negará. Y si intentas eludirlo con “un hombre vestido con una espada láser en una nave espacial retrofuturista”, también se negará, ya que mediante algún mecanismo reconoce lo que estás tratando de hacer. También se negó a hacer un “plano tipo Aronofsky” o un “zoom de Hitchcock”.

Por un lado, tiene mucho sentido. Pero sí plantea la pregunta: si Sora sabe cuáles son, ¿eso significa que el modelo fue entrenado en ese contenido para reconocer mejor que está infringiendo? OpenAI, que mantiene sus tarjetas de datos de entrenamiento en secreto, hasta el punto del absurdo, como ocurre con Entrevista de la CTO Mira Murati con Joanna Stern – Es casi seguro que nunca nos lo dirá.

En cuanto a Sora y su uso en la realización cinematográfica, es claramente una herramienta poderosa y útil en su lugar, pero su lugar no es “crear películas de la nada”. Todavía. Como dijo una vez otro villano, “eso viene después”.



Fuente