El pasado 15 de febrero, OpenAI, la empresa híbrida que tiene en los nombres de sus fundadores a personalidades como Sam Altman y Elon Musk, anunció Sora, su modelo de creación de video a partir de texto. Una configuración que sucede a otros de sus productos estelares como ChatGPT, DALL-E y GPT-4.
“Sora puede generar video de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario”, indica el apartado de capacidad del modelo. “(..) solo está disponible para los miembros del equipo rojo para evaluar áreas críticas en busca de daños o riesgos”. Sin embargo, agregan, están dando acceso a artistas visuales, cineastas y diseñadores para que aporten observaciones críticas en pro de hacer crecer este modelo.
Tal como lo muestran sus videos, acompañados siempre de los prompts, es decir, las descripciones o apuntes de lo que se le pide al modelo realizar, se generan “escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo”. Para ello, dado que esta herramienta ha sido alimentada y entrenada desde hace tiempo, Sora no sólo lo comprende “lo que el usuario ha pedido en el mensaje, sino también como existen esas cosas en el mundo físico”.
Te puede interesar: ¿Quién fue Sasha Montenegro? De vedette a esposa de López Portillo
La investigación de OpenAI en este modelo
Según el informe, que se puede consultar y estudiar enteramente en el sitio de OpenAI, se centra en dos aristas principales: el método propio de la empresa para convertir datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos y la evaluación cualitativa de las capacidades y limitaciones de Sora.
Pese a que los detalles del modelo e implementación no son data consultables, sí apunta qué tipo de métodos se han utilizado para estudiarlo, por ejemplo: redes recurrentes, redes generativas adversarias, transformadores autorregresivos y modelos de difusión.
Destacan, también, recalcando que en tanto que los LLM (Grandes Modelos de Lenguaje, por sus siglas en inglés) tienen tokens de texto, Sora tiene parches visuales, pues descubrieron que estos “son una representación eficaz y altamente escalable para entrenar modelos generativos en diversos tipos de videos e imágenes”.
Asimismo, para ejemplificar el entrenamiento de una red que reduce la dimensionalidad de los datos visuales, explican que la “red toma un video sin procesar como entrada y genera una representación latente que se comprime tanto temporal como espacialmente”. Es donde Sora acciona sus capacidades: luego de entrenada, “genera videos dentro de este espacio latente comprimido”.
Su investigación también se centra en un repaso por los parches latentes del espacio-tiempo, transformadores de escalado para generación de video (uno de los aspectos más extraordinarios del funcionamiento), duraciones, resoluciones y relaciones de aspecto variables, flexibilidad de muestreo, encuadre y composición mejorados, comprensión de lenguajes, entre otras cosas.
Otro de los aspectos relevantes a tomar en cuenta es la animación de imágenes a través de DALL–E, pues Sora es capaz de generar videos tomando como base de entrada una imagen y un mensaje. Los ejemplos mostrados por la plataforma asemejan animaciones introductorias, quizá algo parecido a un GIF’s o un mensaje animado de entrada.
En el apartado de los videos, existen tres detalles destacables de la herramienta. En primer lugar, la ampliación de videos generados, es decir, una extensión en retrospectiva o hacia adelante, pero a partir del mismo segmento. En segundo lugar, la edición de video a video, aplicado a través de SDEdit, lo que “permite a Sora transformar los estilos y entornos de los videos de entrada sin disparo”. Finalmente, la conexión de videos, lo que significa una interpolación gradual entre dos videos de entrada, “creando transiciones perfectas entre videos con temas y composiciones de escenas completamente diferentes”.
En contraste, para un acercamiento más estrecho a la televisión, videojuegos y al cine, quizás no como objeto base, pero sí como punto de llegada, la investigación detalla las capacidades de simulación emergentes, que son, a grandes rasgos, las “capacidades (que) permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico”. Destaca la manera en que las “propiedades surgen sin ningún sesgo inductivo explícito para el 3D, los objetos”, pues son “puramente fenómenos a escala”. Las capacidades arrojadas por la investigación son: Consistencia 3D, Coherencia de largo alcance y permanencia del objeto, Interactuando con el mundo y Simulando mundos digitales.
Por si te lo perdiste: Samsung presenta al nuevo “Galaxy S24” y su nueva IA
“Creemos que las capacidades que Sora tiene hoy demuestran que el escalamiento continuo de modelos de video es un camino prometedor hacia el desarrollo de simuladores capaces del mundo físico y digital, y de los objetos, animales y personas que viven dentro de ellos”, concluyen.
Por: 24 HORAS MÉXICO
JCOL