Llegó Sora… van a cambiar muchas cosas

ayer

Enrique Dans

Como parte de sus «12 days of shipmas«, un período de hiperactividad en el que la compañía pretende intensificar su lanzamiento de productos, OpenAI acaba de presentar finalmente Sora, su generador de vídeo a partir de prompts, tras un largo y accidentado período en beta.

El mejor análisis detallado de las prestaciones de Sora que he visto por el momento ha sido el de Marquis Brownlee, que ahonda en lo que el modelo hace bien, hace mal y no hace: muy bien para comics y animación en general, muy lleno de limitaciones para el tratamiento de imágenes reales y su física, y muy lleno de protecciones para intentar evitar que sea utilizado para crear deepfakes de personas reales (algo que únicamente pueden hacer algunos usuarios) o, en general, para usos que puedan ser considerados peligrosos o cuestionables.

El modelo no está disponible en todos los países, pero puede accederse – si tienes suerte y no está saturado – mediante VPN. Su interfaz permite subir vídeos e imágenes, modificar prompts para introducir modificaciones en una serie de vídeos creados por otros usuarios o que aparecen como demostración, y guardártelos como favoritos para su uso posterior, con la posibilidad de hacer carpetas para organizar tus archivos. Revisar los prompts completos de otros vídeos me ha parecido una forma muy buena de aprender y tomar familiaridad con el modelo, y me ha dado la impresión que la longitud media del prompt para definir un vídeo y obtener resultados razonablemente buenos es algo más largo y detallado que lo que utilizamos generalmente en los generadores de imágenes habituales. La herramienta está incluida en los planes de suscripción para los usuarios de pago, ChatGPT Plus y ChatGPT Pro, y permite generar vídeos de hasta treinta segundos con una resolución de hasta 1080p en formato 16:9, vertical o cuadrado, con unos tiempos de creación más que razonables, como medio minuto escaso. Un usuario de ChatGPT Plus puede generar hasta cincuenta vídeos a 480p al mes, o menos si los genera a mayor resolución.

El lanzamiento vuelve a poner de actualidad todas las discusiones que surgieron cuando se presentaron algunas creaciones realizadas con Sora: la responsabilidad de las empresas tecnológicas sobre lo que sus usuarios puedan hacer con sus herramientas. Si bien muchos de los vídeos creados con Sora, particularmente los centrados en escenas hiper-realistas, pueden tener fallos que hacen que sea razonablemente fácil detectarlos como sintéticos, otros generan resultados realmente creíbles, y pueden ser utilizados para la generación de todo tipo de noticias falsas, en un entorno en el que, tradicionalmente, el vídeo solía considerarse una prueba de realidad.

Con Sora, a pesar de las precauciones que pueda tomar la compañía impidiendo la generación de vídeos con personajes reales o posiblemente sujetos a derechos de autor, esa era ha terminado. En cualquier momento es perfectamente posible que alguien, utilizando Sora, sea capaz de generar un vídeo perfectamente creíble que lleve a engaño a mucha gente y desencadene situaciones inesperadas. La herramienta coloca una marca de agua en la esquina inferior derecha de la imagen para identificar sus creaciones, pero esta puede ser fácilmente recortada con cualquier editor de vídeo sencillo.

Todo ello, además, sabiendo como sabemos que los resultados que ofrece Sora, en los que hay muchas veces errores evidentes o problemas derivados del tratamiento de la física de los objetos, van a ir mejorando a una gran velocidad. La herramienta que probamos ahora mismo no tiene nada que ver con la que podremos utilizar en unos meses o un año en cuanto a calidad de resultados, una progresión que ya hemos visto con los chatbots, y que responde a las leyes de escalado de los algoritmos. Para la siguiente generación, lo normal será, cuando quieras describir algo o contar una historia, hacerlo con un vídeo generado específicamente para ello. Y eso, a todos los efectos, puede tener muchísimas consecuencias.

Con Sora – y pronto, seguro, con herramientas competidoras similares – en el mercado, resulta esencial que actualicemos nuestros criterios y nuestros filtros ante el contenido que recibimos. Mientras muchos les sigue funcionando distorsionar la realidad simplemente cambiando de fecha o de escenario un vídeo y pasándolo como algo que acaba de suceder en un lugar determinado, ahora vamos a encontrarnos con que esos vídeos pueden sintetizarse, crearse desde cero a partir de una descripción, suministrando imágenes o describiendo una escena, un contexto y un estilo. Como juguete de expresión creativa, es sin duda un juguete caro, y no tanto por el precio de la suscripción para acceder a ello, sino por el coste energético que debe suponer la generación de vídeo a gran escala. Pero como herramienta, puede ser brutal, tanto por sus consecuencias de cara a la divulgación de posibles noticias falsas como por sus efectos sobre la industria de la creación de contenidos.