Open AI lanza Sora, su modelo inteligencia artificial para la creación ...

16 Feb 2024

La Vanguardia

La inteligencia artificial (IA) sigue dando pasos de gigante para hacer indistinguible la realidad de la ficción. Open AI, la compañía responsable de ChatGPT acaba de lanzar Sora, su nuevo modelo de IA generativa "que puede crear escenas realistas e imaginativas a partir de instrucciones de texto", según se explica en la web del proyecto. Y a la vista de los resultados es verdaderamente así.

Lo anunció ayer Sam Altman, director ejecutivo de Open IA, de en X y al instante esta red social se llenó de video de todo tipo creados con esta nueva herramienta. Desde escenas futuristas, a clips de dibujos animados o escenas de un pueblo del Oeste americano que cuelan perfectamente como filmación antigua o vintage. De momento solo hasta un minuto de duración y mediante instrucciones textuales. Sora también puede alargar vídeos ya existentes.

Video

Open IA SORA: Una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad

De momento, Sora no está abierto al público general. De momento está abierto para un pequeño grupo de "artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos". Por otra parte, el denominado equipo rojo de Open AI (expertos en áreas como desinformación y contenido que incita al odio y prejuicios) está evaluando "áreas críticas en busca de daños o riesgos".

Pero ya en este momento temprano de su desarrollo, las capacidades de Sora son sorprendentes, ya que es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos de los protagonistas y del fondo. Según sus creadores, "el modelo comprende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico".

En el casi medio centenar de vídeos generados con Sora, que se han publicado en la web del proyecto, se muestran imágenes con personajes que resultan convincentes y con una gran consistencia visual a lo largo de los distintos planos y tomas que la IA también es capaz de generar. Esto, según sus responsables, demuestra que "el modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes que expresan emociones vibrantes".

Video

Open IA SORA: Un joven de unos 20 años está sentado en una nube en el cielo, leyendo un libro.

Con todo, en su versión actual y que se dio a conocer ayer, aún presenta algunas limitaciones. Aún tiene dificultades, como reconocen desde Open AI, "para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco". Del mismo modo, "también puede confundir los detalles espaciales de un prompt, por ejemplo, mezclando izquierda y derecha -como se observa en el video del hombre corriendo en la cinta de ejercicios-, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica".

Como suele ser habitual ante cualquier salto adelante de la IA, surgen de inmediato las preocupaciones del mal uso que se puede hacer de una herramienta como Sora. En este sentido, cabe recordar que Sora no es la primera herramienta generativa de vídeos. El laboratorio Midjourney tiene un bot en Discord con el que es posible generar videos cortos mediante instrucciones textuales. O Stable Diffussion, otro modelo con el que también se pueden crear vídeos, aunque de solo entre 2 y 5 segundos.

Video

Open IA SORA: Escena de impresión escalonada de una persona corriendo, película cinematográfica filmada en 35 mm. Debilidad: Sora a veces crea movimientos físicamente inverosímiles.

En cualquier caso, las capacidades de estos dos modelos quedan muy atrás de las de Sora, a la que -por ejemplo- se le podría lanzar la petición de que hiciera un vídeo de soldados del ejército que se quisiera entrando en un hospital y matando a médicos y pacientes y que las imágenes tuvieran el mismo estilo de las que emiten las televisiones de todo el mundo en cualquier conflicto bélico. A partir de este ejemplo, la lista de malos usos imaginables es larguísima, aunque no difieren mucho de los más habituales siempre que se habla de los conflictos éticos de cualquier modelo de IA.

Por esta razón, Open AI ha explicado que ya está tomando precauciones en este sentido y asegura que ya está trabajando en la creación de "herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video", basándose en la experiencia adquirida en el desarrollo de DALL·E 3, el modelo de creación de imágenes de Open AI, que también son aplicables a Sora.

De este modo, cuando Sora esté integrado en algún otro producto de Open AI y se abra al público, se rechazarán las solicitudes de ingreso de texto que pidan generar vídeos que muestren "violencia extrema, contenido sexual, imágenes de odio o imágenes de celebridades", aseguran. Pero desde esta compañía reconocen lo inevitable y que a pesar "de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella".