Sora AI: Revolucionando la Tecnología en España

Sora AI es una innovadora empresa tecnológica que se está ganando un lugar destacado en el panorama tecnológico de España. Con un enfoque en la inteligencia artificial (IA), Sora AI busca transformar diversas industrias, desde la sanidad hasta las finanzas, a través de soluciones inteligentes y eficientes. Este artículo detalla cómo esta empresa está impactando el sector tecnológico en el país y qué el futuro podría deparar.

El jueves pasado, OpenAI presentó Sora, un modelo de inteligencia artificial (IA) de texto a vídeo que es capaz de generar contenido fotorrealista en alta definición de 60 segundos de duración a partir de descripciones por escrito. Aunque únicamente se trata de un avance de investigación que no hemos probado, al parecer crea video sintético, todavía sin audio que le acompañe, con una precisión y uniformidad superiores a las de cualquier modelo similar que esté disponible en la actualidad. Y también está asustando a la gente.

“Fue un placer conocerlos a todos. Por favor, cuéntenles a sus nietos sobre mis videos y los esfuerzos que hicimos para grabarlos”, escribió en X Joanna Stern, la periodista de tecnología de The Wall Street Journal.

“Este podría ser el momento ‘del asco’ de la IA”, escribió Tom Warren de The Verge.

“Cada uno de estos videos es generado por IA y si no te preocupa aunque sea un poco, nada lo hará”, compartió Marques Brownlee, periodista de tecnología en YouTube.

Ponte al día de las noticias que marcan el presente y transforman el futuro directamente en tu WhatsApp: ¡únete ya al canal WIRED!

Para futuras referencias, ya que este tipo de pánico algún día parecerá ridículo, hay una generación de personas que creció creyendo que el video fotorrealista debe ser creado mediante cámaras. Cuando se producía uno, digamos, para las películas de Hollywood, costaba mucho tiempo, dinero y esfuerzo hacerlo, y los resultados no eran perfectos. Eso daba a la gente un nivel básico de seguridad de que lo que veían a distancia era probablemente auténtico, o al menos representativo de algún tipo de realidad implícita. Incluso cuando un niño saltaba sobre la lava, al menos había un humano y una habitación.

De texto a video: la evolución de la IA con Sora

Una tecnología como Sora rompe ese marco de referencia en los medios de comunicación. Muy pronto, todos los videos fotorrealistas que veas en internet podrían ser 100% falsos en todos los sentidos. Además, todo el material histórico que encuentres también podrían resultar ser una falsificación. La forma en que nos enfrentamos a ello como sociedad y trabajamos para evitarlo mientras mantenemos la confianza en las comunicaciones remotas está mucho más allá del alcance de este artículo, pero ya intenté dar algunas soluciones en 2020, cuando todos los avances tecnológicos que tenemos actualmente parecían una fantasía lejana para la mayoría de la gente.

 

En aquel artículo, llamé “singularidad cultural” al momento en que la verdad y la ficción en los medios de comunicación se vuelvan indistinguibles. Parece que OpenAI está en camino de hacer realidad esa predicción un poco antes de lo que esperábamos.

OpenAI descubrió que, al igual que otros modelos de IA que utilizan la arquitectura de transformadores, Sora se adapta a la capacidad de procesamiento disponible. Con computadoras mucho más potentes entre bastidores, la fidelidad mejoraría considerablemente con el tiempo. En otras palabras, este es el “peor” video generado por IA que jamás se verá. Todavía no tiene sonido sincronizado, pero eso se solucionará en los próximos modelos.

Cómo (creemos que) OpenAI logró crear Sora

La síntesis de video con inteligencia artificial ha progresado a pasos agigantados en los últimos dos años. En Ars Technica se dio cobertura por primera vez a los modelos de texto a video en septiembre de 2022 con Make-A-Video de Meta. Un mes después, Google presentó. Y hace solo 11 meses, una versión generada por IA de Will Smith comiendo spaghetti se hizo viral. En mayo del año pasado, lo que hasta entonces se consideraba el favorito en la conversión de texto en video, Runway Gen-2, ayudó a crear un anuncio falso de cerveza lleno de monstruosidades, generadas en incrementos de dos segundos. En los modelos anteriores de generación de video, la gente entra y sale de la realidad con facilidad, sus miembros se unen como si fueran pasta y la física no parece importar.

Sora, que significa “cielo” en japonés, parece ser algo totalmente distinto. Ofrece alta resolución (1920×1080), genera video con uniformidad temporal (manteniendo el mismo sujeto a lo largo del tiempo) que dura hasta 60 segundos, y aparentemente cumple con las instrucciones (prompts) de texto con mucha precisión. ¿Cómo lo logró OpenAI?

OpenAI no suele compartir detalles técnicos internos con la prensa, así que solo nos queda especular con base en las teorías de los expertos y la información divulgada al público.

La empresa explica que Sora es un modelo de difusión, muy parecido a DALL-E 3 y Stable Diffusion. Genera un video empezando con ruido y “lo transforma gradualmente eliminándolo a lo largo de muchos pasos”, explica la compañía. “Reconoce” los objetos y conceptos incluidos en la instrucción escrita y los extrae del ruido, por así decirlo, hasta que surge una serie coherente de fotogramas de video.

Sora es capaz de crear videos de una sola vez a partir de un texto, extender los clips existentes o producir nuevos a partir de imágenes fijas. Consigue la uniformidad temporal dando al modelo “previsión” de muchos fotogramas al mismo tiempo, como lo llama OpenAI, resolviendo el problema de garantizar que un sujeto generado siga siendo el mismo aunque se pierda de vista temporalmente.

OpenAI representa el video como colecciones de grupos más pequeños de datos llamados “parches”, que según la empresa son similares a los tokens (fragmentos de una palabra) en GPT-4. “Al unificar la forma en que representamos los datos, entrenamos a los transformadores de difusión con una gama de datos visuales más amplia de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto”, escribe la compañía.

 

Una herramienta destacada en la bolsa de trucos de OpenAI es que su uso de los modelos de IA es compuesto. Los modelos anteriores ayudan a crear otros más complejos. Sora cumple bien las instrucciones porque, como DALL-E 3, emplea subtítulos sintéticos que describen escenas en los datos de entrenamiento generados por otro modelo de IA como GPT-4V. Y la empresa no se detiene aquí. “Sora sirve de base para modelos que comprendan y simulen el mundo real”, señala OpenAI, “una capacidad que creemos que será un hito importante para lograr la inteligencia artificial general”.

Una pregunta que muchos se hacen es qué información utilizó OpenAI para entrenar a Sora. OpenAI no ha revelado su conjunto de datos, pero por lo que se percibe en los resultados, es posible que esté recurriendo a datos de video sintéticos generados en un motor de videojuegos, además de fuentes de video real, por ejemplo, extraídos de YouTube o de bibliotecas en stock. El doctor Jim Fan de Nvidia, especialista en el entrenamiento de IA con datos sintéticos, escribió en X que “no me sorprendería que Sora se entrenara con muchos datos sintéticos mediante Unreal Engine 5. ¡Tiene que ser así! Tiene que ser así”. Sin embargo, hasta que OpenAI lo confirme, no son más que especulaciones.

Sora como un simulador del mundo

Junto con Sora, OpenAI publicó un documento técnico al respecto llamado “Video generation models as world simulators (Modelos de generación de video como simuladores del mundo)”. Ese análisis merece una inmersión más profunda de la que tenemos tiempo o espacio aquí, pero la manera en que Sora modela el mundo internamente tiene a informáticos como Fan especulando sobre aspectos más profundos en X. “Si crees que OpenAI Sora es un juguete creativo como DALL-E, … piénsalo dos veces. Sora es un motor de física basado en datos”, escribió. “Es una simulación de muchos mundos, reales o fantásticos. El simulador aprende renderizado complejo, física ‘intuitiva’, razonamiento de largo alcance y fundamentación semántica, todo ello mediante algunas matemáticas de eliminación de ruido y gradiente”.

En el documento técnico, OpenAI expone que “descubrimos que los modelos de video muestran una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades emergen sin ningún sesgo inductivo explícito para 3D, objetos, etc.: son puramente fenómenos de escala”.

OpenAI también comprobó que Sora es capaz de simular hasta cierto punto la jugabilidad de Minecraft, lo que nos acerca un paso más al potencial de lo que se denominaría “renderizado neuronal” en los videojuegos. En lugar de renderizar miles de millones de polígonos hechos a mano por artistas, las consolas de videojuegos del futuro podrían generar flujos de video interactivos utilizando técnicas de difusión en tiempo real.

Sin embargo, Sora no es perfecto y OpenAI destaca las deficiencias en su informe técnico. “No modela con precisión la física de muchas interacciones básicas, como el cristal al romperse”, apunta la empresa. “Otras interacciones, como comer algunos alimentos, no siempre producen cambios correctos en el estado de los objetos”. OpenAI también enumera como fallos “las incoherencias que se desarrollan en muestras de larga duración” y “las apariciones espontáneas de objetos”.

También existe escepticismo ante la posibilidad de que tecnologías como Sora no sean la solución universal a la generación de video. El informático Grady Booch publicó que “empiezo a pensar que, aunque sin duda habrá algunos casos de uso interesantes desde el punto de vista económico y creativo, veo fuertes similitudes con el ámbito de los esfuerzos sin código/con poco código. Tanto en el campo visual como en el de la programación, es fácil producir demostraciones llamativas; es sencillo automatizar procesos relativamente sencillos. ¿Pero manejar esos sistemas para obtener los detalles precisos que deseas? Eso es otra historia”.

 

Con un lanzamiento como este, existen muchas repercusiones que considerar y las discutiremos en futuros artículos. A algunos ya les preocupan las implicaciones para la industria cinematográfica, la fuente de los datos de entrenamiento y la desinformación que derivarían de la posibilidad de sintetizar videos complejos en alta resolución a la carta.

 

Como resultado, OpenAI declara que actualmente está sometiendo a Sora a pruebas de adversario con “expertos en cuestiones como la desinformación, el contenido de odio y la segregación” antes de que se haga público. Aunque OpenAI lo mantuviera encerrado en una cámara acorazada para siempre, si la historia sirve de referencia, los modelos de código abierto acabarán poniéndose al día y una tecnología similar estará disponible para todos. Nuestra principal conclusión es esta: si antes confiar en los videos de fuentes anónimas en las redes sociales era una mala idea antes, ahora es una idea aún peor.

La Visión Innovadora de Sora AI

Sora AI se dedica a desarrollar soluciones tecnológicas que no solo abordan problemas actuales, sino que también anticipan necesidades futuras. La empresa se centra en la creación de algoritmos avanzados que permiten una toma de decisiones más rápida y precisa en diferentes sectores. Esto no solo mejora la eficiencia operativa, sino que también optimiza los resultados para los clientes.

El Impacto de Sora AI en el Empleo

La expansión de Sora AI ha generado un aumento en la demanda de profesionales en el campo de la IA en España. Estos nuevos roles incluyen desarrolladores de software, científicos de datos y expertos en ética de la IA. Al brindar oportunidades de empleo en estas áreas, la empresa impulsa el desarrollo de una fuerza laboral más calificada y especializada.
Para asegurar que sus empleados estén a la vanguardia de las tendencias tecnológicas, Sora AI ofrece programas de formación continua. Estos programas están diseñados para actualizar las habilidades de los trabajadores y fomentar un entorno de aprendizaje constante. Con este enfoque, los empleados pueden adaptarse rápidamente a las novedades del sector.
Sora AI promueve una cultura inclusiva en el lugar de trabajo, valorando la diversidad y fomentando un ambiente donde todos los empleados se sientan valorados y escuchados. A través de iniciativas que fomentan la colaboración y la creatividad, la empresa busca crear un entorno donde todos los individuos puedan prosperar y contribuir a su máximo potencial.