Conoce Sora, la IA para crear videos realistas

recursostics By recursostics Add a Comment 9 Min Read

Después de utilizar la IA para generar textos y figuras, solamente faltaban los videos. ¡Y Sora lo hizo! Esta herramienta permite crear videos realistas a partir de una descripción natural de lo que se desea crear. Además, puede convertir imágenes fijas en video y completar o ampliar un video ya existente. En realidad, todavía se encuentra en una etapa de pruebas beta cerrada. Sin embargo, lo mejor es estar preparados para utilizarla en cuanto esté disponible.

¿Qué es Sora openai?

Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto. Es una creación de OpenAI, los mismos de ChatGPT.  Así, es un modelo de texto a video. Puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.

Leé también:  15 herramientas para Crear Videos con Inteligencia Artificial

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.

La explicación técnica de su funcionamiento es un poco compleja, por eso no vamos a entrar en detalles. Más allá de esto, el hito que marca Sora es que sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad hasta ahora insospechada.

Sora y los problemas de los modelos de inteligencia artificial generativa

Los modelos de inteligencia artificial generativa no dejan de asombrarnos. Sin embargo, están despertando cierta inquietud. Recordemos que es una tecnología que utiliza algoritmos y redes neuronales avanzadas para aprender a partir de textos e imágenes, y luego generar un contenido que parece nuevo y único.  Esta tecnología impacta en la educación. Si bien se puede utilizar para mejorar el aprendizaje, y se espera que cada vez desempeñe un papel más importante en la sociedad, plantea desafíos éticos, estéticos, sociales y pedagógicos.

La página web de Sora asegura que sus creadores tomarán varias medidas de seguridad importantes antes de que esté disponible para el público en general. Por ejemplo:

  • Pruebas del modelo de manera adversa en áreas como desinformación y contenidos que incitan al odio o prejuicios.
  • Herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video.
  • Aplicación de los métodos de seguridad existentes para otros productos que utilizan DALL·E 3.
  • Verificación y rechazo, si corresponde, de las solicitudes de ingreso de texto que infrinjan las políticas de la compañía, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la propiedad intelectual de otros.
  • Clasificadores de imágenes que revisarán los fotogramas de cada video generado para ayudar a garantizar que cumpla con las políticas de uso de la empresa antes de mostrarlo al usuario.
  • Convocatoria a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología.

Características técnicas de Sora

Sora es un modelo generalista de datos visuales: puede generar videos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de video de alta definición. Al ser un modelo inteligente, a medida que avanza el entrenamiento, la calidad de la muestra mejora notablemente.

Tamaño de las muestras de entrenamiento

Sora se entrena con datos en su tamaño original. Anteriormente, los videos se recortaban hasta un tamaño estándar, por ejemplo, videos de 4 segundos con una resolución de 256×256. Sin embargo, al entrenar el modelo con datos originales se logran varios beneficios. Por ejemplo, crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas. También, crear rápidamente prototipos de contenido en tamaños más pequeños antes de generarlos a resolución completa, todo con el mismo modelo.

Leé también: Películas de Inteligencia Artificial para mirar en el aula

El entrenamiento con medidas originales también mejora la composición y el encuadre.  En el entrenamiento de modelos generativos es una práctica común utilizar videos cuadrados. En cambio, al utilizar los videos de entrenamiento en sus medidas originales, se mejoran el encuadre y la composición.

Transformación de texto en video

Entrenar sistemas de generación de texto a video requiere una gran cantidad de videos con los subtítulos de texto correspondientes. Para lograrlo, primero se entrena al modelo con subtítulos altamente descriptivos. Luego se utiliza para producir subtítulos de texto para todos los videos del conjunto de entrenamiento. La formación sobre subtítulos de vídeo altamente descriptivos mejora la fidelidad del texto, así como la calidad general de los videos.

En síntesis, la inteligencia artificial generativa puede convertir mensajes breves de los usuarios en subtítulos más largos y detallados que se envían al modelo de vídeo. Esto permite a Sora generar videos de alta calidad que siguen con precisión las indicaciones del usuario.

Video a video

Sora también puede recibir otro tipo de entradas, como imágenes o videos preexistentes. Esta capacidad permite a Sora realizar una amplia gama de tareas de edición de imágenes y videos: crear videos en bucle perfecto, animar imágenes estáticas, extender videos hacia adelante o hacia atrás en el tiempo, entre otras capacidades.

Respecto de la extensión de videos, se extienden hacia atrás o adelante en el tiempo a partir de un segmento de un video generado. Como resultado, cada uno de los tres videos comienza de manera diferente a los demás, pero los tres videos conducen al mismo final. Uno de los resultados puede ser, por ejemplo, producir un bucle infinito sin interrupciones.

Leé también: Bing Chat: La nueva forma de aprender en línea

El método que utiliza Sora para generar videos a partir de mensaje de textos se denomina técnicamente SDEdit,32a Sora. Esta técnica permite a Sora sin necesidad de información adicional sobre el mismo. En otras palabras, Sora puede realizar cambios en el video sin necesidad de conocer detalles como el tipo de cámara utilizado para grabar el video, condiciones de iluminación, objetos o personas que aparecen en el video entre otros detalles. Por ejemplo:

  • Cambiar el estilo de un vídeo a blanco y negro o sepia.
  • Cambiar el escenario, por ejemplo de una playa a una ciudad o un bosque.
  • Agregar o eliminar objetos.
  • Cambiar la iluminación.

Combinación de videos

Sora también puede combinar gradualmente dos videos de entrada, creando transiciones perfectas entre ambos  con temas y composiciones de escenas completamente diferentes. Es decir, de forma que la transición entre ellos sea prácticamente imperceptible.

Esta técnica se denomina interpolación. Es un proceso que consiste en crear nuevos datos a partir de otros existentes. Sora crea nuevos fotogramas que se insertan entre los de los dos videos originales.

Hasta acá llegamos con la información sobre «Conoce Sora, la IA para crear videos realistas». Esperamos que te haya sido útil. Recordá que en SabDemarco vas a encontrar recursos y herramientas para tus clases de informática. No dudes en contactarnos por cualquier duda o sugerencias. Síguenos también en redes sociales para estar al día con nuestras noticias.

Share this content:

Leave a review

Leave a review

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

error: