Modelo de texto a vídeo

modelo de generación de video basado en prompt

Un modelo de texto a video es un modelo de aprendizaje automático que toma como entrada una descripción en lenguaje natural y produce un video que coincide con esa descripción.

Este tipo de modelo es especialmente útil en aplicaciones como edición de video automática, generación de contenido multimedia, subtitulado automático, y creación de tutoriales. Al procesar la descripción textual, el modelo selecciona imágenes, videos o animaciones relevantes para crear una representación visual coherente con el texto original.

Metodologías

editar

La predicción de video para lograr que los objetos parezcan realistas en un fondo estable se lleva a cabo mediante el uso de una red neuronal recurrente en un modelo de secuencia a secuencia. Este modelo incluye un conector de red neuronal convolucional que codifica y decodifica cada píxel de los cuadros, creando así un video mediante aprendizaje profundo.[1][2]

  • Recopilación de datos y preparación de conjuntos de datos utilizando videos claros de videos cinéticos de acción humana.
  • Entrenamiento de la red neuronal convolucional para realizar videos.
  • Extracción de palabras clave de texto mediante programación en lenguaje natural.
  • Prueba de conjunto de datos en un modelo generativo condicional para información estática y dinámica existente a partir de texto mediante codificador automático variacional y red adversaria generativa.

Modelos

editar

Diversos modelos están disponibles para la conversión de texto a video, y algunos de ellos son de código abierto.

  • CogVideo: Este proyecto presentó su código en GitHub, lo que permite a los desarrolladores explorar y utilizar su enfoque para generar videos a partir de texto [3]
  • Google: Ha incursionado en esta área utilizando Imagen Video para convertir texto en videos. [4][5][6][7][8]
  • Sora: Sora es un proyecto de inteligencia artificial de OpenAI para generar videos realistas a partir de una descripción textual.[9]
  • Movie Gen: Movie Gen es un generador de video desarrollado por Meta Platforms. Al igual que Sora, genera videos a partir de descripciones textuales o prompt.

En marzo de 2023, Alibaba Research publicó un histórico artículo de investigación en el que aplicaron muchos de los principios encontrados en los modelos de difusión de imágenes latentes a la generación de videos. [10]​ Desde entonces, servicios como Kaiber o Reemix han adoptado enfoques similares para la generación de video en sus respectivos productos.

Matthias Niessner, de la Universidad Técnica de Múnich (TUM), y Lourdes Agapito, de la University College London (UCL), están colaborando en el desarrollo de técnicas de renderizado neuronal 3D. Su enfoque se centra en la síntesis de videos realistas utilizando representaciones neuronales 2D y 3D. Estas representaciones capturan la apariencia, la forma y el movimiento de los avatares generados. El resultado es un proceso de síntesis de video controlable que produce avatares que no solo se ven, sino también suenan como personas reales. [11]

Aunque existen enfoques alternativos, [12]​ los modelos de difusión latente completa se consideran actualmente lo último en difusión de vídeo.

Véase también

editar

Referencias

editar
  1. «Papers with Code - Video Prediction». paperswithcode.com (en inglés). Consultado el 18 de febrero de 2024. 
  2. Narain, Rohit (29 de diciembre de 2021). «Smart Video Generation from Text Using Deep Neural Networks» (en inglés estadounidense). Consultado el 12 de octubre de 2022. 
  3. CogVideo, THUDM, 12 de octubre de 2022, consultado el 12 de octubre de 2022 .
  4. «google: Google takes on Meta, introduces own video-generating AI - The Economic Times». m.economictimes.com. Consultado el 12 de octubre de 2022. 
  5. Monge, Jim Clyde (3 de agosto de 2022). «This AI Can Create Video From Text Prompt». Medium (en inglés). Consultado el 12 de octubre de 2022. 
  6. «Nuh-uh, Meta, we can do text-to-video AI, too, says Google». www.theregister.com. Consultado el 12 de octubre de 2022. 
  7. «Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction». paperswithcode.com (en inglés). Consultado el 12 de octubre de 2022. 
  8. «Papers with Code - Text-driven Video Prediction». paperswithcode.com (en inglés). Consultado el 12 de octubre de 2022. 
  9. «Sora: Creating video from text». openai.com (en inglés estadounidense). Consultado el 18 de febrero de 2024. 
  10. «Home - DAMO Academy». damo.alibaba.com. Consultado el 12 de agosto de 2023. 
  11. «Text to Speech for Videos». Consultado el 17 de octubre de 2023. 
  12. Text2Video-Zero, Picsart AI Research (PAIR), 12 de agosto de 2023, consultado el 12 de agosto de 2023 .