Me gusta probar nuevas herramientas IA de video pero no las falsas promesas y, a día de hoy, sigo viendo por Internet mensajes del tipo “¡tus vídeos se harán solos!” u “¡olvídate de editar!”. Y esto, en el momento de escribir estas líneas no me parece del todo cierto. ¡Ojo! Que todas sus aplicaciones me parecen impresionantes… Pero aún no he visto algo que genere vídeos con lógica ni consistencia sin una GRAN intervención de un creador, y mucho menos que nos permita estar tirados en el sofá mientras se graba, edita y publica sólo…
En fin, no quiero alargarme más en plan “viejo grita a una nube en el cielo”, así que hablemos de lo que sí veremos en este vídeo; herramientas que utilizan algún tipo de IA que REALMENTE hacen más sencillo de algún modo el trabajo a la hora de realizar nuestros vídeos.
Aviso importante: Las herramientas de IA cambian cada poco tiempo y no paran de salir herramientas nuevas. Si quieres estar al día de las que vamos investigando puedes participar en nuestra comunidad privada o pasarte por nuestros directos. Los hacemos todos los martes (menos en vacaciones) e intentamos comentar todas las novedades.
IAs en Adobe Premiere Pro
Empecemos por nuestro programa de edición en seosve, Adobe Premiere Pro. Hace ya un tiempecito que hicimos el tutorial completo del mismo (lo podéis ver aquí) y aunque a nivel básico no ha cambiado, sí que ha incorporado un conjunto de herramientas basadas en IA que pueden sernos de lo más útiles. A falta de que actualicemos algún día el curso, podemos fijarnos en las principales que nos ofrece.
¡OJO! En el momento de preparar esta clase, estamos usando la última versión de Premiere Pro 2023, la v23.5.0 Compilación 56 en PC.
Ahora sí, entremos a ver las herramientas:
Edición basada en texto
Premiere incorpora ya en su totalidad la funcionalidad de la Edición basada en texto. Esta funcionalidad se vale de la transcripción automática del audio de un clip de vídeo para generar un texto que, si se edita, genera los cortes y colocación de los mismos en la secuencia.
Para activarla, primero de todo debemos permitir la Transcripción Automática.

Podemos marcarlo al crear el proyecto, o en uno ya iniciado, ir a “Preferencias > Transcripción” y allí marcar las casillas necesarias, elegir si queremos varios oradores y el idioma de la transcripción.
De este modo, todo lo que importemos al proyecto se empezará a transcribir en segundo plano para poder ser editado. ¿Cómo lo hacemos? Pues deberemos tener activo el panel de “Texto” en el espacio de trabajo (o podemos usar el “Espacio de Trabajo > Edición basada en texto”).

Al importar un clip de vídeo o al añadirlo a la línea de tiempo, en el apartado “Transcripción” veremos el texto que se recita en dicho clip. No importa mucho si la transcripción es ahora correcta o no, pero si luego queremos usarla para subtítulos, la podemos corregir sin problemas.
Subrayando con el cursor las palabras y frases que deseamos usar, podemos hacer clic derecho y en el desplegable podemos insertar o sobreescribir en nuestra secuencia activa dicho fragmento. Una vez tengamos todos los clips cortados por frases, podemos observar el resultado y modificarlo sin problema en nuestra secuencia.
Otra cosa que podemos hacer es, volviendo al panel de Texto, cambiar la vista de transcripción por la de Secuencia, viendo así el resultado final, y desde allí también podemos editar con el clic derecho para extraer fragmentos, o copiar y pegar las frases en otro orden para que se cambien automáticamente en la secuencia.

A pesar de parecer una utilidad de IA rudimentaria (que lo es, no nos engañemos), resulta muy práctico para recortar clips largos, o con varios oradores. En cualquier caso, es cierto que luego habrá que pegarle un repasito al montaje, como por ejemplo cambiar escala entre planos como hacemos nosotros para dar variedad al montaje, y sobre todo revisar si algún corte es demasiado holgado o pisado.
Pero aunque me dé rabia admitirlo… resulta muy útil.
Remix (Remezcla/Versión Propia)
La siguiente herramienta que veremos de Premiere Pro se llama Remix (o Remezcla / Versión Propia), y no es para vídeo sino para sonido; concretamente para editar la música de fondo automáticamente. Lleva ya un tiempo activa en Premiere Pro, y nos permite auto editar una canción en base a la duración deseada.
¡Ni os imagináis la de trabajo que quita! Personalmente me he pasado años perfeccionando el arte de recortar y adaptar canciones para vídeos de distinta duración, y esta herramienta es mano de santo. Veamos cómo funciona.
Lo primero es importar la canción deseada a nuestro proyecto y colocarla en la secuencia en la que la queremos usar. A continuación iremos a la herramienta “Editar Rizo” y manteniendo pulsado el clic izquierdo, se desplegará un menú con otras herramientas dónde seleccionaremos “Herramienta de Remezcla”.

Ahora nos podemos colocar al final de nuestra canción en la secuencia y arrastrar hasta la duración deseada, ya sea acortando o ampliando la duración. Con esto conseguiremos una primera versión automática de la remezcla, aunque no tiene por qué ser la ideal.
Para ello podremos editarla, y lo haremos en el panel de “Sonido Esencial” que se habrá abierto al realizar la remezcla (en caso contrario, se puede encontrar en “Ventana”).
En este panel podemos usar un ajuste preestablecido o guardar uno creado. Si activamos el apartado “Intensidad” podemos hacer un análisis automático de la canción, pero lo importante lo encontramos en “Duración”. Allí podemos elegir el “método”, ya sea remezclar para usar bucles y ritmos de la canción o ampliación para ajustar el audio con aceleración o ralentización.

En “duración de destino” podemos introducir manualmente la duración deseada, teniendo en cuenta que dispone de un margen de unos 5 segundos para adaptarse según las necesidades de cada canción. En “customize” definimos el número de segmentos que queremos que aplique, así como el tipo de estilo deseado con variaciones. Y por último tenemos las opciones de atenuación y de niveles. Jugando un poco con todo esto podremos remezclar fácilmente y conseguir el resultado deseado.
El resultado lo veremos visualmente tanto en la línea de tiempo, con unas líneas en zig-zag en los puntos de remix, cómo en el monitor de Origen si hacemos doble clic en la canción remezclada.

Hay que decir que esta herramienta funciona muy bien cuando funciona, y muy mal cuando no, y es por ello que recomendamos tener en cuenta lo siguiente:
- Mejor no intentar hacer una versión muy corta de una canción muy larga, mejor elegir un fragmento de la misma para ello y hacer remix con él.
- En la misma línea que el consejo anterior, si hay partes de una canción que queremos que suenen, es buena idea hacer remixes aislados de dichas partes y entonces juntar manualmente todo.
- Es mejor usar canciones que sean totalmente instrumentales, ya que el remezclador NO entiende las letras de las canciones, con lo que no esperéis que sea un resultado coherente con la letra.
La verdad es que a pesar de sus limitaciones, sigue siendo una herramienta fabulosa que me hubiera evitado muchas horas de edición tiempo atrás, ¡así que sacadle provecho!
Auto Reframe
La última herramienta incorporada por defecto que veremos en Premiere es AutoReframe, que nos permite ajustar la posición de clips de vídeo o secuencias automáticamente. Es ideal para exportar rápidamente versiones de distinta relación de aspecto, como por ejemplo 1:1 para instagram o vertical para TikTok.

Veamos el ejemplo más típico; ya tenemos nuestra edición terminada, pero queremos hacer una versión vertical de la misma rápidamente. Pulsaremos clic derecho sobre la secuencia deseada en nuestro panel de “Proyecto” y en el desplegable elegiremos “Secuencia de Auto Reframe”.

Se abrirá un panel de configuración en el que podemos elegir el nombre de la nueva secuencia, elegir el tipo de relación de aspecto deseada, el tipo de seguimiento del movimiento y marcar si queremos conservar o eliminar los efectos ya aplicados de posición que pudieran existir en el montaje.

Una vez pulsemos “Crear” se generará una nueva secuencia con los parámetros definidos, y podremos ver como en cada clip se ha aplicado un efecto de AutoReframe que es modificable.
Podemos cambiar el estilo de seguimiento, ajustar la posición (e incluso sobreescribir los auto keyframes creados por unos manualmente), la escala y la rotación. También podemos volver a analizar el clip si lo deseamos.

Esta herramienta funciona bastante bien para adaptar montajes a distintos formatos de forma rápida, y además con un poco de imaginación se le pueden sacar funcionalidades extra como un seguimiento de movimiento para clips, aunque eso lo dejamos para otro momento.
El futuro de Premiere con Adobe Firefly
Si bien hay otras herramientas ya disponibles en Premiere, lo que nos parece más interesante es lo que está por llegar gracias a Adobe Firefly. Esta nueva evolución de las herramientas generativas de inteligencia artificial de Adobe ya tiene ciertas aplicaciones activas en cuanto a imágen, como bien comentó Noe en la clase anterior (la podéis ver aquí), pero en cuanto a vídeo aún está por implementar.
Eso sí, las promesas que hicieron en su conferencia dentro de la NAB 2023 resultan muy atractivas. (Aquí podéis ver el vídeo resumen).En dicha presentación nos proponen desde un buscador inteligente de música y efectos de sonido en base a nuestra edición y planos, un editor de color basado en texto, editor de texto y animaciones con prompts, un auto editor de planos recursos capaz de analizar nuestro material e incluirlo en el lugar adecuado e incluso un creador automático de storyboards basados en un guión.

¡Realmente impresionante! En especial el auto editor de planos recurso, que me da la sensación que nos va a simplificar mucho el proceso a los editores de toda la vida, ahorrándonos horas y horas de preselección previa de todo el material grabado.
Plugins IA para Premiere
Además de las herramientas ya incorporadas a Premiere, podemos encontrar multitud de plugins con IA de pago que también pueden ayudarnos mucho en nuestras ediciones. Por lo general, estos plugins se basan en acciones muy específicas, cómo recortar automáticamente espacios vacíos, o cómo auto seleccionar y editar distintos planos.
Vamos a analizar 2 que hemos usado en algún momento en seosve, AutoCut y AutoPod.
El primero que veremos es AutoCut y se trata de una extensión para Premiere que recorta y elimina automáticamente los espacios de silencio en una toma o vídeo.

El resultado que nos da es un montaje estilo “jump-cut”, en el que el discurso no tiene pausas extrañas ni incómodas, y que luego podemos editar a conveniencia si es necesario.
Los precios de AutoCut son bastante asequibles, y nos ofrece además una versión de prueba de hasta 14 días para probar si nos interesa o no.

La instalación es muy sencilla, simplemente descargamos AutoCut en el sistema que usemos, seguimos los pasos, y se añadirá como extensión en nuestro Premiere. Eso sí, para usarlo, incluso en modo prueba, hay que crear una cuenta en su web.
AutoCut nos permite cierta maniobrabilidad en sus opciones.

Podemos usar dos estilos: AutoCut V2 (que permite control manual de parámetros) o AutoCut AI (que es totalmente automático y sólo permite elegir la agresividad del plugin). En el modo manual podemos elegir la duración de los silencios a cortar y elegir si recortar sonidos cortos como muletillas al estilo “mmm” o “eeehhh”. Luego podemos ajustar el “padding”, es decir, el margen anterior y posterior al corte de los silencios, para decidir si queremos que el “jumpcut” sea más seco o menos. También definir el volumen de ruido, para que el algoritmo sepa con claridad en qué nivel consideramos que el sonido puede ser cortado. Y por último hay la opción de AutoZoom en beta, que aplicará un zoom a cada corte, para dar esa variedad al montaje.
Como vemos, AutoCut quizá no nos dé el montaje definitivo para nuestro vídeo, pero sí que nos puede ahorrar mucho tiempo en recortar, acelerando así el proceso de edición. A nosotros nos ha ido muy bien, por ejemplo, para recortar rápidamente las pausas que Noe y yo mismo hacemos al grabar las clases, sin tener que ir manualmente a buscar dónde empieza y termina cada frase.
Eso sí, en nuestro caso debemos repasar a posteriori el resultado que nos da AutoCut, ya que a menudo repetimos frases porque nos equivocamos un montón y repetimos hasta que quede bien, y también luego vamos a re-escalar cada corte para dar variedad al montaje.
El otro plugin que hemos usado y nos ha parecido muy práctico es AutoPod. A diferencia del anterior, este está pensado para un proyecto multicámara y con múltiples oradores. AutoPod utilizará cada cámara y su respectivo audio para seleccionar cuándo está hablando cada orador, y creará una edición estilo podcast muy resultona.

El precio de AutoPod es algo más elevado, pero esta vez se ofrecen hasta 30 días de prueba gratuita. La instalación es sencilla, pero requiere que nos registremos, entonces descargamos y ejecutamos el instalador y ya tendremos AutoPod como extensión en Premiere. Además de la función multi cámara, AutoPod nos añade un exportador propio de clips para redes sociales y también un editor estilo jump cut parecido al de AutoCut.

Pero nos vamos a centrar en la funcionalidad multi cámara, que es la que creemos que aporta valor añadido a este plugin.
Para usarla hay que tener claro que debemos tener varias cámaras y que, para que funcione correctamente, cada una tenga su propia fuente de sonido (p.ej; cam 1 presentador con mic 1 presentador, etc…). Así el programa sabrá diferenciar a quién pertenece cada sonido y seleccionará los clips adecuados acorde a ello.
Una vez tengamos todos los oradores en vídeo y audio sincronizados en distintas pistas de la secuencia, podemos ir a “Ventana > Extensiones > AutoPod” y se abrirá el panel de control.

En el primer desplegable podemos crear y seleccionar presets que tengamos.
En “Cutting Method” elegiremos qué método de corte deseamos, entre “Standard”, que es destructivo, ya que quitará los clips que se descarten en el corte o “Enable/Disable” que simplemente deshabilitará los clips recortados, dejándolos en el montaje por si quisiéramos recuperarlos.
En “Multi-Shot Frequency” se elige la frecuencia con la que queremos que haya cambios de cámara.
En “Speaker” podemos definir el número de oradores en la secuencia al igual que en “Camera” definimos la cantidad de cámaras que hay (no tienen por qué coincidir).
Luego ya vamos a “Speaker Names” dónde podemos identificar por el nombre que deseemos a cada orador asignándoles en qué pista está su audio y en “Tag Speakers” haremos lo mismo pero en referencia a la pista de vídeo.
Ahora podemos darle al botón de “Create Multi-Cam Edit” y AutoPod empezará a cortar nuestras pistas, dando como resultado un montaje bastante adecuado.
¡OJO! AutoPod necesita que las pistas sean seguidas de origen, sin cortes. Si necesitáis usar distintos clips en una sola pista, podéis anidar el vídeo antes de utilizar AutoPod y no tendrá problema en hacerlo.
La verdad, como primer paso para una edición de algo tipo podcast, pues bastante resultón… PERO… otra vez, habrá que repasar el resultado para comprobar que todo esté bien. Además, analizando un poco cómo funciona, al menos en estos momentos, AutoPod, en realidad es un AutoCut con varias cámaras. Es decir, simplemente analiza el audio y pincha o no la imágen en base a si se habla en esa pista, no hace realmente un uso algorítmico de lo que en las cámaras se muestra.
Como decía antes, puede resultar incómodo el tener que separar cada voz, en vez de importar una sola pista de sonido y que fuera una IA real la que detectara los oradores en ella, y que fuera esa identificación la que marca la cámara, no el sonido.
De hecho se nos ocurre que es posible que Adobe, que ya tiene en Premiere la funcionalidad de detectar oradores para hacer subtítulos, acabe incorporando una funcionalidad en nativo parecida.
Por ahora, AutoPod es muy práctico, pero de IA tiene más bien, en mi opinión, poquito…
IAs de Text-to-Video
Hablemos ahora de lo que muchos entendemos cuando hablamos de inteligencia artificial en vídeo; aplicaciones que nos permitan crear vídeos desde cero con tan solo pedir lo que deseamos. Ni luces, ni cámara, ni edición… ¡ni personas! Pues eso ya existe… Más o menos.
De soluciones ya han aparecido muchas, algunas como Lumen5 tratan de hacer lo que realmente son presentaciones PowerPoint venidas a más, otras como Pictory.ai son capaces de añadir narración de voz generada automáticamente en base a un texto, y las más sofisticadas como Synthesia.io ya incorporan hasta avatares generados por IA bastante resultones.
Como siempre decimos, hay que tomarse esto con calma, no estamos aún en el punto en que realmente podamos tener vídeos automáticos que puedan pasar por reales y además rara vez son opciones a precios razonables, así que consideramos que aún queda camino por recorrer en este caso.
Pero basta de añadir agua al vino y veamos algunas de estas herramientas de IA de text-to-video que nos han parecido más interesantes y, sobre todo, útiles.
Studio D.iD
Entre todas las opciones para creación de avatares que hemos investigado, la que nos parece mejor para trastear es Studio D.iD que, además, la que podéis encontrar integrada en Canva. En la siguiente clase Noe hablará de cómo utilizarla desde esta web app.

Se trata de un proyecto israelí que se hizo famoso por esos vídeos virales del web MyHeritage en que, usando fotos antiguas de familiares fallecidos, se conseguían animaciones faciales realistas. Ahora han creado el proyecto de creación de avatares digitales en base a esa tecnología y si os da miedo que vayan a usar la tecnología para el mal, la verdad es que, al igual que el resto de opciones que veremos hoy, tienen un apartado en su web de ética y buen uso de la herramienta.
Como ya hemos dicho antes, este tipo de herramientas suelen ser de pago y con opciones un tanto limitadas en la parte gratuita o más económica, por ejemplo en este caso nos ofrecen una prueba gratuita de 14 días con 20 créditos (o acciones). El resto de planes van añadiendo funcionalidades y créditos.

Se trata de que valoremos si el resultado que nos da y el precio nos convence para invertir o no en esta herramienta.
Veamos un ejemplo usando el plan de prueba. Podemos acceder a él al pulsar “Free Trial” e introduciendo nuestro correo (por ejemplo el de Gmail). Eso nos llevará al panel de Studio.

En la parte inferior vemos nuestro perfil, dónde se indican los créditos que nos quedan disponibles, pero vayamos a crear nuestro avatar. Marcaremos “Create video”.

Lo primero será elegir un presentador. Podemos elegir entre todos los que ofrecen por defecto, pero también podemos añadir una foto que debe cumplir ciertos requisitos que se indican para generar uno personalizado.
Pasemos ahora a generar el audio para el vídeo, y lo podemos hacerlo o bien introduciendo texto y eligiendo voz autogenerada en el idioma que deseemos o cargando un archivo de audio pregrabado.

En cualquiera de los casos, una vez tengamos todo preparado, le damos a “Generate” y nos indicará los créditos que consumirá hacerlo.

Una vez generado, se añadirá a nuestra galería de vídeos y podremos revisar el resultado y descargarlo si lo deseamos.
Hablemos sinceramente de sus pros y sus contras; el resultado es bastante curioso, incluso puede llegar a funcionar, pero aún resulta muy artificial (al menos para nosotros). También destacar que la calidad en esta versión gratuita es 720p, y el límite de tiempo y texto es muy ajustado, y se incluye marca de agua (eso sí, fácil de quitar a posteriori… ¿pero no hacíamos esto para evitar editar?)
En cualquier caso, esta herramienta nos puede llegar a ser útil si no tenemos manera de grabarnos o si queremos usar un avatar ficticio (podemos subir una foto generada con otra IA para crear nuestro avatar loco).
Destacar por último lo que comentábamos al principio, su integración con Canva.

Para incorporarlo, debemos ir al apartado APPS de Canva y buscar “D-ID”. Al agregarlo, podremos conectar con nuestra cuenta y añadir avatares, texto y voz artificial. Tengamos en cuenta que también consume créditos si se usa desde aquí.
HeyGen
Otra opción parecida que hemos probado es HeyGen, que ofrece un poco más de flexibilidad.

Además de usar o crear avatares, permite crear múltiples escenas con diseños de fondo e imágenes en la misma app e incluso una funcionalidad de clonar nuestra voz mediante ElevenLabs (hablaremos de clonadores de voz un poco más adelante).
Resulta un tanto más caro, pero tiene también más opciones, ya que podemos elegir los créditos deseados en cada plan. La versión gratuita nos da lo mínimo para probar algo.

Para usar el modo gratuito deberemos registrarnos con nuestro correo, y accederemos al panel de diseño.

Podemos empezar por decidir hacer un lienzo en panorámico, y si nos dirigimos al apartado “Avatar” podemos ir a nuestros avatares y seleccionar que queremos cargar uno como foto hablante.

Una vez añadido nuestro avatar, en la parte inferior veremos que podemos añadir nuestro texto en “Text Script” o añadir una grabación de sonido en “Audio script”, para usar una voz generada por IA o nuestra propia voz (igual que hemos visto antes en Studio D.iD).
Si elegimos usar una voz generada por IA, debemos elegir qué idioma y tipo de voz queremos usar en la sección de la derecha, desplegando así el cuadro de configuración.

En este cuadro podemos filtrar por idioma, género y otro tipo de filtros, pero también vemos la opción de “Voice Clone”, que nos dirigirá a la API de ElevenLabs, que es otra app que genera voces clonadas (previo pago). Pero por ahora elijamos una voz o usemos una grabación.
Para ver el resultado debemos generar el video en “Create Video” y allí nos dirá los créditos que nos consumirá el clip actual (sobre 1 crédito cada 30 segundos).

Vemos que el resultado está bastante bien, pero a nivel básico del plan gratuito, personalmente nos ha convencido más Studio D.iD, ya que ofrece más créditos para testear.
En cualquier caso su calidad es algo superior ya en el free (1080p) aunque seguimos teniendo marca de agua.
Eso sí, HeyGen incorpora más elementos cómo edición de texto, elementos de diseño y, en sus tiers premium, más opciones de personalización, con lo que no es necesario ir a una segunda app como Canva para finalizar nuestro vídeo.
Gen-2 de Runway
Hemos visto dos herramientas para crear avatares, veamos ahora una para crear vídeos totales, veamos Gen-2 de Runway.

Runway tiene varias herramientas, entre ellas la famosa Gen-1 que genera un vídeo en base a otro vídeo, como esos famosos virales de gente bailando que se vuelven estatuas, pero con Gen-2 han dado el salto a la generación de vídeo a partir de prompts de texto.
Sus precios son interesantes para lo que proponen, funcionan a base de créditos y en su versión “free forever” nos dan hasta 125 para que podamos testear, eso sí, con marcas de agua y resoluciones bajas.

Para registrarnos podemos hacer como siempre, usar nuestra cuenta de Google y elegir el plan deseado. Una vez estemos registrados podremos acceder al panel de Runway y empezar a usar las herramientas que nos conceden.

Podemos empezar por usar Gen-1, que utiliza un vídeo preexistente para darle un estilo con IA generativa. Subiremos el vídeo (en nuestro plan son máximo 4 segundos), y podremos darle el estilo deseado en el menú lateral, configurando sus parámetros, o incluso podemos escribir en modo prompt de texto lo que deseamos hacer.

Si pulsamos “Preview Styles” nos enseñará fotogramas de las variantes posibles, y si elegimos una, podremos generar un vídeo en base a ella. Pensemos además que podemos sacar varias versiones distintas del mismo vídeo.



Toda versión generada se guardará en nuestra carpeta de Assets del gestor de Runway para ser usadas en proyectos de vídeo.
Pasemos ahora a ver la nueva herramienta, Gen-2, que permite crear vídeos desde cero con prompts de texto. ¡Ojo! Esta opción consume créditos, no sólo segundos, de vuestra cuenta.
Nos aparecerá el cajetín para introducir nuestro prompt, que como más detallado sea, mejor, pero eso sí, de momento debe ser introducido en inglés. Al darle a “Preview” nos generará cuatro fotogramas con distinto estilo para que elijamos cuál queremos utilizar para generar.

Elegimos el que más nos guste y le damos a generar. Puede tardar más o menos dependiendo de la cantidad de gente que haya usando la herramienta en ese momento o de lo complejo que sea el prompt, pero os podemos decir que a nosotros el resultado, si bien no es perfecto, nos ha dejado impresionados.

Además de lo más llamativo que ofrece Runway, hemos querido probar alguna herramienta más, en este caso el “Green Screen” que elimina el fondo de un vídeo extrayendo al sujeto como si fuera un chroma.

Se puede ajustar bastante bien el reborde, y la verdad es que, una vez más, nos ha impresionado el resultado.
Por último, y ya que hemos comentado que todo lo que generemos en el estudio de Runway queda archivado en la carpeta de Assets, veamos cómo es su editor de proyectos de vídeo.

En él se nos ofrecen varias pistas de vídeo y audio que podemos utilizar como con cualquier programa de edición, recortando los assets y montándolos como deseemos. Es un poco limitado, pero práctico.
Con todo, admitimos estar bastante impresionados con todo lo que ofrece Runway y, además, con el progreso y mejoras que se han visto desde que apareció. No lo hemos visto, pero también tienen opciones de limpieza de audio, de recorte de silencios, transcripción y subtitulado. ¡Muy completo!
IAs de sonido
Ya hemos visto alguna funcionalidad de IA relacionada con el sonido con la Edición en Base a Texto de Premiere o los generadores de voz en base a texto de D.iD o HeyGen, pero entremos ahora a tecnologías IA realmente centradas en el audio.
Mejorar sonido grabado con Adobe Podcast
Empecemos de nuevo por nuestro amo y señor Adobe, que nos ofrece una herramienta “gratuita” con Adobe Podcast. Para poder utilizarla, eso sí, se necesita estar registrado. Está aún en fase “beta” pero nos ofrece dos herramientas que funcionan genial.

La primera es el “Enhance Speech” o mejora de sonido, que permite añadir una grabación de sonido de mala calidad y es capaz de limpiar el ruido de fondo y el eco, mejorando la voz y dejando un resultado casi casi, pero de verdad que casi perfecto.

La verdad es que en Adobe han sido generosos con lo que nos permiten, pues tenemos hasta 1 hora de duración por clip y hasta 3 horas diarias de límite en total. Simplemente subiremos el archivo de sonido que deseemos corregir y por sí solo nos ofrecerá un resultado muy bueno que podréis descargar y utilizar sin problema. Quizá se echa de menos alguna opción de configuración de parámetros para evitar que los reductores de ruido actúen tan agresivamente a veces, pero por lo general, y sabiendo que se trata de una beta que acabará incorporándose en el Adobe Suite, resulta espectacular.
La otra herramienta es el “Mic check”, que nos permite hacer un examen rápido de cómo está vuestro micrófono y os ofrece consejos de cómo mejorar la colocación, ganancia y otros parámetros de vuestro setup. Unas herramientas muy sencillas, pero muy útiles, la verdad.

Clonadores de voz
Con esta tecnología nos hemos encontrado el problema de llegar tarde, ya que si bien empezó siendo abierta y gratuita, ahora casi todas están cerradas tras muro de pago. Se alega que es debido al aumento de casos de deepfake criminales e incluso estafas telefónicas, pero también creemos que se debe al incesante intento capitalista de fastidiarnos la vida a todos monetizando lo que eran tecnologías de código abierto.
Al final nos hemos hecho un harto de probar varias de ellas para demostrar las posibilidades, y aquí os dejamos un resumen de qué hemos encontrado:
ElebenLabs era la que realmente queríamos probar, ya que se trata de la más famosa de estas tecnologías. Hasta hace poco su beta era abierta, y nos permitía no sólo utilizar voces de su librería de alta calidad para generar text-to-speech, sino que además podíamos conseguir un clonado de nuestra voz espectacular. Pero ahora se ha limitado bastante.
Podemos ver sus precios y planes, y lo que estos nos ofrecen, pero nos quedaremos en el modo free, que nos permitirá probar algunas cosillas.

En “Speech Synthesis” podemos seleccionar la voz de la galería, elegir los parámetros de lectura y el modelo de sintetizado (entre inglés y multilingüe).

En el recuadro podremos escribir hasta 2500 caracteres, y podremos generar el sonido, gastando cuota de nuestro plan de suscripción.
En “Voice Lab” es donde encontraríamos el clonador de voz, pero ahora vemos que sólo nos permite generar una manualmente, y que si queremos usar nuestra propia voz como modelo, debemos formar parte, como mínimo, del plan Standard.

Una lástima, porque si buscamos ejemplos de resultados que ha hecho la gente, es sin duda el mejor clonador que hay disponible.
Entendemos los motivos por lo que conviene quizá limitar este tipo de herramientas (abuso para crear deepfakes y estafas), pero nos parece que simplemente esconderlo bajo un muro de pago no soluciona el problema, ya que el criminal lo hará igualmente.
También le dimos una oportunidad a Resemble, que siempre se ha considerado la alternativa a ElevenLabs. Lamentablemente sucede algo parecido, han limitado el uso, y aquí podemos ver los precios que proponen:

Si nos registramos, nos dejarán probarlo gratis con limitación de 300 segundos y de herramientas. En el panel principal vemos lo que se nos permite:

Podemos hacer un intento de clonación de voz en “Rapid Voice Cloning”, pero lamentablemente sólo está disponible en inglés.

Las pruebas que hemos hecho nosotros no nos han acabado de convencer, pero seguramente sea porque nuestro acento en inglés es del nivel de Sergio Ramos…
Seguimos investigando y nos encontramos con Speechify, que en realidad es un lector de textos online que ha añadido la opción de clonar voces. Es mucho más limitado que los anteriores, pero al menos nos permite generar un ejemplo con un texto predefinido que nos permite ilustrar las posibilidades de la tecnología.
Ofrecen un plan de pago para poder personalizar el texto a leer, mejorar el acento de la voz y con hasta 100.000 palabras. Podemos registrarnos como siempre con nuestra cuenta de Google mismo para probar el plan gratuito que nos permite grabar la voz.

Una vez dentro, veremos dos pasos esenciales.

En el primer paso debemos importar nuestra voz, ya sea con una grabación en ese momento o bien subiendo un archivo de sonido pregrabado. Recomienda que el “sample” sea de mínimo 1 minuto y en las mejores condiciones ambiente.

Una vez importada, podremos modificar los parámetros de la misma en “Voice Settings” definiendo su estabilidad y su claridad.

Una vez lo tengamos, en el segundo paso podemos elegir el idioma en el que deseamos que se reproduzca y podemos generarlo. En esta versión de prueba no podemos modificar el texto, pero nos podremos hacer una idea de cómo quedaría nuestra voz. En nuestro caso, el acento nos parece demasiado latino, pero el tono de voz nos parece muy conseguido.
A parte de los tres que hemos comentado, también hemos probado Voice.ai, que con una app instalada en nuestro ordenador o smartphone nos permite cambiar nuestra voz en directo por otra de su librería, e incluso subir la nuestra para ser entrenada e incorporarla al repertorio.
Otra que hemos probado es Reespecher, que también nos permite cambiar la voz y lo hace con buenos resultados.
Y por último hemos testeado Play.ht tanto en la versión beta como completa, con resultados bastante decepcionantes…
En resumen, la tecnología de clonado de voz nos parece espectacular… en principio. Nos ahorraría mucho tiempo y saliva al locutar nuestros vídeos, es evidente, y las voces más entrenadas realmente dan el pego. Pero entendemos perfectamente que haya cierto intento de control después del boom inicial, porque se empezó por hacer memes y bromas con ellas, pero los casos de estafa y suplantación de identidad han generado un clima de paranoia… y control de daños por parte de estas empresas.
A parte del hecho de que a veces el tener que entrenar la voz, grabar samples, generar versiones hasta encontrar la buena… puede llevarte tanto tiempo como grabar directamente la voz de forma tradicional
Y es que lo decimos siempre, el audio es el 50% del vídeo o más… y en el caso de hacernos creer que algo es real, es evidente que es la guinda en el pastel que puede hacerte creer lo que por otro lado es un fake.
MusicGen
Y si ya hemos visto cómo generar una voz con IA, lo que nos falta para completar el pack es cómo generar música de fondo, y para eso hemos testeado MusicGen. ¡Aviso! Es una herramienta creada por Meta… sí, sí, nuestros “queridos” creadores de Facebook y el fallido MetaVerso… Pero hay que reconocer que, con todo, en el apartado de IA, Meta está haciendo bien el trabajo.
MusicGen es capaz de generar música en base a prompts de texto, en el que describimos lo que buscamos, y nos sacará un pequeño sample.

También podemos subir un “condicionante”, ya sea con un archivo de audio de referencia como una canción, o una grabación con el micro de nosotros tarareando. Con todo, intentará sacar una música totalmente original de unos 12 segundos, que es la limitación actual, pero que la verdad, funciona muy decentemente. Se trata de ir probando prompts específicos de música, y de hecho tenemos una pequeña guia de los posibles en un enlace que ellos mismos nos proponen en el pie de la web.
Es una tecnología que acaba de empezar, pero que puede convertirse en algo muy interesante aunque sea para plantear versiones previas y expresar lo que se busca a un artista musical.
Conclusiones
En general todas las herramientas que hemos mostrado nos ofrecen facilidades para expresar rápidamente deseos, pero no para cumplirlos. Las hemos visto que sí que pueden reducir el tiempo de tareas tediosas y repetitivas como recortar espacios vacíos o seleccionar cortes. También algunas que parece que puedan sustituir a un presentador o pueden darnos animaciones interesantes aunque aún poco controlables.
Y también las que nos dan más miedo, las que parece que puedan sustituir a un actor de doblaje. Pero como siempre, la preocupación ética de toda herramienta debe formar parte de su desarrollo. Y la verdad es que agradecemos que casi todos los proyectos de IA que hemos visto aquí lo hayan mencionado y lo tengan en cuenta.
Ya sabéis, hacer buen uso de las herramientas disponibles puede facilitarnos el trabajo como profesionales, e incluso subir nuestro nivel si somos amateurs, pero al empresario que esté viendo esto… espero que le haya quedado claro que todo esto no es para que os ahorréis un sueldo, es para que el trabajador pueda tener un rendimiento y método más cómodo y productivo.
¡Y hasta aquí la clase! La verdad es que ha sido divertido adentrarnos en el mundo de las IAs para proyectos de vídeo. Esperamos que os haya resultado estimulante.