Durante el 2022 asistimos a una proliferación de tecnologías basadas en Inteligencia artificial que parecieron ser solo el principio de lo que está por venir. Desde imágenes creadas desde 0 por IA, con herramientas como Dall-E, Stable Diffusion o Midjourney; hasta chats de texto que arrojan respuestas elaboradas, consecuentes y verídicas, como es el claro ejemplo de ChatGPT.
Este 2023 tampoco dejará de sorprendernos en este aspecto, y será habitual que las novedades se vayan sucediendo una tras otra. En parte porque estas inteligencias artificiales van mejorando su funcionamiento conforme se utilizan, y en parte porque las grandes compañías se están sumando a este fenómeno, ya que no es solo útil para el entretenimiento o el diseño gráfico, si no que en determinado momento también se podrá aprovechar para perfeccionar herramientas como el Machine Learning, el análisis de datos, Internet of Things (IoT)…
Como ya anunciamos anteriormente en este blog, Microsoft ha lanzado Microsoft Designer, que utiliza Dall-E para el diseño gráfico, una de las IAs más potentes en generación de imágenes. Sin embargo, esta no es la única aproximación de la empresa informática a este nuevo fenómeno, ya que también se ha adentrado al terreno del audio de la mano de Vall-E, una tecnología para emular cualquier voz humana a través de texto (TTS, text-to-speech) y de una muestra de audio de 3 segundos.
¿Qué es Vall-E?
Como hemos dicho previamente, Vall-E es una Inteligencia Artificial diseñada para emular cualquier voz humana a partir de unas breves directrices de texto y una pequeña muestra de audio.
A raíz de las horas de entrenamiento escuchadas, que a día de hoy son más de 60.000 y van en aumento, Vall-E es capaz de analizar el timbre del interlocutor, su tono emocional y la acústica de la habitación y discernir cómo sonaría su voz si dijera otras frases.
Microsoft ha facilitado algunos ejemplos en los que podemos apreciar:
Surprised there isn’t more chatter around VALL-E
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice ?
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023
- El speaker promt: La muestra de 3 segundos de habla humana.
- El ground promt la voz pronunciando la frase concreta que se desea emular.
- El baseline: ejemplo de síntesis de texto a voz.
- El resultado final: La frase emulada por la Inteligencia Artificial.
En estos ejemplos podemos observar que, mientras algunos de ellos son robóticos y provienen claramente de una fuente artificial, otros de ellos sí pueden confundirse fácilmente con su fuente original. De todas formas, Microsoft ya ha advertido que se trata de una tecnología en desarrollo, y que le faltan horas de entrenamiento para suplir estas falencias.
También han querido destacar que son conscientes del peligro que podría llevar una tecnología así al ser capaz de asumir la identidad de personas reales. Por eso, han querido solventar este problema añadiendo un modelo de detección para poder saber cúando una muestra de audio ha sido creada por Vall-E.
Vall-E no es sino una muestra más de la fuerte apuesta de Microsoft por el desarrollo de la Inteligencia Artificial. Sumado a sus propios desarrollos, a la adquisición de OpenAI en 2019 y a la integración de ChatGPT en su explorador Bing, no hay duda de que la compañía confía ciegamente en estas tecnologías en expansión.