Las tecnologías de inteligencia artificial se desarrollan a una velocidad increíble. Después de modelos de IA capaces de crear imágenes a partir de tus palabras y conversar contigo, ahora Microsoft ha desarrollado VALL-E, una IA capaz de imitar cualquier sonido que escuche en sólo tres segundos. A diferencia de muchas herramientas de IA, VALL-E puede replicar las emociones y el tono de un orador, incluso cuando crea una grabación de palabras que el orador original nunca dijo.
VALL-E: la herramienta de IA capaz de replicar cualquier voz
Microsoft acaba de lanzar una herramienta de inteligencia artificial conocida como VALL-E que puede replicar la voz de las personas. La herramienta utiliza sólo una grabación de 3 segundos de una voz específica como estímulo para generar contenido, y fue entrenada con 60.000 horas de datos de habla inglesa. El modelo de IA es capaz de replicar las emociones y el tono de un orador, incluso cuando crea una grabación de palabras que el orador original nunca dijo.
Puede leer también | GPT el modelo de generación de contenidos basado en la Inteligencia Artificial
Se trata de un avance significativo en el campo del habla generada por IA, ya que los modelos anteriores sólo eran capaces de reproducir la voz, pero no las emociones o el tono del hablante. Un artículo de la Universidad de Cornell utilizó VALL-E para sintetizar varias voces, y algunos ejemplos del trabajo están disponibles en GitHub. Aunque las muestras de voz compartidas por Microsoft varían en calidad, algunas suenan naturales, mientras que otras son claramente generadas por máquinas y suenan robóticas. Sin embargo, a medida que la tecnología de IA siga mejorando, es probable que las grabaciones generadas resulten más convincentes.
Puede leer también | ¿Puede la Inteligencia Artificial crear una película?
Sin embargo, hay preocupación por las implicaciones éticas de esta tecnología. A medida que la inteligencia artificial se haga más potente, las voces generadas por VALL-E y tecnologías similares serán más convincentes, lo que podría abrir la puerta a llamadas de spam realistas que reproduzcan las voces de personas reales que una víctima potencial conozca. También se podría suplantar la identidad de políticos y otros personajes públicos, lo que podría dar lugar a la difusión de información falsa en las redes sociales.
Puede leer también | Predicciones sobre Inteligencia Artificial y las tecnologías para 2023
Además, hay problemas de seguridad. Algunos bancos utilizan tecnología de reconocimiento de voz para verificar la identidad de la persona que llama, pero si las voces generadas por IA se vuelven más convincentes, podría resultar más difícil detectar si la persona que llama está utilizando una voz VALL-E. Además, la tecnología también puede afectar a los actores de doblaje, ya que sus servicios pueden dejar de ser necesarios si las voces generadas por IA se vuelven más realistas.
Puede leer también | La Inteligencia Artificial ya puede escribir código informático gracias a DeepMind
VALL-E es una impresionante herramienta de IA que puede revolucionar el campo de la síntesis de voz. Sin embargo, también plantea varios problemas éticos y de seguridad. Será importante que empresas como Microsoft desarrollen medidas que regulen el uso de VALL-E para garantizar que se utiliza para el bien y no con fines maliciosos.
"Los resultados del experimento muestran que Vall-E supera significativamente al sistema TTS de última generación [IA que recrea voces que nunca ha escuchado] en términos de naturalidad del habla y similitud del hablante", afirma el trabajo de investigación , disponible en Cornell. Universidad. "Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje acústico en síntesis".
Puedes escuchar ejemplos de Vall-E recreando voces en GitHub . Muchos son realmente sorprendentes, suenan casi idénticos al altavoz a pesar de estar basados en una muestra de audio tan corta. Hay algunos que son un poco más robóticos y suenan un poco más cerca del software tradicional de texto a voz, pero sigue siendo impresionante y podemos esperar que la IA mejore con el tiempo.