Los diferentes sistemas de inteligencia artificial florecen últimamente y Microsoft no quiere quedarse atrás. Así, el gigante tecnológico de Redmond ha presentado VALL-E, una IA capaz de reproducir tu voz de forma casi idéntica tras solo escucharte hablar durante tres segundos. E incluso puede imitar emociones, ambiente acústico y diferentes énfasis en las frases.

Microsoft ha desarrollado su enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS por sus siglas en inglés, text to speech). Y aseguran, como decimos, que “VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante”.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, explican.

Además, desde Microsoft están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3. Recordemos que la compañía dirigida por Satya Nadella acaba de anunciar que va a implementar ChatGPT dentro de sus principales soluciones, específicamente dijeron que llegará a Bing en el primer trimestre de este mismo año.

Es decir: la propia ChatGPT sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.

En cuanto a la competencia, dicen desde Microsoft que “los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante”. “Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”, añaden.

Esto significa que, según la compañía -y según se puede comprobar en la plataforma que han desplegado para mostrar sus avances, en la que se incluye cómo se escucha VALL-E y otras soluciones-, esta IA ha mejorado lo presente en lo que a imitar voces se refiere.

Microsoft incluye en su web la muestra original de la voz y las imitaciones, así como reproducciones de esta cambiando el tono o las emociones. 

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Artículo anteriorTrabajan por la crisis hídrica del Este
Artículo siguienteAdolescente disparó a su vecina con un arma de fuego casera
Catamarca Provincia, Diario de Catamarca, provincia del Norte de Argentina, con toda la información de la región actualizada y seleccionada. https://catamarcaprovincia.com.ar/ Esta compuesta por 3 comunicadores que trabajan para informar los eventos mas destacados y de interés, desde política a Entretenimiento y Virales.