Microsoft lanza VALL-E, una IA como ChatGPT que imita tu voz con solo oírte 3 segundos

Por

10/01/2023

Los diferentes sistemas de inteligencia artificial florecen últimamente y Microsoft no quiere quedarse atrás. Así, el gigante tecnológico de Redmond ha presentado VALL-E, una IA capaz de reproducir tu voz de forma casi idéntica tras solo escucharte hablar durante tres segundos. E incluso puede imitar emociones, ambiente acústico y diferentes énfasis en las frases.

Microsoft ha desarrollado su enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS por sus siglas en inglés, text to speech). Y aseguran, como decimos, que “VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante”.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, explican.

Los usuarios pueden mantener conversaciones o resolver sus dudas con el chatbot GPT

Además, desde Microsoft están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3. Recordemos que la compañía dirigida por Satya Nadella acaba de anunciar que va a implementar ChatGPT dentro de sus principales soluciones, específicamente dijeron que llegará a Bing en el primer trimestre de este mismo año.

Es decir: la propia ChatGPT sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.

Aunque actives el mute de la videollamada, la plataforma puede seguir recopilando el audio.

En cuanto a la competencia, dicen desde Microsoft que “los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante”. “Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”, añaden.

Esto significa que, según la compañía -y según se puede comprobar en la plataforma que han desplegado para mostrar sus avances, en la que se incluye cómo se escucha VALL-E y otras soluciones-, esta IA ha mejorado lo presente en lo que a imitar voces se refiere.

Microsoft incluye en su web la muestra original de la voz y las imitaciones, así como reproducciones de esta cambiando el tono o las emociones.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Artículos relacionadosMás del autor

El superordenador que nació en una capilla: así trabaja MareNostrum 5, el cerebro europeo que acelera la ciencia y la IA

Sony podría estrenar una PS6 portátil al estilo Switch en 2027: esto es lo que sabemos sobre la consola

Científicos desarrollan una nariz electrónica capaz de identificar y diferenciar entre olores: así funciona

Artículos relacionados Más del autor