Google está más cerca de ofrecer traducción simultánea de voz

A diferencia de lo que se hacía hasta ahora, en que primero se traduce la voz a texto y luego este texto se convierte de nuevo en voz en el idioma traducido, el nuevo sistema de Google, el modelo de extremo a extremo, traduce directamente la voz de un orador a otro idioma.

Según explica Google en su blog de inteligencia artificial,Translatotron utiliza un modelo de red secuencia a secuencia que toma una entrada de voz, la procesa como un espectrograma (una representación visual de frecuencias) y genera un nuevo espectrograma en el idioma de destino.

Como resultado se consigue una traducción mucho más rápida con menos probabilidades de que parte del mensaje se pierda en el camino.

La herramienta también funciona con un componente de codificador de altavoz opcional, lo que permite mantener la voz de un hablante. El discurso traducido todavía suena un poco robótico, pero aun así conserva algunas características de la voz del emisor, con lo que nos podemos oír a nosotros mismos hablando en otro idioma.

La aparición de modelos de extremo a extremo en la traducción de voz comenzó en 2016, cuando los investigadores demostraron la viabilidad de utilizar un único modelo de secuencia a secuencia para la traducción de voz a texto.

En 2017 Google demostró que este sistema era mejor que el modelo “en cascada” utilizado habitualmente, y desde entonces han estado desarrollando la tecnología para sacarle partido.

El año pasado, la compañía introdujo acentos en Google Translate que pueden hablar una variedad de idiomas en pronunciaciones basadas en regiones y agregó más idiomas a su función de traducción en tiempo real. A principios de este año, el Asistente de Google obtuvo un “modo de intérprete” para pantallas inteligentes y altavoces que puede tener entre 26 idiomas.

Según Google, el sistema Translatotron va un paso más allá al demostrar que un solo modelo de secuencia a secuencia puede traducir directamente el habla de un idioma al habla en otro idioma, sin tener que hacer el paso intermedio de pasar la voz a texto en ninguno de los idiomas, como se requiere en los sistemas en cascada. Te puede interesar.

Artículo publicado en lavanguardia.com