Hablar con un japonés y escucharlo en español: las máquinas ya ganan terreno en la interpretación de idiomas

La inteligencia artificial es capaz de traducir en tiempo real y con voz las conversaciones en videollamadas, tal y como hacen los intérpretes

Una mujer habla con varias personas a través de una videoconferencia.Morsa Images (Getty Images)

Hasta hace poco, habría sonado a ciencia ficción: conectarse en una videollamada donde en la pantalla está un individuo que vive al otro lado del mundo. Esta persona habla en japonés, pero usted, a través de sus auriculares, escucha sus palabras en español. Esto es una situación similar a lo que hacen los intérpretes, que traducen para diferentes idiomas de manera presencial o en línea. Sin embargo, la gran diferencia es que aquí no hay un humano involucrado, sino una inteligencia artificial (IA) que traduce y pronuncia el discurso en otro idioma de manera simultánea.

...

Suscríbete para seguir leyendo

Lee sin límites

Hasta hace poco, habría sonado a ciencia ficción: conectarse en una videollamada donde en la pantalla está un individuo que vive al otro lado del mundo. Esta persona habla en japonés, pero usted, a través de sus auriculares, escucha sus palabras en español. Esto es una situación similar a lo que hacen los intérpretes, que traducen para diferentes idiomas de manera presencial o en línea. Sin embargo, la gran diferencia es que aquí no hay un humano involucrado, sino una inteligencia artificial (IA) que traduce y pronuncia el discurso en otro idioma de manera simultánea.

Kudo, una empresa que ha crecido en el mercado al conectar intérpretes de idiomas con clientes corporativos, ha dado un paso adelante al incluir una tecnología que realiza traducciones simultáneas en conferencias en línea. Y no se trata de traducir frases escritas, sino que lleva a cabo traducciones en voz, permitiendo a los participantes de una videoconferencia escuchar la traducción como si tuvieran un intérprete presente.

En una demostración realizada para EL PAÍS, Tzachi Levy, jefe de producto de Kudo, habla en inglés mientras su discurso se escucha casi en tiempo real en español. Aunque la voz suena un tanto robótica y hay un ligero retraso comparado con una traducción realizada por una persona, el resultado sigue siendo sorprendente. Mientras que una interpretación humana suele tener un retraso de 5 a 7 segundos, la experiencia artificial ronda los 10.

La compañía cuenta con 20 clientes corporativos que ya utilizan esa funcionalidad, que sigue en constante mejora. Esta herramienta funciona en la propia plataforma de videoconferencias de Kudo, pero también está integrada con Microsoft Teams, muy popular en el mundo corporativo.

En Kudo hacen hincapié en que en situaciones donde se requiere una precisión del 100% en la traducción, el intérprete humano siempre será la mejor opción. El directivo pone como ejemplo las sesiones del Parlamento Europeo: “Probablemente, no se recurrirá a sistemas artificiales, pero en reuniones más pequeñas, donde no hay intérpretes disponibles en el momento, esta solución puede ser efectiva”.

Levy señala que el avance de la IA es inevitable y que los progresos que originalmente se pensaba que tardarían de 5 a 10 años, se han logrado en cuestión de meses. El campo evoluciona tan rápido que, según calcula, en el próximo año la IA podría lograr con precisión traducciones simultáneas en un 90% de las situaciones comunes.

La inteligencia artificial y la humana

En junio de este año, Wired hizo una comparativa entre la tecnología de Kudo y la interpretación realizada por expertos. Los humanos obtuvieron resultados bastante superiores frente a la herramienta de IA, principalmente en lo que se refiere al contexto de los discursos. Claudio Fantinuoli, jefe de Tecnología de Kudo y creador de la herramienta automática de traducción, asegura a EL PAÍS que el modelo evaluado por el medio estadounidense hace tres meses ya ha sido mejorado en un 25%. El próximo paso en el desarrollo consiste en integrar la inteligencia artificial generativa para que la experiencia del usuario sea más agradable: que la voz suene más fluida, humana y que capture la entonación.

Uno de los desafíos principales, según Fantinuoli, es lograr que la IA pueda interpretar el contexto de la narrativa, lo que un humano entiende que está entre líneas. Ese reto sigue siendo grande, pero se mejora “con modelos de lenguaje grandes”, como el que está por detrás de los chatbots conversacionales.

Fantinuoli, que también es profesor universitario y enseña a jóvenes estudiantes que aspiran convertirse en intérpretes profesionales en un futuro, opina que “no ve conflicto” entre la IA y la formación humana. Además, asegura que el trabajo de un experto será siempre de mayor calidad. “Intento hacer que comprendan que los robots son una realidad en el mercado y que ellos tienen que ser la parte superior. La IA los está impulsando a ser muy buenos intérpretes”, matiza.

Una voz, muchos idiomas

Una posibilidad que se ve en un futuro cercano es la de añadir la propia voz del hablante en la traducción. Fantinuoli afirma que técnicamente eso ya es factible y se trata de una cuestión de pocos meses para añadirle a la herramienta de su empresa. Otras compañías ya han comprobado la posibilidad de usar una sola voz para reproducir contenido en diferentes idiomas, pero no de forma simultánea. Es el caso de la plataforma ElevenLabs, que da vida a contenidos en 30 idiomas distintos a partir de una misma voz.

El proceso es sencillo: basta con cargar un audio de más de un minuto de duración con el habla que se desea replicar. A partir de este archivo, la herramienta lee en voz alta el texto que desee, ya sea en el mismo idioma original u otros disponibles. La plataforma brinda la opción de realizar ajustes personalizados, afinando la claridad de la lectura o incluso exagerando el estilo de la voz según las preferencias. La regeneración no solo imita la voz, sino que captura y refleja matices distintivos, como el tono, el ritmo, el acento y la entonación.

Recientemente, Meta ha lanzado un modelo de traducción multimodal, que puede realizar traducciones de voz a texto, de voz a voz, de texto a voz y de texto a texto para hasta 100 idiomas, dependiendo de la tarea. Una de las promesas es para hablantes políglotas, aquellos que mezclan dos o tres idiomas en una sola frase. La empresa de Mark Zuckerberg afirma que este modelo es capaz de discernir los diferentes idiomas en juego y realizar las traducciones correspondientes. Si bien es cierto que aún muestra algunos pequeños errores cuando se trata de esta característica, funciona bastante bien cuando la frase se expresa en un único idioma. La herramienta está disponible gratuitamente en su versión Beta.

Claudio Fantinuoli considera que la nueva herramienta de Meta es sorprendente y la compara como “el ChatGPT del discurso hablado”. “Lo que hacen es juntar todos los modelos, que pueden hacer muchas tareas al mismo tiempo. Esto es futuro”, concluye.

Puedes seguir a EL PAÍS Tecnología en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.

Sobre la firma

Más información

Archivado En