OpenAI lanza una herramienta de audio capaz de clonar las voces humanas

El programa de inteligencia artificial solo necesita una muestra de 15 segundos para desarrollar su recreación

Sam Altman, el consejero delegado de OpenAI, en una imagen de 2023.Carlos Barria (REUTERS)

Washington - 30 mar 2024 - 03:30CET

Clonar la voz humana de forma fidedigna con una muestra de tan solo 15 segundos. Eso es lo que consigue la última herramienta de inteligencia artificial creada por OpenAI, la firma que deslumbró al mundo con ChatGPT, su programa de lenguaje de IA generativa.

“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se asemeja mucho al hablante original. Es notable que un pequeño modelo con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, ha indicado la firma que dirige Sam Altman a través de un comunicado.

Todo lo que tiene que hacer el usuario es aportar esa muestra. Una vez que el programa Voice Engine la tenga, puede hacer que lea con el timbre y tono de esa voz cualquier texto que se le facilite. El texto ni siquiera tiene que ser en el mismo idioma. Un hablante de español puede facilitar la muestra en su lengua y luego pedir al programa que lea con su voz un texto en inglés, en chino o en otros idiomas.

También puede usarse directamente para la traducción de audios. Es más, cuando se utiliza para traducir, Voice Engine conserva el acento nativo del hablante original: por ejemplo, al generar inglés con una muestra de audio de un hablante de francés, se produciría un habla con acento francés.

Uso restringido

La empresa prefiere lanzar de momento un ensayo a pequeña escala en lugar de facilitar el acceso generalizado a la herramienta, como hizo con ChatGPT, pues es consciente del riesgo de suplantación de identidad. Con la herramienta, basta grabar 15 segundos a alguien para hacerse con su voz.

”Estamos adoptando un enfoque cauteloso e informado ante un lanzamiento más amplio debido al potencial de uso indebido de las voces sintéticas”, indica OpenAI. “Esperamos iniciar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo puede adaptarse la sociedad a estas nuevas capacidades. Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo”, añade.

OpenAI considera que antes de generalizar el acceso a la nueva herramienta, hay que tomar decisiones sobre una serie de aspectos. Por ejemplo, pide eliminar progresivamente la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible, puesto que dejaría de ser segura.

También considera necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es especialmente marcado en el caso de personajes públicos, incluidos políticos.

Por ello, reclama además que se eduque al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenidos de IA engañosos.

Otra propuesta que pone sobre la mesa consiste en acelerar el desarrollo y la adopción de técnicas para rastrear el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.

“Es importante que la gente de todo el mundo entienda hacia dónde se dirige esta tecnología, tanto si al final la desplegamos ampliamente nosotros mismos como si no. Esperamos seguir participando en conversaciones sobre los retos y oportunidades de las voces sintéticas con responsables políticos, investigadores, desarrolladores y creativos”, concluye OpenAI.

En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo de lenguaje, sino también de imágenes y de generación de vídeo. El mes pasado presentó Sora, una revolucionaria herramienta de vídeo a la que le bastaba un texto para crear un vídeo corto con el contenido y estilo requerido.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Sobre la firma

Miguel Jiménez

Corresponsal jefe de EL PAÍS en Estados Unidos. Ha desarrollado su carrera en EL PAÍS, donde ha sido redactor jefe de Economía y Negocios, subdirector y director adjunto y en el diario económico Cinco Días, del que fue director.