Clonación de voz con IA: todo lo que necesita saber por ahora

Publicado: 2023-06-12

La inteligencia artificial (IA) se ha vuelto mucho más creíble, y un ejemplo reciente es la imagen viral del Papa con una chaqueta hinchada que engaña a muchos.

Pero las imágenes no son las únicas piezas de contenido que la IA puede producir de manera convincente: también está surgiendo la clonación de voz de la IA, que esencialmente imita la voz de uno para diferentes casos de uso. Un ejemplo es la imitación de la voz del presidente Joe Biden durante su discurso sobre el Estado de la Unión.

Está demostrando ser otra herramienta importante con un gran potencial comercial, pero que puede generar inquietudes éticas y legales.

Este artículo le dará una idea de cómo funciona la IA de clonación de voz, las preocupaciones que debe tener en cuenta y lo que puede esperar del futuro de esta tecnología. Como beneficio adicional, le mostraremos algunas aplicaciones que puede usar para clonar su voz, éticamente, por supuesto.

¿Qué es la clonación de voz con IA?

La IA de clonación de voz utiliza software de inteligencia artificial para crear una voz casi idéntica de un hablante, imitando todo, desde la pronunciación de las sílabas hasta los patrones de entonación.

Se diferencia de la síntesis de voz, donde la IA utiliza diferentes voces predefinidas para reemplazar el habla. Ambos se usan a menudo juntos, ya que una vez que tienes un clon de voz de IA, puedes usarlo para decir lo que quieras en cualquier idioma o emoción.

El clip de audio del que el software de clonación de voz necesita aprender no tiene que ser largo. McAfee informa que un clip de voz de tres segundos es suficiente para que la IA aprenda y copie al hablante.

El potencial de esta tecnología es asombroso, ya que los gobiernos de todo el mundo todavía están determinando las mejores leyes y reglamentos para su uso seguro. Mientras tanto, muchas personas ya han comenzado a experimentar con herramientas de IA de clonación de voz para varios propósitos.

El estado actual de la clonación de voz con IA

Al igual que con la IA basada en chat y generadora de fotografías, las personas en todo el mundo todavía están descubriendo cómo utilizar mejor las herramientas de IA de clonación de voz. A continuación se muestra una descripción general de cómo las personas y las empresas utilizan la clonación de voz con IA.

El auge del software gratuito de clonación de voz con IA

La capacidad de clonar la voz no es exclusiva de los expertos en tecnología o los superricos. Dado que numerosas empresas ahora ofrecen software de clonación de voz a precios variables, no sorprende que el mercado crezca a una tasa de crecimiento anual compuesto (CAGR) del 17,2 % para 2028.

Por supuesto, la calidad de salida puede no ser tan convincente como la de los servicios pagos, pero la cantidad de empresas que ofrecen el tipo de software subraya la demanda.

Replicando voces de celebridades

Imitar las voces de las celebridades se ha convertido en el caso de uso más popular de la IA de clonación de voz, empujando los límites creativos y planteando posibles problemas legales. Muchas personas famosas, incluidos Taylor Swift, Joe Rogan y ex presidentes de EE. UU., han sido víctimas de la clonación de voz de IA.

Un ejemplo reciente significativo ocurrió en abril de 2023, cuando el usuario de TikTok, ghostwriter977, lanzó la canción "Heart on my Sleeve", usando las voces de los artistas internacionales Drake y The Weeknd, a pesar de que ninguno cantaba ni estaba conectado al proyecto de ninguna manera.

Muchos argumentan que es la primera canción viral generada por IA, que recibió más de 230 000 visitas en YouTube y 625 000 reproducciones en Spotify antes de que Universal Music Group, el sello discográfico de los artistas, la eliminara.

Las celebridades de hoy en día no son las únicas a las que se les replican sus voces.

Los realizadores del documental The Andy Warhol Diaries usaron software para crear una voz sintética del famoso artista pop Andy Warhol, para narrar partes de su diario, revivir su voz y resaltar cómo la tecnología tiene el potencial de preservar la identidad de alguien por mucho tiempo. después de que hayan pasado.

Proporciona más accesibilidad para las personas con discapacidad

Uno de los casos de uso más prácticos de la IA de clonación de voz es ayudar a las personas en riesgo de perder la voz o la capacidad de hablar debido a complicaciones de salud, como las personas recientemente diagnosticadas con ELA (esclerosis lateral amiotrófica), a preservar su voz.

Un ejemplo es la función Personal Voice de Apple, que la marca presentó en mayo de 2023. El software permite a los usuarios crear una voz sintética que sus familiares y amigos pueden reconocer. Todo lo que necesitan hacer es leer partes de textos aleatorios en voz alta durante 15 minutos para que el software aprenda y reproduzca su perfil vocal con precisión.

En Japón se está desarrollando un servicio similar, CoeFont, que incluso ofrece uso gratuito para personas que tienen dificultades para hablar, como las que tartamudean o tienen un diagnóstico de disfonía. Han informado que más de 400 usuarios han utilizado su servicio desde su lanzamiento en mayo de 2023.

Doblaje y localización de contenidos

Más empresas entienden la necesidad de contenido localizado en el mundo globalizado, especialmente porque aproximadamente siete de cada diez consumidores (68 %) dicen que cambiarían a una marca que ofrece contenido en su idioma nativo.

El método tradicional para localizar contenido sería contratar a un traductor o actores de voz extranjeros para doblar el contenido. Sin embargo, gracias a las innovaciones en tecnología, eso puede ser opcional.

El doblaje de IA se está convirtiendo en una tendencia emergente que permite a los creadores de contenido y las compañías de producción doblar su contenido para varios mercados internacionales sin contratar locutores extranjeros. Las empresas de entretenimiento ahora pueden lanzar series, películas y canciones en diferentes idiomas para atraer a la audiencia local.

Un ejemplo es el artista de K-pop Midnatt lanzando su canción, "Masquerade", en inglés y usando voz AI para lanzar versiones en seis idiomas. Los espectadores que miran el video musical en YouTube pueden hacer clic en Configuración para cambiar la pista de audio a su idioma y escuchar la diferencia.

Su sello discográfico incluso pudo sintetizar su voz como una mujer para que pudiera aparecer en su propia canción, presentando grandes oportunidades creativas para los músicos solistas.

Contribuir a las estafas

La creación de una voz sintética ha permitido a los ciberdelincuentes estafar a víctimas sin pretensiones, como lo experimentó Jennifer DeStefano, una madre en Arizona, a principios de abril de 2023. Recibió una preocupante llamada telefónica de quien creía que era su hija, llorando y diciendo que había sido secuestrada y los delincuentes exigieron un rescate. Sin embargo, su hija estuvo a salvo todo el tiempo.

La Comisión Federal de Comercio (FTC, por sus siglas en inglés) de EE. UU. dijo que AI ha permitido que los estafadores mejoren sus esquemas de emergencia familiar, lo que hace que te parezca mucho más convincente escuchar a un ser querido decir que está en problemas. En estos momentos, algunos expertos recomiendan acordar una "palabra segura de IA" con sus seres queridos para asegurarse de que la voz sea realmente de ellos.

De todos modos, las implicaciones negativas del software de clonación de voz AI de acceso público son claras. Muchas personas han planteado inquietudes éticas y legales sobre esta tecnología que debe tener en cuenta si tiene la intención de clonar su voz.

Preocupaciones éticas y legales de la IA de clonación de voz

Los órganos rectores, las empresas y los usuarios todavía están trabajando para comprender todas las preocupaciones éticas y legales que puede traer un clon de voz de IA. Aunque todavía es una tecnología incipiente, a continuación se presentan algunos problemas frecuentes que debe tener en cuenta.

Consentimiento e implicaciones de privacidad

La facilidad con la que los estafadores pueden entrenar el software de clonación de voz para aprender voces específicas pone a los creadores de contenido y a los músicos en riesgo de fraude y suplantación de identidad. Estos casos ponen en duda si los artistas y creadores de contenido deberían o no registrar sus voces.

Además, los medios de vida de las personas se ven amenazados ya que el potencial de robo de identidad es mucho mayor.

Amenaza la privacidad y la ciberseguridad al permitir que los delincuentes eludan los sistemas de autenticación basados ​​en la voz. Esto le ocurrió a Centrelink y la Oficina de Impuestos de Australia (ATO), donde los delincuentes usaron una voz sintética para engañar a los sistemas de seguridad de huellas de voz destinados a verificar identidades a través del reconocimiento de voz.

Desinformación y manipulación

Las falsificaciones profundas de IA siguen siendo un tema candente de debate, y amenazan con dividir y manipular a las comunidades. La preocupación es que la IA de clonación de voz está evolucionando para volverse muy convincente más rápido de lo que los gobiernos pueden regularla.

Puede manipular y afectar la reputación de una celebridad si los trolls en línea publican un audio de una celebridad lanzando comentarios ofensivos o chistes; un ejemplo reciente es la voz de la actriz británica Emma Watson leyendo Mein Kampf de Hitler.

Impacto en los actores de voz humana y el desplazamiento laboral

Muchas personas se preocupan por la seguridad de su trabajo a medida que la IA se vuelve cada vez más capaz de realizar tareas tradicionalmente humanas. La IA de clonación de voz amenaza especialmente a los actores de doblaje.

Ya ha habido incidentes en los que los actores de doblaje se sorprendieron al descubrir que AI copiaba sus voces para que las personas las usaran en sus proyectos. En febrero de 2023, algunos actores de doblaje de videojuegos condenaron públicamente los contratos que recibieron y les exigieron ceder sus voces a AI.

¿Qué será de los actores de doblaje si se vuelve mucho más fácil usar IA para narrar o doblar contenido para ti? Es una pregunta que vale la pena analizar, ya que potencialmente puede hacer que miles de actores de doblaje pierdan su trabajo.

El estado de la clonación de voz de IA es complicado. Muchos todavía están experimentando con la tecnología. Dado eso, vale la pena considerar lo que depara el futuro para la IA de clonación de voz.

Lo que puede esperar con la clonación de voz con IA

No se establece nada sobre la IA de clonación de voz. A medida que el mundo continúa entendiendo y descubriendo las posibilidades de esta tecnología, es mejor considerar lo que le depara el futuro.

1. Regulación gubernamental más estricta y discusiones éticas más amplias

Es probable que los gobiernos impongan regulaciones más estrictas sobre el uso de la IA de clonación de voz. El senador Richard Blumenthal destacó lo convincente que se ha vuelto el software de clonación de voz al hacer que la tecnología recite su declaración de apertura en una audiencia reciente en el Senado de EE. UU.

¿Qué podrían incluir estas regulaciones y políticas? Pueden abordar qué voces se pueden clonar a través de IA y definir los propósitos exactos de la tecnología. Podría estipular que las empresas deben revelar si utilizan o no inteligencia artificial de voz para alguno de sus procesos. Además, los tribunales aún deben determinar quién posee los derechos de una voz generada por IA.

Estos parámetros legales podrían ayudar a las personas a protegerse contra los riesgos y peligros de la IA de voz clonada.

2. Mayor uso para la creación de contenido

Hay usos éticos para las aplicaciones de clonación de voz. Por ejemplo, el software de clonación de voz puede ser una herramienta de productividad si eres un creador de contenido de video que produce contenido de YouTube sin rostro. Entrenar a la IA para imitar su voz puede reducir significativamente el tiempo de producción, ya que ya no tendrá que pasar horas grabando y regrabando audio frente a un micrófono.

Otro es el marketing de IA, que le permite aprovechar la IA para producir materiales a un ritmo mucho más rápido y a un costo más bajo que antes.

3. Más detectores de IA

Con lo convincente que se ha vuelto la IA, la capacidad de discernir si un contenido es auténticamente humano es crucial para evitar caer en la desinformación. Puede esperar ver a más personas crear detectores más confiables para garantizar que, sin importar qué tan convincente sea un contenido, todo lo que consume está hecho por un humano.

4. Mayor popularidad de la voz de IA en la industria del entretenimiento

La industria cinematográfica se está sintiendo cada vez más cómoda con el doblaje de IA, y la Motion Picture Association (MPA) otorgó recientemente la certificación a la startup de doblaje de IA Deepdub. Este título garantiza que la IA de la startup pueda cumplir con los altos estándares de la industria del entretenimiento.

Deepdub no es el único que ofrece servicios de inteligencia artificial a la industria del entretenimiento. Muchos capitalistas de riesgo han comenzado a invertir en numerosas nuevas empresas de IA para llevar la IA a las productoras de películas como Netflix, Marvel y Lucasfilm.

En un desarrollo similar, la empresa de IA Flawless anunció en mayo de 2023 que se asociarán con distribuidores de EE. UU. y el Reino Unido para lanzar versiones en inglés de películas que no están en inglés en diferentes regiones, dobladas y sincronizadas por IA.

Dado que los expertos esperan que la industria tenga un valor de $ 416.8 mil millones para 2030, la IA está lista para integrarse más para producir más contenido de alta calidad para los servicios de transmisión.

Aplicaciones populares de clonación de voz

Si desea clonar su voz a través del software, aquí hay algunas herramientas populares que puede consultar.

Parecido.AI

Resemble.AI ofrece varios productos y servicios para ayudarlo a crear una voz sintética con la que esté satisfecho. Por ejemplo, si desea reemplazar algunas palabras en su audio grabado sin volver a grabar, su función Relleno parecido ayudará a editar el clip sin problemas.

También tienen una API personalizada de AI Voices que los desarrolladores pueden integrar en varias herramientas que ya usan. Su IA de clonación de voz solo necesitará al menos tres minutos de audio o decir 25 oraciones predeterminadas para aprender voces.

Más allá de las palabras

BeyondWords tiene una biblioteca de más de 550 voces de IA en más de 140 idiomas creadas éticamente; la compañía colabora con actores de doblaje a través de su Contrato de Clonación de Voz. También utilizan el Procesamiento del lenguaje natural (NLP) para analizar el texto del usuario y convertirlo en un discurso que suene auténtico.

Respeto

Respeecher se enorgullece de permitir que los creadores de contenido, cineastas y desarrolladores de juegos creen voces sintéticas. En particular, han trabajado con empresas como Lucasfilms para generar una voz generada por IA para un actor mayor que retoma su papel más joven y Mondelez International para producir marketing localizado y altamente dirigido.

La empresa utiliza algoritmos de procesamiento de señales digitales y un modelo generativo profundo para permitir que su inteligencia artificial aprenda e imite no solo la voz sino también las emociones y la entrega de pasajes.

once laboratorios

Muchos conocen Eleven Labs por su biblioteca de voces de celebridades, que puede usar fácilmente para su contenido con su producto VoiceLab. Demostraron su experiencia al doblar el discurso de Leonardo DiCaprio en las Naciones Unidas con otras celebridades, como Joe Rogan y Steve Jobs.

La empresa tiene como objetivo generar voces que suenen realistas con su modelo de IA centrado en capturar la lógica y las emociones en los textos con su plataforma Speech Synthesis. Reúne contexto sobre cada oración y párrafo para entender cómo entonar y hablar de manera convincente.

ReproducirHT

PlatHT tiene una biblioteca de voces que puede clonar para sus proyectos, desde Elon Musk y Neil DeGrasse Tyson hasta John F. Kennedy y Barack Obama. Su software de clonación de voz en tiempo real le permite crear una voz sintética que captura el estilo de habla y conserva el acento y los matices del habla del sujeto.

Su IA de clonación de voz requerirá al menos una hora de audio claro para iniciar su proceso de aprendizaje y análisis vocal.

Es importante tener en cuenta que todas estas empresas han descrito la ética detrás de sus productos, que puede ver en su sitio web.

Mantener la oreja pegada al suelo

La clonación de voz por IA puede tener efectos considerables en la sociedad, tanto positivos como negativos. Mientras que, por un lado, las empresas pueden usar la tecnología para ayudar a las personas a seguir “hablando” mucho después de perder la voz debido a condiciones médicas o creadores para reducir su tiempo de producción.

Dicho esto, la IA de clonación de voz no está completamente libre de preocupaciones éticas o legales. Los estafadores aún pueden usarlo para hacerse pasar por personas en esquemas de emergencia familiar o para eludir los autenticadores de voz para acceder a datos altamente confidenciales.

Si bien los gobiernos continúan discutiendo posibles leyes y políticas sobre el uso apropiado de la IA, depende de las empresas privadas usarla de manera más responsable. Eso incluye seguir las mejores prácticas de ciberseguridad, como solicitar el consentimiento para acceder a los datos del consumidor y practicar la transparencia con la forma en que usa la tecnología.

La IA de clonación de voz continúa evolucionando. Mantenerse actualizado sobre sus últimos desarrollos puede ayudarlo a comprender la mejor manera de utilizar la tecnología para brindar valor a sus clientes que la IA no puede replicar.

¿Listo para aprender más? hablemos _