Клонирование голоса ИИ: все, что вам нужно знать на данный момент

Опубликовано: 2023-06-12

Искусственный интеллект (ИИ) стал гораздо более правдоподобным, недавним примером является вирусное изображение Папы Римского в дутом пиджаке, обманувшее многих.

Но изображения — не единственные фрагменты контента, которые ИИ может убедительно создавать — также появляется клонирование голоса ИИ, которое, по сути, имитирует голос человека для различных вариантов использования. Примером может служить имитация голоса президента Джо Байдена во время его выступления перед Конгрессом.

Это еще один важный инструмент с высоким бизнес-потенциалом, но он может вызывать этические и юридические проблемы.

Эта статья даст вам представление о том, как работает искусственный интеллект для клонирования голоса, о проблемах, о которых вам нужно знать, и о том, что вы можете ожидать от этой технологии в будущем. В качестве бонуса мы покажем вам несколько приложений, которые вы можете использовать для клонирования своего голоса — разумеется, с точки зрения этики.

Что такое клонирование голоса ИИ?

Клонирование голоса ИИ использует программное обеспечение искусственного интеллекта для создания почти идентичного голоса говорящего, имитируя все, от произношения слогов до интонационных моделей.

Он отличается от синтеза речи, когда ИИ использует разные заранее определенные голоса для замены речи. Оба часто используются вместе, так как если у вас есть клон голоса ИИ, вы можете использовать его, чтобы говорить все, что хотите, на любом языке или эмоциях.

Аудиоклип, из которого программа для клонирования голоса должна извлечь уроки, не должен быть длинным. McAfee сообщает, что трехсекундного голосового фрагмента достаточно, чтобы ИИ мог изучить и скопировать говорящего.

Потенциал этой технологии ошеломляет, поскольку правительства во всем мире все еще определяют лучшие законы и правила для ее безопасного использования. Тем временем многие люди уже начали экспериментировать с инструментами искусственного интеллекта голосового клонирования для различных целей.

Текущее состояние клонирования голоса ИИ

Как и в случае с искусственным интеллектом на основе чата и фотогенерации, люди во всем мире все еще выясняют, как лучше всего использовать инструменты искусственного интеллекта для клонирования голоса. Ниже приведен общий обзор того, как люди и компании используют клонирование голоса ИИ.

Появление бесплатного программного обеспечения для клонирования голоса ИИ

Возможность клонирования голоса доступна не только технически подкованным или сверхбогатым людям. Поскольку многие компании в настоящее время предлагают программное обеспечение для клонирования голоса по разным ценам, неудивительно, что к 2028 году рынок будет расти со среднегодовым темпом роста (CAGR) 17,2%.

Конечно, качество продукции может быть не таким убедительным, как платные услуги, но количество предприятий, предлагающих этот тип программного обеспечения, подчеркивает спрос.

Копирование голосов знаменитостей

Имитация голосов знаменитостей стала самым популярным вариантом использования искусственного интеллекта для клонирования голоса, раздвигая творческие границы и вызывая потенциальные юридические проблемы. Многие известные люди, в том числе Тейлор Свифт, Джо Роган и бывшие президенты США, стали жертвами клонирования голоса ИИ.

Важный недавний пример произошел в апреле 2023 года, когда пользователь TikTok ghostwriter977 выпустил песню «Heart on my Sleeve», используя голоса международных исполнителей Drake и The Weeknd, несмотря на то, что никто на самом деле не поет и не имеет никакого отношения к проекту.

Многие утверждают, что это первая вирусная песня, сгенерированная искусственным интеллектом, которая набрала более 230 000 просмотров на YouTube и 625 000 прослушиваний на Spotify до того, как Universal Music Group — лейбл артистов — удалил ее из-за предупреждения о нарушении авторских прав.

Современные знаменитости не единственные, чьи голоса копируются.

Создатели документального фильма «Дневники Энди Уорхола» использовали программное обеспечение для создания синтетического голоса знаменитого поп-исполнителя Энди Уорхола, чтобы рассказывать отрывки из его дневника, оживляя его голос и подчеркивая, как технологии могут сохранять чью-то личность на долгое время. после того, как они прошли.

Обеспечивает большую доступность для людей с ограниченными возможностями

Одним из наиболее практичных вариантов использования искусственного интеллекта для клонирования голоса является помощь тем, кто рискует потерять голос или способность говорить из-за осложнений со здоровьем, таких как те, у кого недавно диагностирован БАС (боковой амиотрофический склероз), сохранить свой голос.

Одним из примеров является функция Apple Personal Voice, которую бренд анонсировал в мае 2023 года. Программное обеспечение позволяет пользователям создавать синтетический голос, который могут распознать их семья и друзья. Все, что им нужно сделать, это прочитать вслух фрагменты рандомизированных текстов в течение 15 минут, чтобы программа выучила и точно воспроизвела их вокальный профиль.

В Японии разрабатывается аналогичный сервис CoeFont, который даже предлагает бесплатное использование людям с трудностями в речи, например тем, кто заикается или у кого диагностирована дисфония. Они сообщили, что с момента запуска в мае 2023 года их сервисом воспользовались более 400 пользователей.

Дублирование и локализация контента

Все больше компаний понимают необходимость локализованного контента в глобализованном мире, тем более что примерно семь из десяти потребителей (68%) говорят, что они перейдут на бренд, предлагающий контент на их родном языке.

Традиционным методом локализации контента было бы нанять переводчика или иностранных актеров озвучивания для дублирования контента. Однако благодаря инновациям в технологиях это может быть необязательным.

Дублирование с помощью ИИ становится новой тенденцией, позволяющей создателям контента и продюсерским компаниям дублировать свой контент для различных международных рынков без найма иностранных художников за кадром. Развлекательные компании теперь могут выпускать сериалы, фильмы и песни на разных языках, чтобы привлечь местную аудиторию.

Примером может служить исполнитель K-pop Миднатт, выпускающий свою песню «Masquerade» на английском языке и использующий голосовой ИИ для выпуска версий на шести языках. Зрители, просматривающие музыкальное видео на YouTube, могут нажать «Настройки», чтобы изменить звуковую дорожку на свой язык, чтобы услышать разницу.

Его звукозаписывающая компания даже смогла синтезировать его женский голос, чтобы он мог сыграть в своей собственной песне, предоставив огромные творческие возможности для сольных музыкантов.

Участие в мошенничестве

Создание искусственного голоса позволило киберпреступникам обманывать непритязательных жертв, как это испытала в начале апреля 2023 года Дженнифер ДеСтефано, мать из Аризоны. преступники потребовали выкуп. Однако ее дочь все это время была в безопасности.

Федеральная торговая комиссия США (FTC) заявила, что ИИ позволил мошенникам усовершенствовать свои схемы семейных экстренных ситуаций, благодаря чему вы слышите, как любимый человек говорит, что у него проблемы, звучит гораздо убедительнее. В такие моменты некоторые эксперты рекомендуют согласовать «стоп-слово ИИ» со своими близкими, чтобы убедиться, что голос действительно принадлежит им.

Несмотря на это, негативные последствия общедоступного программного обеспечения для клонирования голоса ИИ очевидны. Многие люди высказывали этические и юридические опасения по поводу этой технологии, о которых вам следует знать, если вы собираетесь клонировать свой голос.

Этические и юридические аспекты искусственного интеллекта, клонирующего голос

Руководящие органы, предприятия и пользователи все еще работают над тем, чтобы понять все этические и юридические проблемы, которые может вызвать голосовой клон ИИ. Хотя это все еще зарождающаяся технология, ниже приведены некоторые распространенные проблемы, о которых следует знать.

Согласие и последствия для конфиденциальности

Легкость, с которой мошенники могут обучить программное обеспечение для клонирования голоса для изучения определенных голосов, подвергает создателей контента и музыкантов риску мошенничества и выдачи себя за другое лицо. Эти случаи ставят под сомнение, должны ли артисты и создатели контента охранять авторские права на свои голоса.

Кроме того, средства к существованию людей находятся под угрозой, поскольку вероятность кражи личных данных намного выше.

Он угрожает конфиденциальности и кибербезопасности, позволяя преступникам обходить системы голосовой аутентификации. Это произошло с Centrelink и Австралийским налоговым управлением (ATO), где преступники использовали синтетический голос, чтобы обмануть системы безопасности голосовых отпечатков, предназначенные для проверки личности посредством распознавания голоса.

Дезинформация и манипуляция

Глубокие подделки ИИ продолжают оставаться горячей темой для обсуждения, угрожая разделить сообщества и манипулировать ими. Беспокойство заключается в том, что искусственный интеллект, клонирующий голос, развивается, чтобы стать очень убедительным быстрее, чем правительства могут его регулировать.

Он может манипулировать репутацией знаменитости и влиять на нее, если онлайн-тролли публикуют аудиозапись знаменитости, извергающей оскорбительные комментарии или шутки; недавний пример — голос британской актрисы Эммы Уотсон, читающей «Майн кампф» Гитлера.

Воздействие на актеров, озвучивающих людей, и смещение рабочих мест

Многие люди беспокоятся о безопасности своей работы, поскольку ИИ становится все более и более способным выполнять традиционно человеческие задачи. Клонирование голоса ИИ особенно угрожает актерам озвучивания.

Уже были случаи, когда актеры озвучивания были шокированы, обнаружив, что ИИ копирует их вокал для использования людьми в своих проектах. В феврале 2023 года несколько актеров, озвучивающих видеоигры, публично осудили полученные ими контракты, требуя от них передать свои голоса ИИ.

Что станет с актерами озвучивания, если вам станет намного проще использовать ИИ для озвучивания или дублирования контента? Это вопрос, на который стоит обратить внимание, поскольку потенциально он может привести к тому, что тысячи актеров озвучивания перестанут работать.

Состояние клонирования голоса ИИ сложное. Многие до сих пор экспериментируют с технологией. Учитывая это, стоит задуматься о том, какое будущее ждет искусственный интеллект для клонирования голоса.

Что вы можете ожидать от клонирования голоса ИИ

Ничего про клонирование голоса ИИ не установлено. Поскольку мир продолжает понимать и открывать для себя возможности этой технологии, лучше подумать о том, что ее ждет в будущем.

1. Ужесточение государственного регулирования и более широкие этические дискуссии

Правительства, вероятно, введут более строгие правила в отношении использования искусственного интеллекта для клонирования голоса. Сенатор Ричард Блюменталь подчеркнул, насколько убедительным стало программное обеспечение для клонирования голоса, заставив технологию процитировать его вступительное заявление на недавних слушаниях в Сенате США.

Что могут включать эти правила и политики? Они могут решить, чьи голоса можно клонировать с помощью ИИ, и определить точные цели технологии. Он может предусматривать, что компании должны раскрывать информацию о том, используют ли они голосовой ИИ для любого из своих процессов. Кроме того, суды по-прежнему должны определять, кому принадлежат права на голос, созданный искусственным интеллектом.

Эти юридические параметры могут помочь людям защититься от рисков и опасностей клонированного голосового ИИ.

2. Более широкое использование для создания контента

Существуют этические способы использования приложений для клонирования голоса. Например, программное обеспечение для клонирования голоса может быть инструментом повышения производительности, если вы создаете безликий контент для YouTube. Обучение ИИ имитированию вашего голоса может значительно сократить время производства, поскольку вам больше не придется часами записывать и перезаписывать звук перед микрофоном.

Другим является маркетинг ИИ, который позволяет вам использовать ИИ для производства материалов с гораздо большей скоростью и меньшими затратами, чем раньше.

3. Больше детекторов ИИ

С учетом того, насколько убедительным стал ИИ, способность определить, является ли часть контента подлинно человеческой, имеет решающее значение, чтобы избежать дезинформации. Вы можете ожидать, что все больше людей создадут более надежные детекторы, гарантирующие, что, независимо от того, насколько убедителен контент, все, что вы потребляете, создано человеком.

4. Большая популярность голоса ИИ в индустрии развлечений.

Киноиндустрия становится все более удобной для дублирования с помощью ИИ, поскольку Ассоциация киноискусства (MPA) недавно присудила сертификат стартапу Deepdub, занимающемуся дублированием с помощью ИИ. Это звание гарантирует, что искусственный интеллект стартапа соответствует высоким стандартам индустрии развлечений.

Deepdub не единственный, кто предлагает услуги ИИ для индустрии развлечений. Многие венчурные капиталисты начали инвестировать в многочисленные стартапы в области ИИ, чтобы внедрить ИИ в такие кинокомпании, как Netflix, Marvel и Lucasfilm.

Аналогичным образом компания Flawless, занимающаяся искусственным интеллектом, объявила в мае 2023 года, что они сотрудничают с дистрибьюторами в США и Великобритании для выпуска английских версий неанглоязычных фильмов в разных регионах, дублированных и синхронизированных с помощью искусственного интеллекта.

Эксперты ожидают, что к 2030 году отрасль будет стоить 416,8 млрд долларов, и ИИ должен стать более интегрированным, чтобы производить больше высококачественного контента для потоковых сервисов.

Популярные приложения для клонирования голоса

Если вы хотите клонировать свой голос с помощью программного обеспечения, вот несколько популярных инструментов, которые вы можете проверить.

Напоминать.ИИ

Resemble.AI предлагает различные продукты и услуги, которые помогут вам создать синтетический голос, который вас удовлетворит. Например, если вы хотите заменить несколько слов в записанном аудио без повторной записи, их функция Resemble Fill поможет легко отредактировать клип.

У них также есть API-интерфейс Custom AI Voices, который разработчики могут интегрировать в различные инструменты, которые они уже используют. Их искусственному интеллекту, клонирующему голос, потребуется не менее трех минут аудио или произнесение 25 заранее определенных предложений, чтобы выучить голоса.

За словами

BeyondWords имеет библиотеку из более чем 550 голосов ИИ на более чем 140 языках, созданных с соблюдением этических норм; компания сотрудничает с актерами озвучивания в рамках контракта на клонирование голоса. Они также используют обработку естественного языка (NLP) для анализа пользовательского текста и преобразования его в аутентичную речь.

Репитер

Respeecher гордится тем, что позволяет создателям контента, кинематографистам и разработчикам игр создавать синтетические голоса. Примечательно, что они работали с такими компаниями, как Lucasfilms, чтобы создать сгенерированный искусственным интеллектом голос для старшего актера, повторяющего свою младшую роль, и Mondelez International для создания узконаправленного и локализованного маркетинга.

Компания использует как алгоритмы цифровой обработки сигналов, так и глубокую генеративную модель, чтобы позволить ее искусственному интеллекту изучать и имитировать не только голос, но также эмоции и передачу пассажей.

Одиннадцать лабораторий

Многие знают Eleven Labs по их библиотеке голосов знаменитостей, которую вы можете легко использовать для своего контента с их продуктом VoiceLab. Они продемонстрировали свой опыт, дублируя речь Леонардо ДиКаприо в Организации Объединенных Наций с другими знаменитостями, такими как Джо Роган и Стив Джобс.

Компания стремится генерировать реалистично звучащие голоса с помощью своей модели искусственного интеллекта, ориентированной на улавливание логики и эмоций в текстах с помощью платформы Speech Synthesis. Он собирает контекст о каждом предложении и абзаце, чтобы понять, как интонировать и говорить убедительно.

PlayHT

У PlatHT есть библиотека голосов, которые вы можете клонировать для своих проектов, от Илона Маска и Нила Деграсса Тайсона до Джона Ф. Кеннеди и Барака Обамы. Их программное обеспечение для клонирования голоса в реальном времени позволяет создавать синтетический голос, который улавливает стиль речи и сохраняет акцент и нюансы речи.

Их искусственному интеллекту, клонирующему голос, потребуется не менее часа чистого разговорного звука, чтобы начать анализ голоса и процесс обучения.

Важно отметить, что все эти компании изложили этические принципы своих продуктов, с которыми вы можете ознакомиться на их веб-сайте.

Держите ухо востро

Клонирование голоса ИИ может оказать значительное влияние на общество, как положительное, так и отрицательное. Хотя, с одной стороны, предприятия могут использовать технологии, чтобы помочь людям продолжать «говорить» еще долгое время после того, как они потеряли голос из-за заболеваний или авторов, чтобы сократить время производства.

Тем не менее, ИИ для клонирования голоса не полностью свободен от этических или юридических проблем. Мошенники по-прежнему могут использовать его, чтобы выдавать себя за людей в схемах семейных чрезвычайных ситуаций или для обхода голосовых аутентификаторов для доступа к особо важным и конфиденциальным данным.

В то время как правительства продолжают обсуждать возможные законы и политику в отношении надлежащего использования ИИ, частные компании должны использовать его более ответственно. Это включает в себя следование передовым методам кибербезопасности, таким как запрос согласия на доступ к данным потребителей и соблюдение прозрачности в отношении того, как вы используете технологию.

ИИ для клонирования голоса продолжает развиваться. Если вы будете в курсе ее последних разработок, вы сможете понять, как лучше всего использовать эту технологию, чтобы предоставить вашим клиентам ценность, которую ИИ не может воспроизвести.

Готовы узнать больше? Давайте поговорим .