Klonowanie głosu AI: wszystko, co na razie musisz wiedzieć

Opublikowany: 2023-06-12

Sztuczna inteligencja (AI) stała się znacznie bardziej wiarygodna, czego niedawnym przykładem jest wirusowy obraz papieża w bufiastej kurtce, który wielu oszukuje.

Ale obrazy to nie jedyne treści, które sztuczna inteligencja może w przekonujący sposób stworzyć — pojawia się również klonowanie głosu przez sztuczną inteligencję, które zasadniczo naśladuje czyjś głos w różnych przypadkach użycia. Przykładem jest naśladowanie głosu prezydenta Joe Bidena podczas jego orędzia o stanie Unii.

Okazuje się, że jest to kolejne ważne narzędzie o dużym potencjale biznesowym, ale może budzić wątpliwości natury etycznej i prawnej.

W tym artykule dowiesz się, jak działa sztuczna inteligencja do klonowania głosu, jakie są obawy, o których musisz wiedzieć, i czego możesz się spodziewać po przyszłości tej technologii. Jako bonus pokażemy Ci kilka aplikacji, których możesz użyć do sklonowania swojego głosu — oczywiście etycznie.

Co to jest klonowanie głosu AI?

Sztuczna inteligencja do klonowania głosu wykorzystuje oprogramowanie sztucznej inteligencji do stworzenia niemal identycznego głosu mówiącego, naśladując wszystko, od wymowy sylab po wzorce intonacji.

Różni się od syntezy mowy, w której sztuczna inteligencja używa różnych, predefiniowanych głosów w celu zastąpienia mowy. Oba są często używane razem, ponieważ gdy już masz klon głosu AI, możesz go użyć, aby powiedzieć, co chcesz, w dowolnym języku lub emocjach.

Klip audio, z którego oprogramowanie do klonowania głosu musi się uczyć, nie musi być długi. McAfee informuje, że trzysekundowy klip głosowy jest wystarczająco długi, aby sztuczna inteligencja nauczyła się i skopiowała mówcę.

Potencjał tej technologii jest oszałamiający, ponieważ rządy na całym świecie wciąż ustalają najlepsze prawa i przepisy, które należy wprowadzić w celu jej bezpiecznego użytkowania. W międzyczasie wiele osób zaczęło już eksperymentować z narzędziami sztucznej inteligencji do klonowania głosu w różnych celach.

Obecny stan klonowania głosu AI

Podobnie jak w przypadku sztucznej inteligencji opartej na czacie i generującej zdjęcia, ludzie na całym świecie wciąż zastanawiają się, jak najlepiej wykorzystać klonowane narzędzia sztucznej inteligencji głosowej. Poniżej znajduje się ogólny przegląd tego, jak ludzie i firmy korzystają z klonowania głosu AI.

Powstanie bezpłatnego oprogramowania do klonowania głosu AI

Możliwość klonowania głosu nie jest dostępna wyłącznie dla osób obeznanych z technologią lub superbogatych. Ponieważ wiele firm oferuje obecnie oprogramowanie do klonowania głosu w różnych cenach, nie jest zaskakujące, że do 2028 r. rynek będzie rósł w tempie 17,2% rocznie.

Oczywiście jakość wyjściowa może nie być tak przekonująca jak płatne usługi, ale liczba firm oferujących tego typu oprogramowanie podkreśla popyt.

Replikacja głosów celebrytów

Naśladowanie głosów celebrytów stało się najpopularniejszym przypadkiem użycia sztucznej inteligencji do klonowania głosu, przesuwając granice kreatywności i rysując potencjalne problemy prawne. Wiele znanych osób, w tym Taylor Swift, Joe Rogan i byli prezydenci USA, padło ofiarą klonowania głosu AI.

Znaczący niedawny przykład miał miejsce w kwietniu 2023 r., kiedy użytkownik TikTok ghostwriter977 wydał piosenkę „Heart on my Sleeve”, używając głosów międzynarodowych artystów Drake’a i The Weeknd – mimo że żaden z nich nie śpiewał ani nie był powiązany z projektem w jakimkolwiek charakterze.

Wielu twierdzi, że jest to pierwsza wirusowa piosenka wygenerowana przez sztuczną inteligencję, która uzyskała ponad 230 000 wyświetleń na YouTube i 625 000 streamów na Spotify, zanim została usunięta przez ostrzeżenia o naruszeniu praw autorskich przez Universal Music Group – wytwórnię artystów.

Współcześni celebryci nie są jedynymi, którym powiela się głosy.

Twórcy filmu dokumentalnego The Andy Warhol Diaries wykorzystali oprogramowanie do stworzenia syntetycznego głosu słynnego artysty popowego, Andy'ego Warhola, do narracji fragmentów jego pamiętnika, przywrócenia jego głosu i podkreślenia, w jaki sposób technologia może zachować czyjąś tożsamość na długo po ich przejściu.

Zapewnia większą dostępność dla osób niepełnosprawnych

Jednym z bardziej praktycznych zastosowań sztucznej inteligencji do klonowania głosu jest pomoc osobom zagrożonym utratą głosu lub zdolności mówienia z powodu komplikacji zdrowotnych, takich jak osoby, u których niedawno zdiagnozowano ALS (stwardnienie zanikowe boczne), w zachowaniu głosu.

Jednym z przykładów jest funkcja Personal Voice firmy Apple, którą marka zaprezentowała w maju 2023 r. Oprogramowanie umożliwia użytkownikom tworzenie syntetycznego głosu, który rozpoznają ich rodzina i przyjaciele. Wszystko, co muszą zrobić, to czytać na głos fragmenty przypadkowych tekstów przez 15 minut, aby oprogramowanie nauczyło się i dokładnie odtworzyło ich profil wokalny.

Podobna usługa, CoeFont, jest opracowywana w Japonii, z której można bezpłatnie korzystać nawet dla osób mających trudności z mówieniem, na przykład dla osób jąkających się lub zdiagnozowanych z dysfonią. Zgłosili, że ponad 400 użytkowników skorzystało z ich usługi od momentu uruchomienia w maju 2023 r.

Dubbing i lokalizacja treści

Więcej firm rozumie potrzebę zlokalizowanych treści w zglobalizowanym świecie, zwłaszcza że około siedmiu na dziesięciu konsumentów (68%) twierdzi, że przestawiłoby się na markę oferującą treści w ich ojczystym języku.

Tradycyjną metodą lokalizowania treści byłoby zatrudnienie tłumacza lub zagranicznych aktorów głosowych do dubbingowania treści. Jednak dzięki innowacjom technologicznym może to być opcjonalne.

Dubbing AI staje się nowym trendem, który umożliwia twórcom treści i firmom produkcyjnym kopiowanie ich treści na różne rynki międzynarodowe bez zatrudniania zagranicznych lektorów. Firmy rozrywkowe mogą teraz wydawać seriale, filmy i piosenki w różnych językach, aby przyciągnąć miejscową publiczność.

Przykładem jest artysta K-pop Midnatt, który wydaje swoją piosenkę „Masquerade” w języku angielskim i używa sztucznej inteligencji do wydania wersji w sześciu językach. Widzowie oglądający teledysk w YouTube mogą kliknąć Ustawienia, aby zmienić ścieżkę dźwiękową na swój język i usłyszeć różnicę.

Jego wytwórnia płytowa była nawet w stanie zsyntetyzować jego głos jako kobiety, dzięki czemu mógł wystąpić we własnej piosence, prezentując ogromne możliwości twórcze dla muzyków solowych.

Przyczynianie się do oszustw

Stworzenie syntetycznego głosu umożliwiło cyberprzestępcom oszukiwanie niepozornych ofiar, czego doświadczyła Jennifer DeStefano, matka z Arizony na początku kwietnia 2023 r. Otrzymała niepokojący telefon od osoby, którą uważała za swoją córkę, płaczącej i mówiącej, że została porwana i przestępcy zażądali okupu. Jednak jej córka przez cały czas była bezpieczna.

Amerykańska Federalna Komisja Handlu (FTC) stwierdziła, że sztuczna inteligencja pozwoliła oszustom na ulepszenie ich planów ratunkowych dla rodzin, dzięki czemu brzmi to o wiele bardziej przekonująco, gdy słyszysz, jak ukochana osoba mówi, że ma kłopoty. W takich chwilach niektórzy eksperci zalecają uzgodnienie z bliskimi „słowa bezpieczeństwa AI”, aby upewnić się, że głos faktycznie pochodzi od nich.

Niezależnie od tego, negatywne implikacje publicznie dostępnego oprogramowania do klonowania głosu AI są jasne. Wiele osób zgłaszało wątpliwości etyczne i prawne dotyczące tej technologii, o których należy wiedzieć, jeśli zamierza się sklonować swój głos.

Względy etyczne i prawne związane z sztuczną inteligencją klonowania głosu

Organy zarządzające, firmy i użytkownicy wciąż pracują nad zrozumieniem wszystkich problemów etycznych i prawnych, jakie może przynieść klon głosu AI. Chociaż wciąż jest to dopiero rodząca się technologia, poniżej przedstawiono kilka powszechnych problemów, o których należy wiedzieć.

Implikacje dotyczące zgody i prywatności

Łatwość, z jaką oszuści mogą trenować oprogramowanie do klonowania głosu w celu uczenia się określonych głosów, naraża twórców treści i muzyków na ryzyko oszustwa i podszywania się pod inne osoby. Te przypadki stawiają pod znakiem zapytania, czy artyści i twórcy treści powinni chronić swoje głosy prawami autorskimi.

Ponadto źródła utrzymania ludzi są zagrożone, ponieważ ryzyko kradzieży tożsamości jest znacznie większe.

Zagraża prywatności i cyberbezpieczeństwu, umożliwiając przestępcom ominięcie głosowych systemów uwierzytelniania. Zdarzyło się to Centrelink i Australijskiemu Urzędowi Podatkowemu (ATO), gdzie przestępcy używali syntetycznego głosu, aby oszukać systemy bezpieczeństwa druku głosowego, które miały weryfikować tożsamość poprzez rozpoznawanie głosu.

Dezinformacja i manipulacja

Sztuczne podróbki sztucznej inteligencji nadal są gorącym tematem dyskusji, grożąc podziałem społeczności i manipulowaniem nimi. Problem polega na tym, że sztuczna inteligencja do klonowania głosu ewoluuje i staje się wysoce przekonująca szybciej, niż rządy mogą to regulować.

Może manipulować reputacją celebryty i wpływać na nią, jeśli trolle internetowe publikują dźwięk celebryty wypluwającego obraźliwe komentarze lub żarty; niedawnym przykładem jest głos brytyjskiej aktorki Emmy Watson czytającej Mein Kampf Hitlera.

Wpływ na aktorów głosowych i przemieszczenie pracy

Wiele osób martwi się o bezpieczeństwo swojej pracy, ponieważ sztuczna inteligencja staje się coraz bardziej zdolna do wykonywania zadań tradycyjnie wykonywanych przez ludzi. Sztuczna inteligencja do klonowania głosu zagraża zwłaszcza aktorom głosowym.

Zdarzały się już przypadki, w których aktorzy głosowi byli zszokowani, gdy sztuczna inteligencja kopiowała ich wokale, aby ludzie mogli ich używać w swoich projektach. W lutym 2023 r. Kilku aktorów głosowych w grach wideo publicznie potępiło otrzymane kontrakty, wymagając od nich przekazania głosu sztucznej inteligencji.

Co stanie się z aktorami głosowymi, jeśli używanie sztucznej inteligencji do narracji lub dubbingowania stanie się o wiele łatwiejsze? Jest to pytanie, któremu warto się przyjrzeć, ponieważ może potencjalnie spowodować, że tysiące aktorów głosowych straci pracę.

Stan klonowania głosu AI jest skomplikowany. Wielu wciąż eksperymentuje z tą technologią. Biorąc to pod uwagę, warto zastanowić się, co przyniesie przyszłość sztucznej inteligencji do klonowania głosu.

Czego można się spodziewać po klonowaniu głosu AI

Nic na temat sztucznej inteligencji do klonowania głosu nie jest ustawione. Ponieważ świat nadal rozumie i odkrywa możliwości tej technologii, najlepiej jest zastanowić się, jaka może być dla niej przyszłość.

1. Bardziej rygorystyczne regulacje rządowe i szersze dyskusje etyczne

Rządy prawdopodobnie nałożą surowsze przepisy dotyczące korzystania z sztucznej inteligencji do klonowania głosu. Senator Richard Blumenthal podkreślił, jak przekonujące stało się oprogramowanie do klonowania głosu, zmuszając technologię do wyrecytowania jego przemówienia otwierającego podczas niedawnego przesłuchania w Senacie Stanów Zjednoczonych.

Co mogą obejmować te przepisy i zasady? Mogą zająć się tym, czyje głosy mogą zostać sklonowane przez sztuczną inteligencję i określić dokładne cele tej technologii. Może przewidywać, że firmy muszą ujawnić, czy używają sztucznej inteligencji głosowej do któregokolwiek ze swoich procesów. Ponadto sądy muszą nadal ustalać, kto jest właścicielem praw do głosu generowanego przez sztuczną inteligencję.

Te parametry prawne mogą pomóc ludziom chronić się przed ryzykiem i niebezpieczeństwami związanymi ze sztuczną inteligencją głosową.

2. Zwiększone wykorzystanie do tworzenia treści

Istnieją etyczne zastosowania aplikacji do klonowania głosu. Na przykład oprogramowanie do klonowania głosu może być narzędziem zwiększającym produktywność, jeśli jesteś twórcą treści wideo i tworzysz treści YouTube bez twarzy. Szkolenie sztucznej inteligencji w celu naśladowania Twojego głosu może znacznie skrócić czas produkcji, ponieważ nie będziesz już musiał spędzać godzin na nagrywaniu i ponownym nagrywaniu dźwięku przed mikrofonem.

Innym jest marketing AI, który pozwala wykorzystać sztuczną inteligencję do produkcji materiałów w znacznie szybszym tempie i po niższych kosztach niż wcześniej.

3. Więcej detektorów AI

Ze względu na to, jak przekonująca stała się sztuczna inteligencja, umiejętność rozpoznania, czy treść jest autentycznie ludzka, ma kluczowe znaczenie dla uniknięcia dezinformacji. Możesz spodziewać się, że więcej osób stworzy bardziej niezawodne detektory, aby zapewnić, że bez względu na to, jak przekonująca jest treść, wszystko, co konsumujesz, zostało stworzone przez człowieka.

4. Większa popularność głosu AI w branży rozrywkowej

Branża filmowa coraz bardziej przekonuje się do dubbingu AI, a Motion Picture Association (MPA) przyznało ostatnio certyfikat firmie Deepdub, startującej w branży dubbingu AI. Ten tytuł gwarantuje, że sztuczna inteligencja startupu może sprostać wysokim standardom branży rozrywkowej.

Deepdub nie jest sam w oferowaniu usług AI dla przemysłu rozrywkowego. Wielu inwestorów venture capital zaczęło inwestować w liczne start-upy AI, aby wprowadzić AI do firm produkujących filmy, takich jak Netflix, Marvel i Lucasfilm.

W ramach podobnego rozwoju firma AI Flawless ogłosiła w maju 2023 r., Że współpracuje z dystrybutorami ze Stanów Zjednoczonych i Wielkiej Brytanii w celu wydawania angielskich wersji filmów innych niż angielski w różnych regionach, z dubbingiem i synchronizacją ust przez sztuczną inteligencję.

Ponieważ eksperci spodziewają się, że branża będzie warta 416,8 miliardów dolarów do 2030 r., sztuczna inteligencja ma szansę stać się bardziej zintegrowana, aby produkować więcej wysokiej jakości treści dla usług przesyłania strumieniowego.

Popularne aplikacje do klonowania głosu

Jeśli chcesz sklonować swój głos za pomocą oprogramowania, oto kilka popularnych narzędzi, które możesz wypróbować.

przypominać AI

Resemble.AI oferuje różne produkty i usługi, które pomogą Ci stworzyć syntetyczny głos, z którego będziesz zadowolony. Na przykład, jeśli chcesz zastąpić kilka słów w nagranym dźwięku bez ponownego nagrywania, ich funkcja Resemble Fill pomoże bezproblemowo edytować klip.

Mają także niestandardowy interfejs API AI Voices, który programiści mogą zintegrować z różnymi narzędziami, z których już korzystają. Ich sztuczna inteligencja klonująca głos będzie potrzebowała tylko co najmniej trzech minut dźwięku lub wypowiedzenia 25 z góry określonych zdań, aby nauczyć się głosów.

Niewymownie

BeyondWords posiada bibliotekę ponad 550 głosów AI w ponad 140 językach, które są etycznie tworzone; firma współpracuje z aktorami głosowymi w ramach kontraktu na klonowanie głosu. Wykorzystują również przetwarzanie języka naturalnego (NLP) do analizowania tekstu użytkownika i przekształcania go w autentycznie brzmiącą mowę.

Respeecher

Respeecher szczyci się tym, że umożliwia twórcom treści, filmowcom i twórcom gier tworzenie syntetycznych głosów. W szczególności współpracowali z firmami takimi jak Lucasfilms, aby wygenerować głos generowany przez sztuczną inteligencję dla starszego aktora, który ponownie wciela się w swoją młodszą rolę, oraz Mondelez International, aby stworzyć wysoce ukierunkowany i zlokalizowany marketing.

Firma wykorzystuje zarówno algorytmy cyfrowego przetwarzania sygnałów, jak i głęboki model generatywny, aby sztuczna inteligencja mogła uczyć się i naśladować nie tylko głos, ale także emocje i wykonanie pasaży.

Jedenaście laboratoriów

Wielu zna Eleven Labs ze swojej biblioteki głosów celebrytów, które można z łatwością wykorzystać w swoich treściach za pomocą ich produktu VoiceLab. Zaprezentowali swoją wiedzę, dubbingując przemówienie Leonarda DiCaprio w ONZ z innymi celebrytami, takimi jak Joe Rogan i Steve Jobs.

Celem firmy jest generowanie realistycznie brzmiących głosów za pomocą modelu sztucznej inteligencji skoncentrowanego na przechwytywaniu logiki i emocji w tekstach za pomocą platformy Speech Synthesis. Gromadzi kontekst dotyczący każdego zdania i akapitu, aby zrozumieć, jak intonować i mówić przekonująco.

Odtwórz HT

PlatHT ma bibliotekę głosów, które możesz sklonować do swoich projektów, od Elona Muska i Neila DeGrasse Tysona po Johna F. Kennedy'ego i Baracka Obamę. Ich oprogramowanie do klonowania głosu w czasie rzeczywistym umożliwia tworzenie syntetycznego głosu, który oddaje styl mówienia i zachowuje akcent oraz niuanse mówienia podmiotu.

Ich sztuczna inteligencja do klonowania głosu będzie wymagać co najmniej godziny czystego dźwięku mowy, aby rozpocząć proces analizy głosu i uczenia się.

Należy zauważyć, że wszystkie te firmy przedstawiły zasady etyki swoich produktów, które można zobaczyć na ich stronie internetowej.

Trzymając ucho przy ziemi

Klonowanie głosu AI może mieć znaczący wpływ na społeczeństwo, zarówno pozytywny, jak i negatywny. Z jednej strony firmy mogą wykorzystywać technologię, aby pomóc ludziom kontynuować „mówienie” długo po utracie głosu z powodu schorzeń lub twórców, aby skrócić czas produkcji.

To powiedziawszy, sztuczna inteligencja do klonowania głosu nie jest całkowicie wolna od problemów etycznych lub prawnych. Oszuści mogą nadal używać go do podszywania się pod osoby w ramach programów ratunkowych dla rodzin lub do obejścia uwierzytelniania głosowego w celu uzyskania dostępu do bardzo wrażliwych i poufnych danych.

Podczas gdy rządy nadal dyskutują o możliwych przepisach i politykach dotyczących odpowiedniego wykorzystania sztucznej inteligencji, to do prywatnych firm należy korzystanie z niej w sposób bardziej odpowiedzialny. Obejmuje to przestrzeganie najlepszych praktyk w zakresie cyberbezpieczeństwa, takich jak proszenie o zgodę na dostęp do danych konsumentów i praktykowanie przejrzystości w sposobie korzystania z technologii.

Sztuczna inteligencja do klonowania głosu wciąż ewoluuje. Bycie na bieżąco z najnowszymi osiągnięciami może pomóc Ci zrozumieć, jak najlepiej wykorzystać tę technologię, aby zapewnić klientom wartość, której sztuczna inteligencja nie jest w stanie odtworzyć.

Chcesz dowiedzieć się więcej? porozmawiajmy .