人工智能語音克隆：你現在需要知道的一切

已發表: 2023-06-12

人工智能 (AI) 變得更加可信，最近的一個例子是教皇穿著蓬鬆夾克的病毒形象愚弄了許多人。

但是圖像並不是 AI 可以令人信服地製作的唯一內容——AI 語音克隆，它在不同的用例中基本上模仿一個人的聲音，也正在出現。一個例子是在他的國情咨文演講中模仿喬·拜登總統的聲音。

它被證明是另一個具有高商業潛力的重要工具，但會引起道德和法律問題。

本文將讓您大致了解語音克隆 AI 的工作原理、您需要注意的問題以及您對這項技術的未來有何期待。作為獎勵，我們將向您展示一些可用於克隆您的聲音的應用程序——當然是合乎道德的。

AI語音克隆是什麼？

語音克隆 AI 使用人工智能軟件創建與說話者幾乎相同的聲音，模仿從音節發音到語調模式的一切。

它不同於語音合成，人工智能使用不同的、預定義的聲音來代替語音。兩者經常一起使用，因為一旦你有了 AI 語音克隆，你就可以用它用任何語言或情感說出你想說的任何話。

語音克隆軟件需要學習的音頻片段不必很長。 McAfee 報告說，一段三秒鐘的語音剪輯足以讓 AI 學習和復制說話者的聲音。

這項技術的潛力是驚人的，因為世界各國政府仍在製定最佳法律法規以確保其安全使用。與此同時，許多人已經開始出於各種目的嘗試使用語音克隆 AI 工具。

人工智能語音克隆的現狀

就像基於聊天和照片生成的 AI 一樣，全世界的人們仍在尋找如何最好地使用克隆語音 AI 工具。以下是人們和企業如何使用 AI 語音克隆的總體概述。

免費人工智能語音克隆軟件的興起

克隆聲音的能力並不是精通技術或超級富豪的專利。由於許多企業現在以不同的價格提供語音克隆軟件，因此到 2028 年市場將以 17.2% 的複合年增長率 (CAGR) 增長也就不足為奇了。

當然，輸出質量可能不如付費服務那麼令人信服，但提供此類軟件的企業數量突顯了這種需求。

複製名人的聲音

模仿名人的聲音已經成為聲音克隆 AI 最流行的用例，它突破了創意界限並引發了潛在的法律問題。許多名人，包括泰勒斯威夫特、喬羅根和美國前總統，都曾是人工智能語音克隆的受害者。

最近一個重要的例子發生在 2023 年 4 月，當時 TikTok 用戶 ghostwriter977 發行了歌曲“Heart on my Sleeve”，使用了國際藝術家 Drake 和 The Weeknd 的聲音——儘管沒有人實際演唱或以任何身份參與該項目。

許多人認為這是第一首病毒式人工智能生成的歌曲，在 Universal Music Group（藝術家的唱片公司）版權罷工之前，它在 YouTube 上獲得了超過 230,000 次觀看，在 Spotify 上獲得了 625,000 次流媒體播放。

現代名人並不是唯一讓他們的聲音被複製的人。

紀錄片《安迪·沃霍爾日記》的電影製作人使用軟件為著名流行藝術家安迪·沃霍爾創造了合成聲音，以講述他日記的部分內容，讓他的聲音重現生機，並強調技術如何有可能長期保留一個人的身份在他們過去之後。

為殘障人士提供更多便利

聲音克隆 AI 的一個更實際的用例是幫助那些因健康並發症而有可能失去聲音或說話能力的人，例如最近被診斷出患有 ALS（肌萎縮性側索硬化症）的人，以保持他們的聲音。

一個例子是 Apple 的個人語音功能，該品牌於 2023 年 5 月進行了預覽。該軟件使用戶能夠創建家人和朋友可以識別的合成語音。他們需要做的就是大聲朗讀部分隨機文本 15 分鐘，讓軟件準確地學習和復制他們的聲音特徵。

日本正在開發一項名為 CoeFont 的類似服務，它甚至可以免費為說話有困難的人提供服務，例如口吃或被診斷患有發音障礙的人。他們報告說，自 2023 年 5 月推出以來，已有 400 多名用戶使用了他們的服務。

配音和本地化內容

越來越多的企業了解在全球化世界中對本地化內容的需求，特別是因為大約十分之七 (68%) 的消費者表示他們會轉而使用以其母語提供內容的品牌。

內容本地化的傳統方法是聘請翻譯或外國配音演員為內容配音。然而，由於技術創新，這可能是可選的。

人工智能配音正在成為一種新興趨勢，允許內容創作者和製作公司在不聘請外國配音藝術家的情況下為各種國際市場配音他們的內容。娛樂公司現在可以發行不同語言的連續劇、電影和歌曲來吸引當地觀眾。

一個例子是 K-pop 藝術家 Midnatt 發布了他的英文歌曲“Masquerade”，並使用語音 AI 發布了六種語言的版本。在 YouTube 上觀看音樂視頻的觀眾可以單擊“設置”將音軌更改為他們的語言以聽取不同之處。

他的唱片公司甚至能夠合成他作為女性的聲音，這樣他就可以在自己的歌曲中發揮作用，為獨奏音樂家提供了巨大的創作機會。

參與詐騙

創造合成聲音讓網絡犯罪分子能夠欺騙不起眼的受害者，正如亞利桑那州的一位母親詹妮弗·德斯特凡諾 (Jennifer DeStefano) 在 2023 年 4 月初所經歷的那樣。她接到一個令人擔憂的電話，她認為是她的女兒，哭著說她被綁架了，罪犯索要贖金。不過，女兒一直平安無事。

美國聯邦貿易委員會 (FTC) 表示，人工智能讓詐騙者可以加強他們的家庭應急計劃，讓你聽到親人說他們有麻煩了，聽起來更有說服力。在這些時刻，一些專家建議與您所愛的人商定一個“AI 安全詞”，以確保聲音確實來自他們。

無論如何，可公開訪問的 AI 語音克隆軟件的負面影響是顯而易見的。許多人對這項技術提出了道德和法律方面的擔憂，如果你打算克隆你的聲音，你應該意識到這一點。

語音克隆人工智能的倫理和法律問題

管理機構、企業和用戶仍在努力了解人工智能語音克隆可能帶來的所有道德和法律問題。儘管仍是一項新興技術，但以下是一些應該注意的普遍問題。

同意和隱私影響

詐騙者可以輕鬆地訓練語音克隆軟件來學習特定的聲音，從而使內容創作者和音樂家面臨欺詐和假冒的風險。這些實例質疑藝術家和內容創作者是否應該為他們的聲音版權。

此外，由於身份盜竊的可能性要高得多，人們的生計也受到威脅。

它允許犯罪分子繞過基於語音的身份驗證系統，從而威脅隱私和網絡安全。 Centrelink 和澳大利亞稅務局 (ATO) 就遇到過這種情況，犯罪分子使用合成語音來欺騙旨在通過語音識別來驗證身份的聲紋安全系統。

錯誤信息和操縱

AI deepfakes 仍然是討論的熱門話題，有可能分裂和操縱社區。令人擔憂的是，語音克隆人工智能正在以比政府監管速度更快的速度發展成為極具說服力的產品。

如果在線巨魔發布名人發表冒犯性評論或笑話的音頻，它可以操縱和影響名人的聲譽；最近的一個例子是英國女演員 Emma Watson 朗讀希特勒的《我的奮鬥》時的聲音。

對人類配音演員和工作流離失所的影響

隨著人工智能越來越有能力執行傳統的人工任務，許多人擔心他們的工作安全。聲音克隆 AI 尤其威脅配音演員。

已經發生過一些配音演員震驚地發現 AI 複製他們的聲音供人們用於他們的項目的事件。 2023 年 2 月，一些視頻遊戲配音演員公開譴責他們收到的合同，要求他們將自己的聲音簽署給 AI。

如果使用 AI 為您講述或配音變得更加容易，那麼配音演員會變成什麼樣子？這是一個值得研究的問題，因為它可能會導致成千上萬的配音演員失去工作。

AI語音克隆的狀態比較複雜。許多人仍在試驗這項技術。鑑於此，值得考慮語音克隆 AI 的未來。

您對 AI 語音克隆的期望

沒有設置任何關於語音克隆 AI 的內容。隨著世界不斷了解和發現這項技術的可能性，最好考慮它的未來。

1. 更嚴格的政府監管和更廣泛的倫理討論

政府可能會對使用語音克隆人工智能實施更嚴格的規定。參議員理查德·布盧門撒爾 (Richard Blumenthal) 在最近的美國參議院聽證會上朗誦了他的開場白，強調了語音克隆軟件已經變得多麼令人信服。

這些法規和政策可能包括哪些內容？他們可能會解決誰的聲音可以通過 AI 克隆的問題，並定義該技術的確切用途。它可以規定公司必須披露他們是否在他們的任何流程中使用語音人工智能。此外，法院仍必須確定誰擁有人工智能生成的聲音的權利。

這些法律參數可以幫助人們防范克隆語音人工智能的風險和危險。

2.增加內容創作的使用

語音克隆應用程序有道德用途。例如，如果您是製作匿名 YouTube 內容的視頻內容創作者，則語音克隆軟件可以成為一種生產力工具。訓練 AI 模仿您的聲音可以顯著減少製作時間，因為您不必再花費數小時在麥克風前錄製和重新錄製音頻。

另一個是 AI 營銷，它允許您利用 AI 以比以前更快的速度和更低的成本生產材料。

3.更多AI檢測器

隨著人工智能變得如此令人信服，辨別一段內容是否真正是人類的能力對於避免誤導是至關重要的。您可以期待看到更多的人創建更可靠的檢測器，以確保無論內容多麼令人信服，您消費的一切都是由人類製造的。

4、AI語音在娛樂行業的普及

電影製作行業對 AI 配音越來越滿意，美國電影協會 (MPA) 最近向 AI 配音初創公司 Deepdub 頒發了證書。這個稱號確保了這家初創公司的 AI 能夠達到娛樂行業的高標準。

Deepdub 並不是唯一一家向娛樂業提供人工智能服務的公司。許多風險資本家已經開始投資眾多 AI 初創公司，將 AI 引入 Netflix、Marvel 和 Lucasfilm 等電影製作公司。

在類似的發展中，AI 公司 Flawless 於 2023 年 5 月宣布，他們正在與美國和英國的發行商合作，向不同地區發行由 AI 配音和口型同步的非英語電影的英文版本。

專家預計到 2030 年該行業的價值將達到 4168 億美元，人工智能有望變得更加集成，從而為流媒體服務生產更多高質量的內容。

流行的語音克隆應用程序

如果您想通過軟件克隆您的聲音，可以使用以下幾種流行的工具。

相似.AI

Resemble.AI 提供各種產品和服務來幫助您創建您滿意的合成語音。例如，如果您想在不重新錄製的情況下替換錄製音頻中的幾個詞，他們的類似填充功能將有助於無縫編輯剪輯。

他們還有一個自定義 AI 語音 API，開發人員可以將其集成到他們已經使用的各種工具中。他們的聲音克隆 AI 只需要至少三分鐘的音頻或說出 25 個預定的句子來學習聲音。

無以言表

BeyondWords 擁有超過 140 種語言的 550 多種 AI 語音庫，這些語音都是按照道德標準創建的；該公司通過其 Voice Cloning Contract 與配音演員合作。他們還使用自然語言處理 (NLP) 來分析用戶文本並將其轉換為真實的語音。

演講者

Respeecher 以允許內容創作者、電影製作人和遊戲開發者創建合成語音而自豪。值得注意的是，他們與 Lucasfilms 等公司合作，為年長的演員重新扮演他年輕的角色生成 AI 生成的聲音，並與 Mondelez International 合作製作高度針對性和本地化的營銷。

該公司同時使用數字信號處理算法和深度生成模型，使其人工智能不僅可以學習和模仿聲音，還可以學習和模仿段落的情緒和傳遞。

十一實驗室

許多人知道 Eleven Labs 是因為他們的名人聲音庫，您可以輕鬆地將其用於他們的 VoiceLab 產品的內容。他們為萊昂納多·迪卡普里奧在聯合國的演講與喬·羅根和史蒂夫·喬布斯等其他名人配音，展示了他們的專業知識。

該公司的目標是通過其 AI 模型生成逼真的聲音，該模型專注於通過其語音合成平台捕捉文本中的邏輯和情感。它收集有關每個句子和段落的上下文，以了解如何用令人信服的語調和說話。

玩HT

PlatHT 有一個聲音庫，您可以為您的項目克隆這些聲音，從 Elon Musk 和 Neil DeGrasse Tyson 到 John F. Kennedy 和 Barack Obama。他們的實時語音克隆軟件允許您創建合成語音，捕捉說話風格並保留對象的口音和說話的細微差別。

他們的語音克隆 AI 需要至少一個小時的清晰語音才能啟動其聲音分析和學習過程。

請務必注意，所有這些公司都概述了其產品背後的道德規範，您可以在其網站上查看。

保持耳朵貼近地面

人工智能語音克隆可以對社會產生相當大的影響，無論是積極的還是消極的。一方面，企業可以使用技術幫助人們在因醫療條件或創作者失去聲音後很長時間內繼續“說話”，以減少他們的製作時間。

也就是說，語音克隆 AI 並非完全沒有道德或法律問題。欺詐者仍可能使用它來冒充家庭應急計劃中的人，或繞過語音驗證器以訪問高度敏感和機密的數據。

雖然政府繼續討論圍繞適當使用人工智能的可能的法律和政策，但私營公司更負責任地使用它。這包括遵循網絡安全最佳實踐，例如在訪問消費者數據時徵得同意，以及在如何使用該技術時保持透明度。

語音克隆人工智能不斷發展。了解其最新發展可以幫助您了解如何最好地利用該技術為您的客戶提供 AI 無法複製的價值。

準備好了解更多了嗎？ 讓我們談談。