人工智能语音克隆:你现在需要知道的一切
已发表: 2023-06-12人工智能 (AI) 变得更加可信,最近的一个例子是教皇穿着蓬松夹克的病毒形象愚弄了许多人。
但是图像并不是 AI 可以令人信服地制作的唯一内容——AI 语音克隆,它在不同的用例中基本上模仿一个人的声音,也正在出现。 一个例子是在他的国情咨文演讲中模仿乔·拜登总统的声音。
它被证明是另一个具有高商业潜力的重要工具,但会引起道德和法律问题。
本文将让您大致了解语音克隆 AI 的工作原理、您需要注意的问题,以及您对这项技术的未来有何期待。 作为奖励,我们将向您展示一些可用于克隆您的声音的应用程序——当然是合乎道德的。
AI语音克隆是什么?
语音克隆 AI 使用人工智能软件创建与说话者几乎相同的声音,模仿从音节发音到语调模式的一切。
它不同于语音合成,人工智能使用不同的、预定义的声音来代替语音。 两者经常一起使用,因为一旦你有了 AI 语音克隆,你就可以用它用任何语言或情感说出你想说的任何话。
语音克隆软件需要学习的音频片段不必很长。 McAfee 报告说,一段三秒钟的语音剪辑足以让 AI 学习和复制说话者的声音。
这项技术的潜力是惊人的,因为世界各国政府仍在制定最佳法律法规以确保其安全使用。 与此同时,许多人已经开始出于各种目的尝试使用语音克隆 AI 工具。
人工智能语音克隆的现状
就像基于聊天和照片生成的 AI 一样,全世界的人们仍在寻找如何最好地使用克隆语音 AI 工具。 以下是人们和企业如何使用 AI 语音克隆的总体概述。
免费人工智能语音克隆软件的兴起
克隆声音的能力并不是精通技术或超级富豪的专利。 由于许多企业现在以不同的价格提供语音克隆软件,因此到 2028 年市场将以 17.2% 的复合年增长率 (CAGR) 增长也就不足为奇了。
当然,输出质量可能不如付费服务那么令人信服,但提供此类软件的企业数量突显了这种需求。
复制名人的声音
模仿名人的声音已经成为声音克隆 AI 最流行的用例,它突破了创意界限并引发了潜在的法律问题。 许多名人,包括泰勒斯威夫特、乔罗根和美国前总统,都曾是人工智能语音克隆的受害者。
最近一个重要的例子发生在 2023 年 4 月,当时 TikTok 用户 ghostwriter977 发行了歌曲“Heart on my Sleeve”,使用了国际艺术家 Drake 和 The Weeknd 的声音——尽管没有人实际演唱或以任何身份参与该项目。
许多人认为这是第一首病毒式人工智能生成的歌曲,在 Universal Music Group(艺术家的唱片公司)版权罢工之前,它在 YouTube 上获得了超过 230,000 次观看,在 Spotify 上获得了 625,000 次流媒体播放。
现代名人并不是唯一让他们的声音被复制的人。
纪录片《安迪·沃霍尔日记》的电影制作人使用软件为著名流行艺术家安迪·沃霍尔创造了合成声音,以讲述他日记的部分内容,让他的声音重现生机,并强调技术如何有可能长期保留一个人的身份在他们过去之后。
为残障人士提供更多便利
声音克隆 AI 的一个更实际的用例是帮助那些因健康并发症而有可能失去声音或说话能力的人,例如最近被诊断出患有 ALS(肌萎缩性侧索硬化症)的人,以保持他们的声音。
一个例子是 Apple 的个人语音功能,该品牌于 2023 年 5 月进行了预览。该软件使用户能够创建家人和朋友可以识别的合成语音。 他们需要做的就是大声朗读部分随机文本 15 分钟,让软件准确地学习和复制他们的声音特征。
日本正在开发一项名为 CoeFont 的类似服务,它甚至可以免费为说话有困难的人提供服务,例如口吃或被诊断患有发音障碍的人。 他们报告说,自 2023 年 5 月推出以来,已有 400 多名用户使用了他们的服务。
配音和本地化内容
越来越多的企业了解在全球化世界中对本地化内容的需求,特别是因为大约十分之七 (68%) 的消费者表示他们会转而使用以其母语提供内容的品牌。
内容本地化的传统方法是聘请翻译或外国配音演员为内容配音。 然而,由于技术创新,这可能是可选的。
人工智能配音正在成为一种新兴趋势,允许内容创作者和制作公司在不聘请外国配音艺术家的情况下为各种国际市场配音他们的内容。 娱乐公司现在可以发行不同语言的连续剧、电影和歌曲来吸引当地观众。
一个例子是 K-pop 艺术家 Midnatt 发布了他的英文歌曲“Masquerade”,并使用语音 AI 发布了六种语言的版本。 在 YouTube 上观看音乐视频的观众可以单击“设置”将音轨更改为他们的语言以听取不同之处。
他的唱片公司甚至能够合成他作为女性的声音,这样他就可以在自己的歌曲中发挥作用,为独奏音乐家提供了巨大的创作机会。
参与诈骗
创造合成声音让网络犯罪分子能够欺骗不起眼的受害者,正如亚利桑那州的一位母亲詹妮弗·德斯特凡诺 (Jennifer DeStefano) 在 2023 年 4 月初所经历的那样。她接到一个令人担忧的电话,她认为是她的女儿,哭着说她被绑架了,罪犯索要赎金。 不过,女儿一直平安无事。
美国联邦贸易委员会 (FTC) 表示,人工智能让诈骗者可以加强他们的家庭应急计划,让你听到亲人说他们有麻烦了,听起来更有说服力。 在这些时刻,一些专家建议与您所爱的人商定一个“AI 安全词”,以确保声音确实来自他们。
无论如何,可公开访问的 AI 语音克隆软件的负面影响是显而易见的。 许多人对这项技术提出了道德和法律方面的担忧,如果你打算克隆你的声音,你应该意识到这一点。
语音克隆人工智能的伦理和法律问题
管理机构、企业和用户仍在努力了解人工智能语音克隆可能带来的所有道德和法律问题。 尽管仍是一项新兴技术,但以下是一些应该注意的普遍问题。
同意和隐私影响
诈骗者可以轻松地训练语音克隆软件来学习特定的声音,从而使内容创作者和音乐家面临欺诈和假冒的风险。 这些实例质疑艺术家和内容创作者是否应该为他们的声音版权。
此外,由于身份盗窃的可能性要高得多,人们的生计也受到威胁。
它允许犯罪分子绕过基于语音的身份验证系统,从而威胁隐私和网络安全。 Centrelink 和澳大利亚税务局 (ATO) 就遇到过这种情况,犯罪分子使用合成语音来欺骗旨在通过语音识别来验证身份的声纹安全系统。
错误信息和操纵
AI deepfakes 仍然是讨论的热门话题,有可能分裂和操纵社区。 令人担忧的是,语音克隆人工智能正在以比政府监管速度更快的速度发展成为极具说服力的产品。
如果在线巨魔发布名人发表冒犯性评论或笑话的音频,它可以操纵和影响名人的声誉; 最近的一个例子是英国女演员 Emma Watson 在朗读希特勒的《我的奋斗》时的声音。
对人类配音演员和工作流离失所的影响
随着人工智能越来越有能力执行传统的人工任务,许多人担心他们的工作安全。 声音克隆 AI 尤其威胁配音演员。
已经发生过一些配音演员震惊地发现 AI 复制他们的声音供人们用于他们的项目的事件。 2023 年 2 月,一些视频游戏配音演员公开谴责他们收到的合同,要求他们将自己的声音签署给 AI。
如果使用 AI 为您讲述或配音变得更加容易,那么配音演员会变成什么样子? 这是一个值得研究的问题,因为它可能会导致成千上万的配音演员失去工作。
AI语音克隆的状态比较复杂。 许多人仍在试验这项技术。 鉴于此,值得考虑语音克隆 AI 的未来。
您对 AI 语音克隆的期望
没有设置任何关于语音克隆 AI 的内容。 随着世界不断了解和发现这项技术的可能性,最好考虑它的未来。
1. 更严格的政府监管和更广泛的伦理讨论
政府可能会对使用语音克隆人工智能实施更严格的规定。 参议员理查德·布卢门撒尔 (Richard Blumenthal) 在最近的美国参议院听证会上朗诵了他的开场白,强调了语音克隆软件已经变得多么令人信服。
这些法规和政策可能包括哪些内容? 他们可能会解决谁的声音可以通过 AI 克隆的问题,并定义该技术的确切用途。 它可以规定公司必须披露他们是否在他们的任何流程中使用语音人工智能。 此外,法院仍必须确定谁拥有人工智能生成的声音的权利。
这些法律参数可以帮助人们防范克隆语音人工智能的风险和危险。
2.增加内容创作的使用
语音克隆应用程序有道德用途。 例如,如果您是制作匿名 YouTube 内容的视频内容创作者,则语音克隆软件可以成为一种生产力工具。 训练 AI 模仿您的声音可以显着减少制作时间,因为您不必再花费数小时在麦克风前录制和重新录制音频。
另一个是 AI 营销,它允许您利用 AI 以比以前更快的速度和更低的成本生产材料。
3.更多AI检测器
随着人工智能变得如此令人信服,辨别一段内容是否真正是人类的能力对于避免误导是至关重要的。 您可以期待看到更多的人创建更可靠的检测器,以确保无论内容多么令人信服,您消费的一切都是由人类制造的。
4、AI语音在娱乐行业的普及
电影制作行业对 AI 配音越来越满意,美国电影协会 (MPA) 最近向 AI 配音初创公司 Deepdub 颁发了证书。 这个称号确保了这家初创公司的 AI 能够达到娱乐行业的高标准。
Deepdub 并不是唯一一家向娱乐业提供人工智能服务的公司。 许多风险资本家已经开始投资众多 AI 初创公司,将 AI 引入 Netflix、Marvel 和 Lucasfilm 等电影制作公司。
在类似的发展中,AI 公司 Flawless 于 2023 年 5 月宣布,他们正在与美国和英国的发行商合作,向不同地区发行由 AI 配音和口型同步的非英语电影的英文版本。
专家预计到 2030 年该行业的价值将达到 4168 亿美元,人工智能有望变得更加集成,从而为流媒体服务生产更多高质量的内容。
流行的语音克隆应用程序
如果您想通过软件克隆您的声音,可以使用以下几种流行的工具。
相似.AI
Resemble.AI 提供各种产品和服务来帮助您创建您满意的合成语音。 例如,如果您想在不重新录制的情况下替换录制音频中的几个词,他们的类似填充功能将有助于无缝编辑剪辑。
他们还有一个自定义 AI 语音 API,开发人员可以将其集成到他们已经使用的各种工具中。 他们的声音克隆 AI 只需要至少三分钟的音频或说出 25 个预定的句子来学习声音。
无以言表
BeyondWords 拥有超过 140 种语言的 550 多种 AI 语音库,这些语音都是按照道德标准创建的; 该公司通过其 Voice Cloning Contract 与配音演员合作。 他们还使用自然语言处理 (NLP) 来分析用户文本并将其转换为真实的语音。
演讲者
Respeecher 以允许内容创作者、电影制作人和游戏开发者创建合成语音而自豪。 值得注意的是,他们与 Lucasfilms 等公司合作,为年长的演员重新扮演他年轻的角色生成 AI 生成的声音,并与 Mondelez International 合作制作高度针对性和本地化的营销。
该公司同时使用数字信号处理算法和深度生成模型,使其人工智能不仅可以学习和模仿声音,还可以学习和模仿段落的情绪和传递。
十一实验室
许多人知道 Eleven Labs 是因为他们的名人声音库,您可以轻松地将其用于他们的 VoiceLab 产品的内容。 他们为莱昂纳多·迪卡普里奥在联合国的演讲与乔·罗根和史蒂夫·乔布斯等其他名人配音,展示了他们的专业知识。
该公司的目标是通过其 AI 模型生成逼真的声音,该模型专注于通过其语音合成平台捕捉文本中的逻辑和情感。 它收集有关每个句子和段落的上下文,以了解如何用令人信服的语调和说话。
玩HT
PlatHT 有一个声音库,您可以为您的项目克隆这些声音,从 Elon Musk 和 Neil DeGrasse Tyson 到 John F. Kennedy 和 Barack Obama。 他们的实时语音克隆软件允许您创建合成语音,捕捉说话风格并保留对象的口音和说话的细微差别。
他们的语音克隆 AI 需要至少一个小时的清晰语音才能启动其声音分析和学习过程。
请务必注意,所有这些公司都概述了其产品背后的道德规范,您可以在其网站上查看。
保持耳朵贴近地面
人工智能语音克隆可以对社会产生相当大的影响,无论是积极的还是消极的。 一方面,企业可以使用技术帮助人们在因医疗条件或创作者失去声音后很长时间内继续“说话”,以减少他们的制作时间。
也就是说,语音克隆 AI 并非完全没有道德或法律问题。 欺诈者仍可能使用它来冒充家庭应急计划中的人,或绕过语音验证器以访问高度敏感和机密的数据。
虽然各国政府继续讨论围绕适当使用人工智能的可能的法律和政策,但私营公司更负责任地使用它。 这包括遵循网络安全最佳实践,例如在访问消费者数据时征得同意,以及在如何使用该技术时保持透明度。
语音克隆人工智能不断发展。 了解其最新发展可以帮助您了解如何最好地利用该技术为您的客户提供 AI 无法复制的价值。
准备好了解更多了吗? 让我们谈谈。