AI 音声クローン作成: 今知っておくべきことすべて

公開: 2023-06-12

人工知能 (AI) の信憑性ははるかに高まっており、最近の例としては、多くの人をだましている、ふわふわしたジャケットを着たローマ法王の画像が広まりました。

しかし、AI が説得力を持って生成できるコンテンツは画像だけではありません。さまざまなユースケースで基本的に人の声を模倣する AI 音声クローンも登場しつつあります。一例は、一般教書演説中のジョー・バイデン大統領の声の模倣です。

これも高いビジネスの可能性を秘めた重要なツールであることが判明していますが、倫理的および法的な懸念が生じる可能性があります。

この記事では、音声クローン AI の仕組み、注意する必要がある懸念事項、このテクノロジーの将来に何が期待できるかを垣間見ることができます。おまけとして、自分の声を複製するために使用できるアプリをいくつか紹介します (もちろん倫理的です)。

AI音声クローンとは何ですか?

音声クローン AI は、人工知能ソフトウェアを使用して話者のほぼ同一の音声を作成し、音節の発音からイントネーションパターンまであらゆるものを模倣します。

これは、AI が事前に定義されたさまざまな音声を使用して音声を置き換える音声合成とは異なります。 AI 音声クローンを取得すると、それを使用して任意の言語や感情で言いたいことを言うことができるため、両方が一緒に使用されることがよくあります。

音声クローン作成ソフトウェアが学習する必要があるオーディオクリップは、長いものである必要はありません。 McAfee の報告によると、3 秒の音声クリップは、AI が話し手を学習してコピーするのに十分な長さです。

世界中の政府がその安全な使用のために設けるべき最良の法律や規制を未だに決定しているため、このテクノロジーの可能性は驚異的です。その一方で、多くの人がさまざまな目的で音声クローン AI ツールの実験をすでに始めています。

AI 音声クローンの現状

チャットベースの AI や写真生成 AI と同様に、世界中の人々がクローン音声 AI ツールの最適な使い方をまだ模索中です。以下は、人々や企業が AI 音声クローンをどのように使用するかについての一般的な概要です。

無料の AI 音声クローンソフトウェアの台頭

音声を複製する能力は、テクノロジーに精通した人や超富裕層だけが持つものではありません。現在、多くの企業がさまざまな価格で音声クローンソフトウェアを提供しているため、市場が 2028 年までに 17.2% の年間平均成長率 (CAGR) で成長すると予想されることは驚くべきことではありません。

もちろん、出力品質は有料サービスほど納得のいくものではないかもしれませんが、この種のソフトウェアを提供する企業の数は需要を裏付けています。

有名人の声を再現する

有名人の声を模倣することは、音声クローン AI の最も人気のある使用例となっており、クリエイティブの限界を押し広げ、潜在的な法的問題を引き起こす可能性があります。テイラー・スウィフト、ジョー・ローガン、元米国大統領など、多くの著名人がAI音声クローンの被害者となっている。

最近の重要な例は、2023 年 4 月に発生しました。TikTok ユーザーの Ghostwriter977 が、国際的アーティストの Drake と The Weeknd の声を使用して「Heart on my Sleeve」という曲をリリースしました。実際に歌っている人も、プロジェクトに何らかの形で関わっている人もいないにもかかわらずです。

この曲は、アーティストのレーベルであるユニバーサルミュージックグループの著作権侵害により削除されるまで、YouTube で 23 万回以上の再生回数、Spotify で 625,000 回以上ストリーミングされ、AI によって生成された最初のバイラルな曲であると多くの人が主張しています。

自分の声を複製されているのは現代の有名人だけではありません。

ドキュメンタリー『アンディ・ウォーホル・ダイアリーズ』の映画製作者たちは、ソフトウェアを使用して有名なポップアーティスト、アンディ・ウォーホルの合成音声を作成し、彼の日記の一部をナレーションすることで彼の声を生き返らせ、テクノロジーがいかに誰かのアイデンティティを長期間保持する可能性があるかを強調した。彼らが過ぎた後。

障害のある人々にさらなるアクセシビリティを提供する

音声クローン AI のより実用的な使用例の 1 つは、最近 ALS (筋萎縮性側索硬化症) と診断された人など、健康上の合併症によって声や話す能力を失うリスクがある人が声を維持できるように支援することです。

一例として、Apple の Personal Voice 機能が挙げられます。これは、Apple が 2023 年 5 月にプレビューしたものです。このソフトウェアを使用すると、ユーザーは家族や友人が認識できる合成音声を作成できます。彼らがする必要があるのは、ランダム化されたテキストの一部を 15 分間声に出して読み上げることだけで、ソフトウェアが彼らの音声プロファイルを学習して正確に複製するためです。

同様のサービス「CoeFont」が日本でも開発されており、吃音や発声障害と診断された人など、話すことが難しい人にも無料で利用できるようになっています。 2023年5月のサービス開始以来、400人以上のユーザーがサービスを利用していると報告している。

コンテンツのダビングとローカライズ

特に消費者の約 10 人中 7 人 (68%) が母国語でコンテンツを提供するブランドに切り替えると回答しているため、グローバル化した世界でローカライズされたコンテンツの必要性を理解する企業が増えています。

コンテンツをローカライズする従来の方法は、翻訳者または外国人の声優を雇ってコンテンツを吹き替えるというものでした。ただし、テクノロジーの革新のおかげで、それはオプションになる可能性があります。

AI 吹き替えは、コンテンツクリエーターや制作会社が外国人の吹き替えアーティストを雇うことなく、さまざまな国際市場向けにコンテンツを吹き替えることを可能にする新たなトレンドになりつつあります。エンターテインメント会社は、地元の視聴者にアピールするために、さまざまな言語でシリーズ、映画、曲をリリースできるようになりました。

一例としては、K-POP アーティストのミドナットが自分の曲「Masquerade」を英語でリリースし、音声 AI を使用して 6 か国語のバージョンをリリースしています。 YouTube でミュージックビデオを視聴している視聴者は、[設定] をクリックしてオーディオトラックを自分の言語に変更して、違いを聞くことができます。

彼のレコードレーベルは、彼の曲をフィーチャーできるように女性としての彼の声を合成することさえでき、ソロミュージシャンに広大な創造的な機会を提供しました。

詐欺行為に加担している

アリゾナ州の母親、ジェニファー・デステファノさんが2023年4月初めに経験したように、合成音声を作成することで、サイバー犯罪者が目立たない被害者を騙すことが可能になった。彼女は、娘と思われる人物から心配そうな電話を受け、「誘拐された」と泣きながら告げた。犯罪者は身代金を要求した。しかし、娘はずっと無事でした。

米連邦取引委員会（FTC）は、AIによって詐欺師が家族の緊急計画を強化できるようになり、愛する人が困っているという話を聞くのがはるかに説得力を持って聞こえるようになったと述べた。このようなとき、一部の専門家は、声が実際に彼らからのものであることを確認するために、愛する人たちと「AI セーフワード」について合意することを推奨しています。

いずれにしても、AI 音声クローン作成ソフトウェアが公的にアクセスできることのマイナスの影響は明らかです。多くの人がこのテクノロジーに関して倫理的および法的懸念を提起しています。自分の声を複製するつもりなら注意する必要があります。

音声クローン AI の倫理的および法的懸念

政府機関、企業、ユーザーは、AI 音声クローンがもたらす可能性のある倫理的および法的懸念をすべて理解するために今も取り組んでいます。まだ初期のテクノロジーではありますが、注意すべき一般的な問題を以下に示します。

同意とプライバシーへの影響

詐欺師が音声クローンソフトウェアを簡単にトレーニングして特定の音声を学習できるため、コンテンツ作成者やミュージシャンは詐欺やなりすましの危険にさらされます。これらの例は、アーティストやコンテンツ作成者が自分の音声の著作権を所有すべきかどうかに疑問を投げかけています。

さらに、なりすましの可能性がはるかに高いため、人々の生活が脅かされています。

犯罪者が音声ベースの認証システムをバイパスできるようにすることで、プライバシーとサイバーセキュリティを脅かします。これは、Centrelink とオーストラリア税務局 (ATO) にも起こりました。犯罪者は、音声認識による身元確認を目的とした声紋セキュリティシステムをだますために合成音声を使用しました。

誤った情報と操作

AI ディープフェイクは依然としてホットな話題であり、コミュニティを分断し操作する恐れがあります。懸念されるのは、音声クローンAIが、政府が規制するよりも早く、非常に説得力のあるものになるよう進化していることだ。

オンライン荒らしが有名人が攻撃的なコメントやジョークを吐き出す音声を公開すると、有名人の評判が操作され、影響を受ける可能性があります。最近の例は、ヒトラーの『我が闘争』を朗読するイギリスの女優エマ・ワトソンの声です。

人間の声優への影響と離職

AI が従来の人間のタスクをますます実行できるようになっているため、多くの人が自分の雇用の安全性を心配しています。音声クローンAIは特に声優を脅かしている。

AIが人々のプロジェクトに使用するために声優の声をコピーしているのを発見し、声優たちがショックを受けたという事件がすでに起きている。 2023 年 2 月、ビデオゲームの声優数名が、自分の声を AI に譲渡するよう要求する契約を公に非難しました。

AI を使用してコンテンツのナレーションや吹き替えを行うことがはるかに簡単になったら、声優はどうなるでしょうか? 何千人もの声優が仕事を失う可能性があるため、これは検討する価値のある問題です。

AI 音声クローンの現状は複雑です。多くの人がまだこのテクノロジーを実験中です。そう考えると、音声クローン AI の将来がどうなるかを検討する価値はあります。

AI 音声クローン作成で期待できること

音声クローンAIについては何も設定されていません。世界がこのテクノロジーの可能性を理解し、発見し続けるにつれて、このテクノロジーの将来がどうなるかを考えるのが最善です。

1. 政府による規制の強化と幅広い倫理的議論

各国政府は音声クローンAIの使用に対してさらに厳しい規制を課す可能性が高い。リチャード・ブルメンソール上院議員は、最近の米国上院公聴会での冒頭陳述をこの技術に朗読させることで、音声クローン作成ソフトウェアがどれほど説得力を持つものになったかを強調した。

これらの規制やポリシーには何が含まれる可能性がありますか? 彼らは、AI を通じて誰の声を複製できるかについて言及し、テクノロジーの正確な目的を定義する可能性があります。企業が自社のプロセスのいずれかに音声AIを使用しているかどうかを開示する必要があると規定する可能性がある。さらに、裁判所は AI が生成した音声の権利を誰が所有するかを判断する必要があります。

これらの法的パラメータは、クローン音声 AI のリスクや危険から人々を守るのに役立つ可能性があります。

2. コンテンツ作成での利用の増加

音声クローンアプリには倫理的な用途があります。たとえば、顔の見えない YouTube コンテンツを制作するビデオコンテンツクリエーターにとって、音声クローンソフトウェアは生産性向上ツールとなります。あなたの声を模倣するように AI をトレーニングすると、マイクの前で音声を録音したり再録音したりするのに何時間も費やす必要がなくなるため、制作時間を大幅に短縮できます。

もう 1 つは AI マーケティングです。これにより、AI を活用して、従来よりもはるかに高速かつ低コストで資料を作成できます。

3. より多くの AI 検出器

AI の説得力が非常に高まっているため、誤った情報に騙されないようにするためには、コンテンツが本当に人間のものであるかどうかを識別する能力が重要です。コンテンツがどれほど説得力があるとしても、消費するものはすべて人間によって作成されたものであることを確認するために、より多くの人がより信頼性の高い検出器を作成することが期待されます。

4. エンターテインメント業界におけるAI音声の普及拡大

最近、映画協会 (MPA) が AI 吹き替えスタートアップ企業 Deepdub に認定を与えるなど、映画制作業界は AI 吹き替えにますます慣れてきています。このタイトルにより、スタートアップの AI がエンターテインメント業界の高い基準を満たすことが保証されます。

エンターテインメント業界に AI サービスを提供しているのは Deepdub だけではありません。多くのベンチャーキャピタリストは、Netflix、Marvel、Lucasfilm などの映画制作会社に AI を導入するために、数多くの AI スタートアップ企業に投資を始めています。

同様の展開として、AI企業フローレスは2023年5月、米国と英国の配給会社と提携し、英語以外の映画の英語版をAIによる吹き替えと口パクでさまざまな地域に公開すると発表した。

専門家らは業界の価値が2030年までに4,168億ドルになると予想しており、ストリーミングサービス向けにさらに高品質なコンテンツを制作するためにAIの統合がさらに進む態勢が整っている。

耳を地面に近づける

AI 音声クローンは社会にプラスとマイナスの両方で大きな影響を与える可能性があります。一方では、企業はテクノロジーを利用して、人々が病状やクリエイターによって声を失った後も長く「話し」続けることを支援し、制作時間を短縮することができます。

とはいえ、音声クローン AI には倫理的または法的な懸念がまったくないわけではありません。詐欺師は依然としてこれを使用して、家族の緊急計画で人になりすましたり、音声認証をバイパスして非常に機密性の高い機密データにアクセスしたりする可能性があります。

政府は AI の適切な使用に関して考えられる法律や政策について議論を続けていますが、より責任を持って AI を使用できるかどうかは民間企業にかかっています。これには、消費者データへのアクセスに同意を求めることやテクノロジーの使用方法の透明性を実践することなど、サイバーセキュリティのベストプラクティスに従うことが含まれます。

音声クローン AI は進化し続けています。最新の開発状況を常に把握しておくことは、AI では再現できない価値を顧客に提供するためにテクノロジーを最適に使用する方法を理解するのに役立ちます。

さらに詳しく学ぶ準備はできましたか? 話しましょう。

AI 音声クローン作成: 今知っておくべきことすべて

AI音声クローンとは何ですか?