AI 音声クローン作成: 今知っておくべきことすべて

公開: 2023-06-12

人工知能 (AI) の信憑性ははるかに高まっており、最近の例としては、多くの人をだましている、ふわふわしたジャケットを着たローマ法王の画像が広まりました。

しかし、AI が説得力を持って生成できるコンテンツは画像だけではありません。さまざまなユースケースで基本的に人の声を模倣する AI 音声クローンも登場しつつあります。 一例は、一般教書演説中のジョー・バイデン大統領の声の模倣です。

これも高いビジネスの可能性を秘めた重要なツールであることが判明していますが、倫理的および法的な懸念が生じる可能性があります。

この記事では、音声クローン AI の仕組み、注意する必要がある懸念事項、このテクノロジーの将来に何が期待できるかを垣間見ることができます。 おまけとして、自分の声を複製するために使用できるアプリをいくつか紹介します (もちろん倫理的です)。

AI音声クローンとは何ですか?

音声クローン AI は、人工知能ソフトウェアを使用して話者のほぼ同一の音声を作成し、音節の発音からイントネーション パターンまであらゆるものを模倣します。

これは、AI が事前に定義されたさまざまな音声を使用して音声を置き換える音声合成とは異なります。 AI 音声クローンを取得すると、それを使用して任意の言語や感情で言いたいことを言うことができるため、両方が一緒に使用されることがよくあります。

音声クローン作成ソフトウェアが学習する必要があるオーディオ クリップは、長いものである必要はありません。 McAfee の報告によると、3 秒の音声クリップは、AI が話し手を学習してコピーするのに十分な長さです。

世界中の政府がその安全な使用のために設けるべき最良の法律や規制を未だに決定しているため、このテクノロジーの可能性は驚異的です。 その一方で、多くの人がさまざまな目的で音声クローン AI ツールの実験をすでに始めています。

AI 音声クローンの現状

チャットベースの AI や写真生成 AI と同様に、世界中の人々がクローン音声 AI ツールの最適な使い方をまだ模索中です。 以下は、人々や企業が AI 音声クローンをどのように使用するかについての一般的な概要です。

無料の AI 音声クローン ソフトウェアの台頭

音声を複製する能力は、テクノロジーに精通した人や超富裕層だけが持つものではありません。 現在、多くの企業がさまざまな価格で音声クローン ソフトウェアを提供しているため、市場が 2028 年までに 17.2% の年間平均成長率 (CAGR) で成長すると予想されることは驚くべきことではありません。

もちろん、出力品質は有料サービスほど納得のいくものではないかもしれませんが、この種のソフトウェアを提供する企業の数は需要を裏付けています。

有名人の声を再現する

有名人の声を模倣することは、音声クローン AI の最も人気のある使用例となっており、クリエイティブの限界を押し広げ、潜在的な法的問題を引き起こす可能性があります。 テイラー・スウィフト、ジョー・ローガン、元米国大統領など、多くの著名人がAI音声クローンの被害者となっている。

最近の重要な例は、2023 年 4 月に発生しました。TikTok ユーザーの Ghostwriter977 が、国際的アーティストの Drake と The Weeknd の声を使用して「Heart on my Sleeve」という曲をリリースしました。実際に歌っている人も、プロジェクトに何らかの形で関わっている人もいないにもかかわらずです。

この曲は、アーティストのレーベルであるユニバーサル ミュージック グループの著作権侵害により削除されるまで、YouTube で 23 万回以上の再生回数、Spotify で 625,000 回以上ストリーミングされ、AI によって生成された最初のバイラルな曲であると多くの人が主張しています。

自分の声を複製されているのは現代の有名人だけではありません。

ドキュメンタリー『アンディ・ウォーホル・ダイアリーズ』の映画製作者たちは、ソフトウェアを使用して有名なポップアーティスト、アンディ・ウォーホルの合成音声を作成し、彼の日記の一部をナレーションすることで彼の声を生き返らせ、テクノロジーがいかに誰かのアイデンティティを長期間保持する可能性があるかを強調した。彼らが過ぎた後。

障害のある人々にさらなるアクセシビリティを提供する

音声クローン AI のより実用的な使用例の 1 つは、最近 ALS (筋萎縮性側索硬化症) と診断された人など、健康上の合併症によって声や話す能力を失うリスクがある人が声を維持できるように支援することです。

一例として、Apple の Personal Voice 機能が挙げられます。これは、Apple が 2023 年 5 月にプレビューしたものです。このソフトウェアを使用すると、ユーザーは家族や友人が認識できる合成音声を作成できます。 彼らがする必要があるのは、ランダム化されたテキストの一部を 15 分間声に出して読み上げることだけで、ソフトウェアが彼らの音声プロファイルを学習して正確に複製するためです。

同様のサービス「CoeFont」が日本でも開発されており、吃音や発声障害と診断された人など、話すことが難しい人にも無料で利用できるようになっています。 2023年5月のサービス開始以来、400人以上のユーザーがサービスを利用していると報告している。

コンテンツのダビングとローカライズ

特に消費者の約 10 人中 7 人 (68%) が母国語でコンテンツを提供するブランドに切り替えると回答しているため、グローバル化した世界でローカライズされたコンテンツの必要性を理解する企業が増えています。

コンテンツをローカライズする従来の方法は、翻訳者または外国人の声優を雇ってコンテンツを吹き替えるというものでした。 ただし、テクノロジーの革新のおかげで、それはオプションになる可能性があります。

AI 吹き替えは、コンテンツ クリエーターや制作会社が外国人の吹き替えアーティストを雇うことなく、さまざまな国際市場向けにコンテンツを吹き替えることを可能にする新たなトレンドになりつつあります。 エンターテインメント会社は、地元の視聴者にアピールするために、さまざまな言語でシリーズ、映画、曲をリリースできるようになりました。

一例としては、K-POP アーティストのミドナットが自分の曲「Masquerade」を英語でリリースし、音声 AI を使用して 6 か国語のバージョンをリリースしています。 YouTube でミュージック ビデオを視聴している視聴者は、[設定] をクリックしてオーディオ トラックを自分の言語に変更して、違いを聞くことができます。

彼のレコードレーベルは、彼の曲をフィーチャーできるように女性としての彼の声を合成することさえでき、ソロミュージシャンに広大な創造的な機会を提供しました。

詐欺行為に加担している

アリゾナ州の母親、ジェニファー・デステファノさんが2023年4月初めに経験したように、合成音声を作成することで、サイバー犯罪者が目立たない被害者を騙すことが可能になった。彼女は、娘と思われる人物から心配そうな電話を受け、「誘拐された」と泣きながら告げた。犯罪者は身代金を要求した。 しかし、娘はずっと無事でした。

米連邦取引委員会(FTC)は、AIによって詐欺師が家族の緊急計画を強化できるようになり、愛する人が困っているという話を聞くのがはるかに説得力を持って聞こえるようになったと述べた。 このようなとき、一部の専門家は、声が実際に彼らからのものであることを確認するために、愛する人たちと「AI セーフワード」について合意することを推奨しています。

いずれにしても、AI 音声クローン作成ソフトウェアが公的にアクセスできることのマイナスの影響は明らかです。 多くの人がこのテクノロジーに関して倫理的および法的懸念を提起しています。自分の声を複製するつもりなら注意する必要があります。

音声クローン AI の倫理的および法的懸念

政府機関、企業、ユーザーは、AI 音声クローンがもたらす可能性のある倫理的および法的懸念をすべて理解するために今も取り組んでいます。 まだ初期のテクノロジーではありますが、注意すべき一般的な問題を以下に示します。

同意とプライバシーへの影響

詐欺師が音声クローン ソフトウェアを簡単にトレーニングして特定の音声を学習できるため、コンテンツ作成者やミュージシャンは詐欺やなりすましの危険にさらされます。 これらの例は、アーティストやコンテンツ作成者が自分の音声の著作権を所有すべきかどうかに疑問を投げかけています。

さらに、なりすましの可能性がはるかに高いため、人々の生活が脅かされています。

犯罪者が音声ベースの認証システムをバイパスできるようにすることで、プライバシーとサイバーセキュリティを脅かします。 これは、Centrelink とオーストラリア税務局 (ATO) にも起こりました。犯罪者は、音声認識による身元確認を目的とした声紋セキュリティ システムをだますために合成音声を使用しました。

誤った情報と操作

AI ディープフェイクは依然としてホットな話題であり、コミュニティを分断し操作する恐れがあります。 懸念されるのは、音声クローンAIが、政府が規制するよりも早く、非常に説得力のあるものになるよう進化していることだ。

オンライン荒らしが有名人が攻撃的なコメントやジョークを吐き出す音声を公開すると、有名人の評判が操作され、影響を受ける可能性があります。 最近の例は、ヒトラーの『我が闘争』を朗読するイギリスの女優エマ・ワトソンの声です。

人間の声優への影響と離職

AI が従来の人間のタスクをますます実行できるようになっているため、多くの人が自分の雇用の安全性を心配しています。 音声クローンAIは特に声優を脅かしている。

AIが人々のプロジェクトに使用するために声優の声をコピーしているのを発見し、声優たちがショックを受けたという事件がすでに起きている。 2023 年 2 月、ビデオゲームの声優数名が、自分の声を AI に譲渡するよう要求する契約を公に非難しました。

AI を使用してコンテンツのナレーションや吹き替えを行うことがはるかに簡単になったら、声優はどうなるでしょうか? 何千人もの声優が仕事を失う可能性があるため、これは検討する価値のある問題です。

AI 音声クローンの現状は複雑です。 多くの人がまだこのテクノロジーを実験中です。 そう考えると、音声クローン AI の将来がどうなるかを検討する価値はあります。

AI 音声クローン作成で期待できること

音声クローンAIについては何も設定されていません。 世界がこのテクノロジーの可能性を理解し、発見し続けるにつれて、このテクノロジーの将来がどうなるかを考えるのが最善です。

1. 政府による規制の強化と幅広い倫理的議論

各国政府は音声クローンAIの使用に対してさらに厳しい規制を課す可能性が高い。 リチャード・ブルメンソール上院議員は、最近の米国上院公聴会での冒頭陳述をこの技術に朗読させることで、音声クローン作成ソフトウェアがどれほど説得力を持つものになったかを強調した。

これらの規制やポリシーには何が含まれる可能性がありますか? 彼らは、AI を通じて誰の声を複製できるかについて言及し、テクノロジーの正確な目的を定義する可能性があります。 企業が自社のプロセスのいずれかに音声AIを使用しているかどうかを開示する必要があると規定する可能性がある。 さらに、裁判所は AI が生成した音声の権利を誰が所有するかを判断する必要があります。

これらの法的パラメータは、クローン音声 AI のリスクや危険から人々を守るのに役立つ可能性があります。

2. コンテンツ作成での利用の増加

音声クローン アプリには倫理的な用途があります。 たとえば、顔の見えない YouTube コンテンツを制作するビデオ コンテンツ クリエーターにとって、音声クローン ソフトウェアは生産性向上ツールとなります。 あなたの声を模倣するように AI をトレーニングすると、マイクの前で音声を録音したり再録音したりするのに何時間も費やす必要がなくなるため、制作時間を大幅に短縮できます。

もう 1 つは AI マーケティングです。これにより、AI を活用して、従来よりもはるかに高速かつ低コストで資料を作成できます。

3. より多くの AI 検出器

AI の説得力が非常に高まっているため、誤った情報に騙されないようにするためには、コンテンツが本当に人間のものであるかどうかを識別する能力が重要です。 コンテンツがどれほど説得力があるとしても、消費するものはすべて人間によって作成されたものであることを確認するために、より多くの人がより信頼性の高い検出器を作成することが期待されます。

4. エンターテインメント業界におけるAI音声の普及拡大

最近、映画協会 (MPA) が AI 吹き替えスタートアップ企業 Deepdub に認定を与えるなど、映画制作業界は AI 吹き替えにますます慣れてきています。 このタイトルにより、スタートアップの AI がエンターテインメント業界の高い基準を満たすことが保証されます。

エンターテインメント業界に AI サービスを提供しているのは Deepdub だけではありません。 多くのベンチャーキャピタリストは、Netflix、Marvel、Lucasfilm などの映画制作会社に AI を導入するために、数多くの AI スタートアップ企業に投資を始​​めています。

同様の展開として、AI企業フローレスは2023年5月、米国と英国の配給会社と提携し、英語以外の映画の英語版をAIによる吹き替えと口パクでさまざまな地域に公開すると発表した。

専門家らは業界の価値が2030年までに4,168億ドルになると予想しており、ストリーミングサービス向けにさらに高品質なコンテンツを制作するためにAIの統合がさらに進む態勢が整っている。

人気の音声複製アプリ

ソフトウェアを使用して自分の声を複製したい場合は、チェックできる一般的なツールをいくつか紹介します。

Resemble.AI

Resemble.AI では、ご満足いただける合成音声を作成するためのさまざまな製品とサービスを提供しています。 たとえば、録音したオーディオ内のいくつかの単語を再録音せずに置き換えたい場合、リサンブル フィル機能を使用すると、クリップをシームレスに編集できます。

また、カスタム AI Voices API もあり、開発者はすでに使用しているさまざまなツールに統合できます。 彼らの音声クローン AI は、音声を学習するために少なくとも 3 分間の音声を聞くか、あらかじめ決められた 25 の文章を話すだけで済みます。

言葉では言い表せない

BeyondWords には、倫理的に作成された 140 以上の言語で 550 以上の AI 音声のライブラリがあります。 同社は音声クローン契約を通じて声優と協力しています。 また、自然言語処理 (NLP) を使用してユーザーのテキストを分析し、本物の音声に変換します。

発言者

Respeecher は、コンテンツ クリエーター、映画制作者、ゲーム開発者が合成音声を作成できるようにすることに誇りを持っています。 特に、彼らはルーカスフィルムなどの企業と協力して、年配の俳優が若い役を再演するために AI で生成された音声を生成したり、モンデリーズ インターナショナルなどの企業と協力して、高度にターゲットを絞ったローカライズされたマーケティングを作成したりしました。

同社は、デジタル信号処理アルゴリズムと深層生成モデルの両方を使用して、人工知能が音声だけでなく感情やパッセージの伝達も学習して模倣できるようにしています。

イレブンラボ

イレブン ラボの有名人の声のライブラリは多くの人に知られており、VoiceLab 製品を使用してコンテンツにすぐに使用できます。 彼らは、ジョー・ローガンやスティーブ・ジョブズなどの他の有名人と一緒に、国連でのレオナルド・ディカプリオのスピーチを吹き替えることで、自分たちの専門知識を披露しました。

同社は、音声合成プラットフォームを使用してテキスト内の論理と感情を捉えることに重点を置いた AI モデルで、リアルな音声を生成することを目指しています。 各文と段落のコンテキストを収集して、イントネーションと説得力のある話し方を理解します。

PlayHT

PlatHT には、イーロン・マスクやニール・ドグラース・タイソンからジョン・F・ケネディやバラク・オバマまで、プロジェクト用にクローンできる音声のライブラリがあります。 同社のリアルタイム音声クローン ソフトウェアを使用すると、話し方をキャプチャし、対象者のアクセントや話し方のニュアンスを保存する合成音声を作成できます。

彼らの音声クローン AI が音声分析と学習プロセスを開始するには、少なくとも 1 時間のクリアな音声が必要です。

これらの企業はすべて、製品の背後にある倫理の概要を説明しており、Web サイトで確認できることに注意することが重要です。

耳を地面に近づける

AI 音声クローンは社会にプラスとマイナスの両方で大きな影響を与える可能性があります。 一方では、企業はテクノロジーを利用して、人々が病状やクリエイターによって声を失った後も長く「話し」続けることを支援し、制作時間を短縮することができます。

とはいえ、音声クローン AI には倫理的または法的な懸念がまったくないわけではありません。 詐欺師は依然としてこれを使用して、家族の緊急計画で人になりすましたり、音声認証をバイパスして非常に機密性の高い機密データにアクセスしたりする可能性があります。

政府は AI の適切な使用に関して考えられる法律や政策について議論を続けていますが、より責任を持って AI を使用できるかどうかは民間企業にかかっています。 これには、消費者データへのアクセスに同意を求めることやテクノロジーの使用方法の透明性を実践することなど、サイバーセキュリティのベストプラクティスに従うことが含まれます。

音声クローン AI は進化し続けています。 最新の開発状況を常に把握しておくことは、AI では再現できない価値を顧客に提供するためにテクノロジーを最適に使用する方法を理解するのに役立ちます。

さらに詳しく学ぶ準備はできましたか? 話しましょう