AI Voice Cloning: Alles, was Sie jetzt wissen müssen

Veröffentlicht: 2023-06-12

Künstliche Intelligenz (KI) ist weitaus glaubwürdiger geworden. Ein aktuelles Beispiel ist das virale Bild des Papstes in einer Puffjacke, das viele täuscht.

Aber Bilder sind nicht die einzigen Inhalte, die KI überzeugend produzieren kann – auch das KI-Stimmenklonen, das im Wesentlichen die eigene Stimme für verschiedene Anwendungsfälle nachahmt, ist im Entstehen begriffen. Ein Beispiel ist die Nachahmung der Stimme von Präsident Joe Biden während seiner Rede zur Lage der Nation.

Es erweist sich als weiteres wichtiges Instrument mit hohem Geschäftspotenzial, kann jedoch ethische und rechtliche Bedenken aufwerfen.

Dieser Artikel gibt Ihnen einen Einblick in die Funktionsweise von Voice-Cloning-KI, die Bedenken, die Sie beachten müssen, und was Sie von der Zukunft dieser Technologie erwarten können. Als Bonus zeigen wir Ihnen ein paar Apps, mit denen Sie Ihre Stimme klonen können – ethisch natürlich.

Was ist AI Voice Cloning?

Die KI zum Klonen von Stimmen verwendet Software für künstliche Intelligenz, um eine nahezu identische Stimme eines Sprechers zu erstellen und dabei alles nachzuahmen, von der Silbenaussprache bis hin zu Intonationsmustern.

Es unterscheidet sich von der Sprachsynthese, bei der KI unterschiedliche, vordefinierte Stimmen verwendet, um Sprache zu ersetzen. Beide werden oft zusammen verwendet, denn sobald Sie einen KI-Stimmenklon haben, können Sie damit sagen, was Sie wollen, in jeder Sprache und Emotion.

Der Audioclip, aus dem die Software zum Klonen von Stimmen lernen muss, muss nicht lang sein. McAfee berichtet, dass ein Sprachclip von drei Sekunden Länge ausreicht, damit die KI den Sprecher lernen und nachahmen kann.

Das Potenzial dieser Technologie ist atemberaubend, da Regierungen auf der ganzen Welt immer noch die besten Gesetze und Vorschriften für ihre sichere Nutzung festlegen. Inzwischen haben viele Menschen bereits begonnen, für verschiedene Zwecke mit KI-Tools zum Klonen von Stimmen zu experimentieren.

Der aktuelle Stand des KI-Stimmenklonens

Genau wie bei chatbasierter und fotogenerierender KI sind Menschen auf der ganzen Welt immer noch dabei, herauszufinden, wie sie KI-Tools mit Klonstimme am besten nutzen können. Nachfolgend finden Sie einen allgemeinen Überblick darüber, wie Menschen und Unternehmen das KI-Stimmenklonen nutzen.

Aufstieg der kostenlosen KI-Software zum Klonen von Stimmen

Die Möglichkeit, Stimmen zu klonen, ist nicht nur technisch versierten oder superreichen Menschen vorbehalten. Da inzwischen zahlreiche Unternehmen Software zum Klonen von Stimmen zu unterschiedlichen Preisen anbieten, ist es nicht verwunderlich, dass der Markt bis 2028 mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 17,2 % wachsen wird.

Natürlich ist die Ausgabequalität möglicherweise nicht so überzeugend wie bei kostenpflichtigen Diensten, aber die Anzahl der Unternehmen, die diese Art von Software anbieten, unterstreicht die Nachfrage.

Nachbildung der Stimmen von Prominenten

Die Nachahmung der Stimmen von Prominenten ist zum beliebtesten Anwendungsfall für das Stimmenklonen von KI geworden, der kreative Grenzen überschreitet und potenzielle rechtliche Probleme aufwirft. Viele berühmte Persönlichkeiten, darunter Taylor Swift, Joe Rogan und ehemalige US-Präsidenten, wurden Opfer des KI-Stimmenklonens.

Ein bedeutendes Beispiel aus jüngster Zeit ereignete sich im April 2023, als der TikTok-Benutzer ghostwriter977 den Song „Heart on my Sleeve“ mit den Stimmen der internationalen Künstler Drake und The Weeknd veröffentlichte – obwohl keiner tatsächlich sang oder in irgendeiner Funktion mit dem Projekt verbunden war.

Viele argumentieren, dass es sich um den ersten viralen, von KI generierten Song handelt, der über 230.000 Aufrufe auf YouTube und 625.000 Streams auf Spotify erhielt, bevor er durch Urheberrechtsstreiks der Universal Music Group – dem Label des Künstlers – eingestellt wurde.

Moderne Prominente sind nicht die einzigen, deren Stimmen nachgeahmt werden.

Die Filmemacher des Dokumentarfilms „The Andy Warhol Diaries“ erstellten mithilfe von Software eine synthetische Stimme des berühmten Pop-Künstlers Andy Warhol, um Teile seines Tagebuchs zu erzählen, seine Stimme wieder zum Leben zu erwecken und hervorzuheben, wie Technologie das Potenzial hat, die Identität eines Menschen lange zu bewahren nachdem sie vergangen sind.

Bietet mehr Barrierefreiheit für Menschen mit Behinderungen

Einer der praktischeren Anwendungsfälle der KI zum Klonen von Stimmen besteht darin, Menschen, bei denen das Risiko besteht, dass sie aufgrund gesundheitlicher Komplikationen ihre Stimme oder ihre Sprachfähigkeit verlieren, wie beispielsweise diejenigen, bei denen kürzlich ALS (Amyotrophe Lateralsklerose) diagnostiziert wurde, dabei zu helfen, ihre Stimme zu bewahren.

Ein Beispiel ist die Personal Voice-Funktion von Apple, die die Marke im Mai 2023 vorstellte. Die Software ermöglicht es Benutzern, eine synthetische Stimme zu erstellen, die ihre Familie und Freunde erkennen können. Sie müssen lediglich Teile zufällig ausgewählter Texte 15 Minuten lang laut vorlesen, damit die Software lernt und ihr Stimmprofil genau reproduziert.

Ein ähnlicher Dienst, CoeFont, wird in Japan entwickelt und bietet sogar die kostenlose Nutzung für Menschen an, die Schwierigkeiten beim Sprechen haben, beispielsweise diejenigen, die stottern oder bei denen Dysphonie diagnostiziert wird. Sie haben berichtet, dass mehr als 400 Benutzer ihren Dienst seit dem Start im Mai 2023 genutzt haben.

Inhalte synchronisieren und lokalisieren

Immer mehr Unternehmen erkennen den Bedarf an lokalisierten Inhalten in der globalisierten Welt, insbesondere da etwa sieben von zehn Verbrauchern (68 %) sagen, dass sie zu einer Marke wechseln würden, die Inhalte in ihrer Muttersprache anbietet.

Die traditionelle Methode zur Lokalisierung von Inhalten besteht darin, einen Übersetzer oder ausländische Synchronsprecher mit der Synchronisation der Inhalte zu beauftragen. Dank technologischer Innovationen kann dies jedoch optional sein.

KI-Synchronisation entwickelt sich zu einem aufkommenden Trend, der es Content-Erstellern und Produktionsfirmen ermöglicht, ihre Inhalte für verschiedene internationale Märkte zu synchronisieren, ohne ausländische Synchronsprecher engagieren zu müssen. Unterhaltungsunternehmen können nun Serien, Filme und Songs in verschiedenen Sprachen veröffentlichen, um das lokale Publikum anzusprechen.

Ein Beispiel ist der K-Pop-Künstler Midnatt, der seinen Song „Masquerade“ auf Englisch veröffentlicht und mithilfe von Sprach-KI Versionen in sechs Sprachen veröffentlicht. Zuschauer, die sich das Musikvideo auf YouTube ansehen, können auf „Einstellungen“ klicken, um die Audiospur auf ihre Sprache umzustellen und den Unterschied zu hören.

Sein Plattenlabel war sogar in der Lage, seine Stimme als Frau zu synthetisieren, sodass er in seinem eigenen Song auftreten konnte, was Solomusikern enorme kreative Möglichkeiten eröffnete.

Beteiligung an Betrügereien

Die Schaffung einer synthetischen Stimme hat es Cyberkriminellen ermöglicht, unscheinbare Opfer zu betrügen, wie Jennifer DeStefano, eine Mutter in Arizona, Anfang April 2023 erlebte. Sie erhielt einen besorgniserregenden Anruf von der Frau, von der sie glaubte, dass sie ihre Tochter sei Die Kriminellen forderten ein Lösegeld. Ihre Tochter war jedoch die ganze Zeit über in Sicherheit.

Die US-amerikanische Federal Trade Commission (FTC) sagte, dass KI es Betrügern ermöglicht habe, ihre Familiennotfallpläne zu verbessern, sodass es für Sie weitaus überzeugender klingt, wenn ein geliebter Mensch sagt, er sei in Schwierigkeiten. In solchen Momenten empfehlen einige Experten, mit Ihren Lieben ein „KI-Sicherheitswort“ zu vereinbaren, um sicherzustellen, dass die Stimme tatsächlich von ihnen stammt.

Unabhängig davon sind die negativen Auswirkungen einer öffentlich zugänglichen KI-Software zum Klonen von Stimmen klar. Viele Menschen haben ethische und rechtliche Bedenken hinsichtlich dieser Technologie geäußert, über die Sie sich im Klaren sein sollten, wenn Sie beabsichtigen, Ihre Stimme zu klonen.

Ethische und rechtliche Bedenken hinsichtlich der KI zum Klonen von Stimmen

Leitungsgremien, Unternehmen und Benutzer arbeiten immer noch daran, alle ethischen und rechtlichen Bedenken zu verstehen, die ein KI-Sprachklon mit sich bringen kann. Obwohl es sich noch um eine im Entstehen begriffene Technologie handelt, sind im Folgenden einige weit verbreitete Probleme aufgeführt, die Sie beachten sollten.

Auswirkungen auf Einwilligung und Datenschutz

Die Leichtigkeit, mit der Betrüger Software zum Klonen von Stimmen trainieren können, um bestimmte Stimmen zu lernen, setzt Inhaltsersteller und Musiker dem Risiko von Betrug und Identitätsdiebstahl aus. Diese Fälle stellen in Frage, ob Künstler und Inhaltsersteller ihre Stimmen urheberrechtlich schützen sollten oder nicht.

Darüber hinaus sind die Lebensgrundlagen der Menschen gefährdet, da das Potenzial für Identitätsdiebstahl viel höher ist.

Es bedroht die Privatsphäre und die Cybersicherheit, indem es Kriminellen ermöglicht, sprachbasierte Authentifizierungssysteme zu umgehen. Dies geschah bei Centrelink und dem Australian Taxation Office (ATO), wo Kriminelle eine synthetische Stimme nutzten, um die Stimmabdruck-Sicherheitssysteme auszutricksen, die dazu dienen, Identitäten durch Spracherkennung zu überprüfen.

Fehlinformationen und Manipulation

KI-Deepfakes sind weiterhin ein heißes Diskussionsthema und drohen, Gemeinschaften zu spalten und zu manipulieren. Die Sorge besteht darin, dass sich die KI zum Klonen von Stimmen schneller zu einer äußerst überzeugenden Technologie entwickelt, als Regierungen sie regulieren können.

Es kann den Ruf einer Berühmtheit manipulieren und beeinträchtigen, wenn Online-Trolle Audioaufnahmen einer Berühmtheit veröffentlichen, die beleidigende Kommentare oder Witze von sich gibt; Ein aktuelles Beispiel ist die Stimme der britischen Schauspielerin Emma Watson, die Hitlers Mein Kampf liest.

Auswirkungen auf menschliche Synchronsprecher und Arbeitsplatzverlagerung

Viele Menschen machen sich Sorgen um ihre Arbeitsplatzsicherheit, da KI zunehmend in der Lage ist, traditionell menschliche Aufgaben zu übernehmen. Das Klonen von Stimmen durch künstliche Intelligenz bedroht insbesondere Synchronsprecher.

Es gab bereits Vorfälle, bei denen Synchronsprecher schockiert waren, als sie feststellten, dass KI ihre Stimmen kopierte, damit andere sie für ihre Projekte verwenden konnten. Im Februar 2023 verurteilten einige Synchronsprecher von Videospielen öffentlich die Verträge, die sie erhalten hatten, und verlangten von ihnen, ihre Stimmen an AI zu übergeben.

Was wird aus Synchronsprechern, wenn es viel einfacher wird, mithilfe von KI Inhalte für Sie zu erzählen oder zu synchronisieren? Es ist eine Frage, die es wert ist, untersucht zu werden, da sie potenziell dazu führen kann, dass Tausende von Synchronsprechern ihren Job verlieren.

Der Stand des KI-Stimmenklonens ist kompliziert. Viele experimentieren immer noch mit der Technologie. Vor diesem Hintergrund lohnt es sich, darüber nachzudenken, was die Zukunft für die KI zum Klonen von Stimmen bereithält.

Was Sie vom AI Voice Cloning erwarten können

Es ist nichts über die KI zum Klonen von Stimmen festgelegt. Da die Welt weiterhin die Möglichkeiten dieser Technologie versteht und entdeckt, ist es am besten, darüber nachzudenken, was die Zukunft für sie bereithalten könnte.

1. Strengere staatliche Regulierung und umfassendere ethische Diskussionen

Regierungen werden wahrscheinlich strengere Vorschriften für den Einsatz von KI zum Klonen von Stimmen erlassen. Senator Richard Blumenthal betonte, wie überzeugend Software zum Klonen von Stimmen geworden ist, indem er die Technologie in seiner Eröffnungsrede bei einer kürzlichen Anhörung im US-Senat vortragen ließ.

Was könnten diese Vorschriften und Richtlinien beinhalten? Sie können sich damit befassen, wessen Stimmen durch KI geklont werden können, und die genauen Zwecke der Technologie definieren. Es könnte vorsehen, dass Unternehmen offenlegen müssen, ob sie für einen ihrer Prozesse Sprach-KI einsetzen oder nicht. Darüber hinaus müssen Gerichte noch entscheiden, wer die Rechte an einer KI-generierten Stimme besitzt.

Diese rechtlichen Parameter könnten den Menschen helfen, sich vor den Risiken und Gefahren der geklonten Sprach-KI zu schützen.

2. Verstärkte Nutzung für die Erstellung von Inhalten

Es gibt ethische Verwendungsmöglichkeiten für Apps zum Klonen von Stimmen. Software zum Klonen von Stimmen kann beispielsweise ein Produktivitätstool sein, wenn Sie Videoinhalte erstellen und gesichtslose YouTube-Inhalte erstellen. Wenn Sie die KI so trainieren, dass sie Ihre Stimme nachahmt, kann dies die Produktionszeit erheblich verkürzen, da Sie nicht mehr Stunden damit verbringen müssen, Audio vor einem Mikrofon aufzunehmen und erneut aufzunehmen.

Ein weiteres Beispiel ist KI-Marketing, das es Ihnen ermöglicht, KI zu nutzen, um Materialien viel schneller und zu geringeren Kosten als zuvor zu produzieren.

3. Mehr KI-Detektoren

Angesichts der mittlerweile überzeugenden KI ist die Fähigkeit, zu erkennen, ob ein Inhalt authentisch menschlich ist, von entscheidender Bedeutung, um nicht auf Fehlinformationen hereinzufallen. Sie können davon ausgehen, dass immer mehr Menschen zuverlässigere Detektoren entwickeln, um sicherzustellen, dass alles, was Sie konsumieren, von Menschen erstellt wurde, egal wie überzeugend ein Inhalt ist.

4. Größere Beliebtheit von KI-Stimmen in der Unterhaltungsbranche

Die Filmbranche fühlt sich zunehmend mit der KI-Synchronisation vertraut, und die Motion Picture Association (MPA) hat vor Kurzem dem KI-Synchronisations-Startup Deepdub eine Zertifizierung verliehen. Dieser Titel stellt sicher, dass die KI des Startups den hohen Standards der Unterhaltungsindustrie gerecht wird.

Deepdub ist nicht der Einzige, der der Unterhaltungsindustrie KI-Dienste anbietet. Viele Risikokapitalgeber haben begonnen, in zahlreiche KI-Startups zu investieren, um KI in Filmproduktionsfirmen wie Netflix, Marvel und Lucasfilm zu bringen.

In einer ähnlichen Entwicklung gab das KI-Unternehmen Flawless im Mai 2023 bekannt, dass es mit US-amerikanischen und britischen Verleihern zusammenarbeitet, um englische Versionen nicht-englischer Filme in verschiedenen Regionen zu veröffentlichen, die von KI synchronisiert und lippensynchronisiert werden.

Da Experten davon ausgehen, dass die Branche bis 2030 einen Wert von 416,8 Milliarden US-Dollar haben wird, wird die KI stärker integriert, um mehr hochwertige Inhalte für Streaming-Dienste zu produzieren.

Beliebte Apps zum Klonen von Stimmen

Wenn Sie Ihre Stimme mithilfe einer Software klonen möchten, finden Sie hier einige beliebte Tools, die Sie ausprobieren können.

Ähneln.KI

Resemble.AI bietet verschiedene Produkte und Dienstleistungen an, die Ihnen dabei helfen, eine synthetische Stimme zu erstellen, mit der Sie zufrieden sind. Wenn Sie beispielsweise ein paar Wörter in Ihrem aufgenommenen Audio ersetzen möchten, ohne es neu aufzunehmen, hilft die Funktion „Resemble Fill“ dabei, den Clip nahtlos zu bearbeiten.

Sie verfügen außerdem über eine Custom AI Voices API, die Entwickler in verschiedene Tools integrieren können, die sie bereits verwenden. Ihre Stimme-Klon-KI benötigt nur mindestens drei Minuten Audio oder das Sprechen von 25 vorgegebenen Sätzen, um Stimmen zu lernen.

Jenseits der Worte

BeyondWords verfügt über eine Bibliothek mit über 550 KI-Stimmen in mehr als 140 Sprachen, die ethisch einwandfrei erstellt wurden; Das Unternehmen arbeitet im Rahmen seines Voice Cloning-Vertrags mit Synchronsprechern zusammen. Sie nutzen außerdem Natural Language Processing (NLP), um Benutzertexte zu analysieren und in authentisch klingende Sprache umzuwandeln.

Redner

Respeecher ist stolz darauf, Content-Erstellern, Filmemachern und Spieleentwicklern die Möglichkeit zu geben, synthetische Stimmen zu erstellen. Insbesondere haben sie mit Unternehmen wie Lucasfilms zusammengearbeitet, um eine KI-generierte Stimme für einen älteren Schauspieler zu generieren, der seine jüngere Rolle wiederholt, und mit Mondelez International, um äußerst zielgerichtetes und lokalisiertes Marketing zu produzieren.

Das Unternehmen nutzt sowohl digitale Signalverarbeitungsalgorithmen als auch ein tiefes generatives Modell, um seiner künstlichen Intelligenz zu ermöglichen, nicht nur die Stimme, sondern auch die Emotionen und die Wiedergabe von Passagen zu lernen und nachzuahmen.

Elf Labore

Viele kennen Eleven Labs für seine Bibliothek mit Promi-Stimmen, die Sie mit dem VoiceLab-Produkt problemlos für Ihre Inhalte verwenden können. Sie stellten ihr Fachwissen unter Beweis, indem sie Leonardo DiCaprios Rede vor den Vereinten Nationen mit anderen Prominenten wie Joe Rogan und Steve Jobs synchronisierten.

Ziel des Unternehmens ist es, mit seinem KI-Modell, das sich auf die Erfassung von Logik und Emotionen in Texten konzentriert, mit seiner Speech Synthesis-Plattform realistisch klingende Stimmen zu erzeugen. Es sammelt den Kontext zu jedem Satz und Absatz, um zu verstehen, wie man überzeugend intoniert und spricht.

PlayHT

PlatHT verfügt über eine Bibliothek mit Stimmen, die Sie für Ihre Projekte klonen können, von Elon Musk und Neil DeGrasse Tyson bis hin zu John F. Kennedy und Barack Obama. Mit der Echtzeit-Voice-Cloning-Software können Sie eine synthetische Stimme erstellen, die den Sprechstil erfasst und den Akzent und die Sprechnuancen des Gesprächspartners beibehält.

Ihre Stimme-Klon-KI benötigt mindestens eine Stunde klar gesprochenes Audio, um den Stimmanalyse- und Lernprozess anzukurbeln.

Es ist wichtig zu beachten, dass alle diese Unternehmen die Ethik hinter ihren Produkten dargelegt haben, die Sie auf ihrer Website einsehen können.

Das Ohr am Boden behalten

Das Klonen von KI-Stimmen kann erhebliche positive und negative Auswirkungen auf die Gesellschaft haben. Einerseits können Unternehmen Technologie nutzen, um Menschen dabei zu helfen, noch lange nach dem Verlust ihrer Stimme aufgrund von Erkrankungen weiter zu „sprechen“, oder um Kreative dazu zu bringen, ihre Produktionszeit zu verkürzen.

Allerdings ist das Klonen von Stimmen mit künstlicher Intelligenz nicht völlig frei von ethischen oder rechtlichen Bedenken. Betrüger können es immer noch nutzen, um sich als Personen in Familiennotfallprogrammen auszugeben oder um Sprachauthentifizierer zu umgehen und auf hochsensible und vertrauliche Daten zuzugreifen.

Während Regierungen weiterhin über mögliche Gesetze und Richtlinien zum angemessenen Einsatz von KI diskutieren, liegt es an privaten Unternehmen, verantwortungsvoller damit umzugehen. Dazu gehört die Befolgung von Best Practices für die Cybersicherheit, etwa das Einholen der Einwilligung für den Zugriff auf Verbraucherdaten und die Gewährleistung von Transparenz bei der Nutzung der Technologie.

Die KI zum Klonen von Stimmen entwickelt sich weiter. Wenn Sie über die neuesten Entwicklungen auf dem Laufenden bleiben, können Sie besser verstehen, wie Sie die Technologie am besten nutzen können, um Ihren Kunden einen Mehrwert zu bieten, den KI nicht reproduzieren kann.

Sind Sie bereit, mehr zu erfahren? Lass uns reden .