Was genau ist ein Audio Deepfake?

 - - -
-

Was genau ist ein Audio Deepfake?

 

Liebe(r) ,

 

Video DEEPFAKES (https://youtu.be/SDnZ6vabeoc) bedeutet, dass sie nicht immer Ihren Augen glauben können, wenn sie etwas sehen. Jetzt können Audio-Deepfakes bedeuten, dass Sie Ihren Ohren nicht mehr vertrauen können. War das wirklich der Chef, der per Skype wegen der Rechnung anrief und den PIN der Bankkarte brauchte? Ist das wirklich dein Vater am Telefon, der nach seinem E-Mail-Passwort fragte?

Fügen Sie der Liste der Welt eine weitere existenzielle Sorge hinzu. Es gibt technologischen Risiken wie z.b. die Bedrohung durch nukleare, chemische und biologische Kriegsführung.
In den vergangenen Jahrzehnten hatten wir schon mehrfach Gelegenheit gehabt von so mancher Gänsehaut besessen zu sein. Globalen Epidemien oder die Klimakrise und jetzt haben wir das maschinelle Lernen von Fälschungen. Wir haben auch noch die Kontrolle der Menschen über ihre Ähnlichkeit der Stimme verloren.

Was genau ist ein Audio Deepfake?

Die meisten von uns haben ein Video Deepfake gesehen, in dem Deep-Learning-Algorithmen verwendet werden, um eine Person durch die Ähnlichkeit einer anderen Person zu ersetzen. Die besten Videos sind nervenaufreibend realistisch.

Und jetzt ist Audio an der Reihe. Eine Audio-Deepfake liegt vor, wenn eine „geklonte“ Stimme, die möglicherweise nicht von der realen Person zu unterscheiden ist, zur Erzeugung von künstlichem Audio verwendet wird.

 

"Es ist wie Photoshop für Sprache", sagte Zohaib Ahmed, CEO von Resemble AI, über die Voice-Cloning-Technologie seines Unternehmens.

Schlechte Photoshop-Jobs können jedoch oft leicht entlarvt werden. Und noch! Da es sich bei so vielen Sprachaufzeichnungen um Telefonanrufe von geringer Qualität handelt (oder an lauten Orten aufgezeichnet werden), können Audio-Deepfakes noch ununterscheidbarer gemacht werden. Je schlechter die Klangqualität ist, desto schwieriger ist es, diese verräterischen Anzeichen dafür zu erkennen, dass eine Stimme nicht real ist.

Aber warum soll jemand einen “Photoshop für Stimmen” überhaupt brauchen?

Der überzeugende Fall für synthetisches Audio

Es gibt tatsächlich eine enorme Nachfrage nach synthetischem Audio. Laut Ahmed ist „der ROI sehr unmittelbar“.

Dies gilt insbesondere für Spiele. In der Vergangenheit war Sprache die einzige Komponente in einem Spiel, die bei Bedarf nicht erstellt werden konnte. Selbst in interaktiven Titeln mit Szenen in Kinoqualität, die in Echtzeit gerendert werden, sind verbale Interaktionen mit nicht spielenden Charakteren immer im Wesentlichen statisch.

Jetzt hat die Technologie jedoch aufgeholt. Studios haben das Potenzial, die Stimme eines Schauspielers zu klonen und Text-to-Speech-Engines zu verwenden, damit Charaktere in Echtzeit alles sagen können.

Es gibt auch traditionellere Anwendungen in der Werbung sowie im technischen und Kundensupport. Hier ist eine Stimme wichtig, die authentisch menschlich klingt und persönlich und kontextuell ohne menschliche Eingaben reagiert.

 

WEITER LESEN

 

 

 - - -
Not interested any more? Unsubscribe
Powered by AcyMailing
Joomla SEF URLs by Artio