AIDOSS
  • Start
  • Latest Letter
  • Artikel
  • BaWü
  • Fut- und Soft
  • AIDOSS Dolphin

Audio-Deepfakes (2)

 

...

Voice-Cloning-Unternehmen sind auch von medizinischen Anwendungen begeistert. Natürlich ist das Ersetzen von Stimmen in der Medizin nichts Neues - Stephen Hawking verwendete bekanntermaßen eine synthetisierte Roboterstimme, nachdem er 1985 seine eigene verloren hatte. Das moderne Klonen von Stimmen verspricht jedoch etwas noch Besseres.

Im Jahr 2008 gab die synthetische Sprachfirma CereProc dem verstorbenen Filmkritiker Roger Ebert seine Stimme zurück, nachdem Krebs sie weggenommen hatte. CereProc hatte eine Webseite veröffentlicht, auf der Menschen Nachrichten eingeben konnten, die dann mit der Stimme des ehemaligen Präsidenten George Bush gesprochen wurden.

"Ebert sah das und dachte:" Nun, wenn sie Bushs Stimme kopieren könnten, könnten sie meine kopieren können ", sagte Matthew Aylett, wissenschaftlicher Leiter von CereProc. Ebert bat das Unternehmen dann, eine Ersatzstimme zu erstellen, indem sie eine große Bibliothek von Sprachaufzeichnungen verarbeiteten.

"Es war eines der ersten Male, dass jemand das getan hat, und es war ein echter Erfolg", sagte Aylett.

In den letzten Jahren haben eine Reihe von Unternehmen (einschließlich CereProc) mit der ALS Association on Project Revoice zusammengearbeitet , um Menschen, die an ALS leiden, synthetische Stimmen zur Verfügung zu stellen.

 

Die ALS Association

Wie künstliches Audio funktioniert

Das Klonen von Stimmen hat gerade einen Boom und eine Reihe von Unternehmen entwickeln Tools. Neben Resemble AI und Descript gibt es  andere Online-Demos, die jeder kostenlos ausprobieren kann. Sie zeichnen die Phrasen auf, die auf dem Bildschirm angezeigt werden, und in wenigen Minuten wird ein Modell Ihrer Stimme erstellt.

Sie können AI - insbesondere Deep-Learning-Algorithmen - dafür danken, dass sie aufgezeichnete Sprache mit Text abgleichen können, um die Phoneme zu verstehen, aus denen Ihre Stimme besteht. Anschließend werden die resultierenden sprachlichen Bausteine ​​verwendet, um Wörter zu Verbesserung, die Sie nicht richtig gesagt haben.

Die Basistechnologie gibt es schon eine Weile, aber wie Aylett betonte, brauchte sie Hilfe.

"Das Kopieren der Stimme war ein bisschen wie das Backen von Gebäck", sagte er. "Es war ziemlich schwierig und es gab verschiedene Möglichkeiten, es von Hand zu optimieren, damit es funktioniert."

Entwickler benötigten enorme Mengen aufgezeichneter Sprachdaten, um passable Ergebnisse zu erzielen. Dann, vor einigen Jahren, öffneten sich die Schleusen. Die Forschung auf dem Gebiet der Computer Vision erwies sich als kritisch. Wissenschaftler entwickelten generative kontradiktorische Netzwerke (GANs), die zum ersten Mal auf der Grundlage vorhandener Daten extrapolieren und Vorhersagen treffen konnten.

"Anstatt dass ein Computer ein Bild von einem Pferd sieht und sagt, dass dies ein Pferd ist, könnte mein Modell jetzt aus einem Pferd ein Zebra machen", sagte Aylett. "Die Explosion in der Sprachsynthese ist jetzt der akademischen Arbeit von Computer Vision zu verdanken."

Eine der größten Neuerungen beim Klonen von Stimmen war die allgemeine Reduzierung des Rohdatenbedarfs für die Erstellung einer Stimme. In der Vergangenheit benötigten Systeme Dutzende oder sogar Hunderte von Stunden Audio. Jetzt können jedoch kompetente Stimmen aus nur wenigen Minuten Inhalt generiert werden.

Das Problem mit der KI: Maschinen lernen Dinge, können sie aber nicht verstehen

Die existenzielle Angst, nichts zu vertrauen

Diese Technologie ist zusammen mit Kernkraft, Nanotechnologie, 3D-Druck und CRISPR gleichzeitig aufregend und erschreckend. Immerhin gab es in den Nachrichten bereits Fälle, in denen Menschen von Sprachklonen betrogen wurden. Im Jahr 2019 behauptete ein Unternehmen in Großbritannien, es sei durch einen Audio-Deep - Fake- Telefonanruf dazu verleitet worden, Geld an Kriminelle zu überweisen .

Sie müssen auch nicht weit gehen, um überraschend überzeugende Audio-Fälschungen zu finden. Der YouTube-Kanal Vocal Synthesis zeigt bekannte Leute, die Dinge sagen, die sie nie gesagt haben, wie  George W. Bush, der „In Da Club“ um 50 Cent liest. Es ist genau richtig.

An anderer Stelle auf YouTube können Sie eine Schar ehemaliger Präsidenten hören, darunter Obama, Clinton und Reagan, die NWA rappen . Die Musik und die Hintergrundgeräusche helfen dabei, einige der offensichtlichen Roboterfehler zu verschleiern, aber selbst in diesem unvollkommenen Zustand ist das Potenzial offensichtlich.

Wir haben mit den Tools von Resemble AI und Descript experimentiert und einen Sprachklon erstellt. Descript verwendet eine Voice-Cloning-Engine, die ursprünglich Lyrebird hieß und besonders beeindruckend war. Wir waren schockiert über die Qualität. Wenn Sie hören, wie Ihre eigene Stimme Dinge sagt, von denen Sie wissen, dass Sie sie noch nie gesagt haben, ist dies beunruhigend.

Die Rede hat definitiv eine Roboterqualität, aber bei einem gelegentlichen Hören hätten die meisten Menschen keinen Grund zu der Annahme, dass es sich um eine Fälschung handelt.


Wir hatten noch größere Hoffnungen auf Resemble AI. Es bietet Ihnen die Werkzeuge, um eine Konversation mit mehreren Stimmen zu erstellen und die Ausdruckskraft, Emotion und Geschwindigkeit des Dialogs zu variieren. Wir dachten jedoch nicht, dass das Sprachmodell die wesentlichen Eigenschaften der von uns verwendeten Stimme erfasst. Tatsächlich war es unwahrscheinlich, dass jemand zum Narren gehalten wurde.

Ein Mitarbeiter von Resemble AI sagte uns: "Die meisten Menschen sind von den Ergebnissen überwältigt, wenn sie es richtig machen." Wir haben zweimal ein Sprachmodell mit ähnlichen Ergebnissen erstellt. Offensichtlich ist es nicht immer einfach, einen Sprachklon zu erstellen, mit dem Sie einen digitalen Überfall auslösen können.

Trotzdem hat Kundan Kumar, der Gründer von Lyrebird (der jetzt Teil von Descript ist), das Gefühl, dass wir diese Schwelle bereits überschritten haben.

"Für einen kleinen Prozentsatz der Fälle ist es bereits da", sagte Kumar. "Wenn ich synthetisches Audio verwende, um ein paar Wörter in einer Rede zu ändern, ist es bereits so gut, dass es Ihnen schwer fällt, zu wissen, was sich geändert hat."

Wir können auch davon ausgehen, dass diese Technologie erst mit der Zeit besser wird. Systeme benötigen weniger Audio, um ein Modell zu erstellen, und schnellere Prozessoren können das Modell in Echtzeit erstellen. Eine intelligentere KI wird lernen, wie man eine überzeugendere menschenähnliche Trittfrequenz und Betonung der Sprache hinzufügt, ohne ein Beispiel zu haben, an dem man arbeiten kann.

Dies bedeutet, dass wir uns möglicherweise der weit verbreiteten Verfügbarkeit des mühelosen Klonens von Stimmen nähern.

Die Ethik der Büchse der Pandora

Die meisten Unternehmen, die in diesem Bereich arbeiten, scheinen bereit zu sein, mit der Technologie auf sichere und verantwortungsvolle Weise umzugehen. Ähnliche KI hat zum Beispiel einen ganzen Abschnitt „Ethik“ auf seiner Website , und der folgende Auszug ist ermutigend:

"Wir arbeiten mit Unternehmen in einem strengen Prozess zusammen, um sicherzustellen, dass die Stimme, die sie klonen, von ihnen verwendet werden kann, und um die richtigen Einwilligungen für Sprachschauspieler zu erhalten."

 

Ebenso sagte Kumar, Lyrebird sei von Anfang an besorgt über Missbrauch. Aus diesem Grund können Benutzer als Teil von Descript nur noch ihre eigene Stimme klonen. Tatsächlich erfordern sowohl Resemble als auch Descript, dass Personen ihre Samples live aufzeichnen, um ein nicht einvernehmliches Klonen von Stimmen zu verhindern.

Es ist ermutigend, dass die großen kommerziellen Akteure einige ethische Richtlinien auferlegt haben. Es ist jedoch wichtig, sich daran zu erinnern, dass diese Unternehmen keine Gatekeeper dieser Technologie sind. Es gibt bereits eine Reihe von Open-Source-Tools, für die es keine Regeln gibt. Laut Henry Ajder, Leiter der Abteilung für Bedrohungsinformationen bei  Deeptrace , benötigen Sie auch keine fortgeschrittenen Codierungskenntnisse, um sie zu missbrauchen.

"Ein Großteil der Fortschritte in diesem Bereich ist auf die Zusammenarbeit an Orten wie GitHub zurückzuführen, bei der Open-Source-Implementierungen zuvor veröffentlichter akademischer Arbeiten verwendet wurden", sagte Ajder. "Es kann von jedem verwendet werden, der über mäßige Kenntnisse im Codieren verfügt."

 

Sicherheitsprofis haben das alles schon einmal gesehen

Kriminelle haben versucht, Geld per Telefon zu stehlen, lange bevor das Klonen von Stimmen möglich war, und Sicherheitsexperten waren immer auf Abruf, um es zu erkennen und zu verhindern. Die Sicherheitsfirma Pindrop versucht, Bankbetrug zu stoppen, indem sie überprüft, ob ein Anrufer derjenige ist, von dem er behauptet, er sei aus dem Audio. Allein im Jahr 2019 soll Pindrop 1,2 Milliarden Sprachinteraktionen analysiert und Betrugsversuche in Höhe von rund 470 Millionen US-Dollar verhindert haben.

Vor dem Klonen von Stimmen versuchten Betrüger eine Reihe anderer Techniken. Am einfachsten war es, von woanders mit persönlichen Informationen über die Marke anzurufen.

"Mit unserer akustischen Signatur können wir feststellen, dass ein Anruf aufgrund der Klangeigenschaften tatsächlich von einem Skype-Telefon in Nigeria kommt", sagte Vijay Balasubramaniyan, CEO von Pindrop. "Dann können wir vergleichen, dass der Kunde in Atlanta ein AT & T-Telefon verwendet."

Einige Kriminelle haben auch Karriere gemacht, indem sie Hintergrundgeräusche verwendet haben, um Bankvertreter abzuwerfen.

"Es gibt einen Betrüger, den wir Chicken Man genannt haben und der immer Hähne im Hintergrund hatte", sagte Balasubramaniyan. "Und es gibt eine Frau, die ein Baby benutzt hat, das im Hintergrund weint, um die Call-Center-Agenten im Wesentlichen davon zu überzeugen, dass 'Hey, ich mache eine schwere Zeit durch', um Sympathie zu bekommen."

Und dann gibt es die männlichen Kriminellen, die sich um die Bankkonten von Frauen kümmern.

"Sie verwenden Technologie, um die Frequenz ihrer Stimme zu erhöhen und weiblicher zu klingen", erklärte Balasubramaniyan. Diese können erfolgreich sein, aber "gelegentlich bringt die Software Probleme und sie klingen wie Alvin und die Chipmunks."

Natürlich ist das Klonen von Stimmen nur die neueste Entwicklung in diesem immer eskalierenden Krieg. Sicherheitsfirmen haben bereits bei mindestens einem Speerfischangriff Betrüger mit synthetischem Audio gefasst.

"Mit dem richtigen Ziel kann die Auszahlung massiv sein", sagte Balasubramaniyan. "Es ist also sinnvoll, die Zeit darauf zu verwenden, eine synthetisierte Stimme des richtigen Individuums zu erstellen."

Kann jemand sagen, ob eine Stimme gefälscht ist?

Sergey Nivens / Shutterstock
Wenn es darum geht zu erkennen, ob eine Stimme gefälscht wurde, gibt es sowohl gute als auch schlechte Nachrichten. Das Schlimme ist, dass Sprachklone von Tag zu Tag besser werden. Deep-Learning-Systeme werden intelligenter und erzeugen authentischere Stimmen, für deren Erstellung weniger Audio erforderlich ist.

Wie Sie diesem Clip von Präsident Obama entnehmen können, der MC Ren auffordert, Stellung zu beziehen , sind wir auch bereits an einem Punkt angelangt, an dem ein sorgfältig konstruiertes High-Fidelity-Sprachmodell für das menschliche Ohr ziemlich überzeugend klingen kann.

Je länger ein Soundclip ist, desto wahrscheinlicher ist es, dass Sie feststellen, dass etwas nicht stimmt. Bei kürzeren Clips bemerken Sie jedoch möglicherweise nicht, dass es synthetisch ist - insbesondere, wenn Sie keinen Grund haben, seine Legitimität in Frage zu stellen.

Je klarer die Klangqualität ist, desto leichter ist es, Anzeichen einer Audio-Deepfake zu erkennen. Wenn jemand direkt in ein Mikrofon in Studioqualität spricht, können Sie genau hinhören. Eine Aufzeichnung von Telefonanrufen von schlechter Qualität oder ein Gespräch, das auf einem Handheld-Gerät in einem lauten Parkhaus aufgezeichnet wurde, ist jedoch viel schwieriger zu bewerten.

Die gute Nachricht ist, dass Computer nicht die gleichen Einschränkungen haben, auch wenn Menschen Probleme haben, echte von gefälschten zu trennen. Glücklicherweise gibt es bereits Tools zur Sprachüberprüfung. Pindrop hat eines, bei dem Deep-Learning-Systeme gegeneinander antreten. Es verwendet beide, um herauszufinden, ob ein Audio-Sample die Person ist, die es sein soll. Es wird jedoch auch untersucht, ob ein Mensch überhaupt alle Geräusche im Sample erzeugen kann.

Abhängig von der Audioqualität enthält jede Sekunde der Sprache zwischen 8.000 und 50.000 Datenproben, die analysiert werden können.

"Die Dinge, nach denen wir normalerweise suchen, sind Einschränkungen der Sprache aufgrund der menschlichen Evolution", erklärte Balasubramaniyan.

Zum Beispiel haben zwei Vokaltöne eine minimal mögliche Trennung voneinander. Dies liegt daran, dass es physisch nicht möglich ist, sie schneller zu sagen, da sich die Muskeln in Ihrem Mund und die Stimmbänder selbst neu konfigurieren können.

"Wenn wir uns synthetisiertes Audio ansehen", sagte Balasubramaniyan, "sehen wir manchmal Dinge und sagen:" Dies hätte niemals von einem Menschen erzeugt werden können, weil die einzige Person, die dies hätte erzeugen können, einen sieben Fuß langen Hals haben muss. " ”

Es gibt auch eine Klangklasse namens "Frikative". Sie entstehen, wenn Luft durch eine enge Verengung in Ihrem Hals strömt, wenn Sie Buchstaben wie f, s, v und z aussprechen. Frikative sind für Deep-Learning-Systeme besonders schwer zu beherrschen, da die Software Probleme hat, sie von Rauschen zu unterscheiden.

Zumindest für den Moment stolpert die Software zum Klonen von Stimmen über die Tatsache, dass Menschen Fleischsäcke sind, die Luft durch Löcher in ihrem Körper strömen lassen, um zu sprechen.

"Ich scherze immer wieder, dass Deepfakes sehr weinerlich sind", sagte Balasubramaniyan. Er erklärte, dass es für Algorithmen sehr schwierig ist, die Enden von Wörtern von Hintergrundgeräuschen in einer Aufnahme zu unterscheiden. Dies führt zu vielen Sprachmodellen mit Sprache, die mehr nachlässt als Menschen.

"Wenn ein Algorithmus sieht, dass dies häufig vorkommt", sagte Balasubramaniyan, "wird es statistisch gesehen sicherer, dass Audio im Gegensatz zu Menschen erzeugt wird."

Resemble AI löst das Erkennungsproblem auch direkt mit dem Resemblyzer, einem Open-Source-Deep-Learning-Tool, das auf GitHub verfügbar ist . Es kann gefälschte Stimmen erkennen und die Sprecher überprüfen.

Es braucht Wachsamkeit

Es ist immer schwer zu erraten, wie die Zukunft aussehen könnte, aber diese Technologie wird mit ziemlicher Sicherheit nur noch besser. Außerdem könnte jeder potenziell ein Opfer sein - nicht nur hochkarätige Personen wie gewählte Beamte oder Bankchefs.

"Ich denke, wir stehen kurz vor der ersten Audio-Verletzung, bei der die Stimmen der Leute gestohlen werden", sagte Balasubramaniyan voraus.

Im Moment ist das reale Risiko von Audio-Deepfakes jedoch gering. Es gibt bereits Tools, mit denen sich synthetische Videos recht gut erkennen lassen.

Außerdem sind die meisten Menschen keinem Angriffsrisiko ausgesetzt. Laut Ajder arbeiten die wichtigsten kommerziellen Akteure "an maßgeschneiderten Lösungen für bestimmte Kunden und die meisten haben ziemlich gute ethische Richtlinien, mit wem sie zusammenarbeiten würden und mit wem nicht."

Die wirkliche Bedrohung liegt jedoch vor uns, als Ajder weiter erklärte:

"Pandora's Box wird Menschen sein, die Open-Source-Implementierungen der Technologie zu immer benutzerfreundlicheren, zugänglicheren Apps oder Diensten zusammenschustern, die nicht die ethische Kontrollebene haben, die kommerzielle Lösungen derzeit bieten."

Dies ist wahrscheinlich unvermeidlich, aber Sicherheitsunternehmen haben bereits gefälschte Audioerkennung in ihre Toolkits integriert. Dennoch erfordert es Wachsamkeit, um sicher zu sein.

"Wir haben dies in anderen Sicherheitsbereichen getan", sagte Ajder. „Viele Unternehmen verbringen viel Zeit damit, zu verstehen, was beispielsweise die nächste Zero-Day-Sicherheitsanfälligkeit ist. Synthetisches Audio ist einfach die nächste Grenze. “

 

 
Joomla SEF URLs by Artio

  • Was genau ist ein Audio Deepfake?
  • Dezember 2020 : Logitech-Webcams sind ausverkauft
  • Chiptechnologie: Zeiss wird Goldgrube
  • Goldgräberstimmung dank Krypto-$
  • Die Blockchain-Revolution
  • Heiss und Fettig

*** Anzeige 20 ***
*LABISTS Raspberry Pi 4 8GB* LABISTS Raspberry Pi 4 8GB

Der Raspberry Pi 4 Modell B 8GB enthält 1,5 GHz 64-Bit-Quad-Core-Prozessor mit 8GB LPDDR4-3200 SDRAM. Es bietet eine Desktop-Leistung, die mit x86-PC-Einstiegssystemen vergleichbar ist. Es hat doppelt so viel Speicherplatz und kann das Potenzial ausspielen. Sie können große Softwareteile kompilieren und verknüpfen oder schwere Server-Workloads ausführen. Für Power-User ist dies definitiv Ihr Raspberry Pi.


Extrem sicherer
Cloud-Speicher

under_body

Data Storage

Open-E JovianDSS bietet unbegrenzte Optionen zur Gestaltung von Storage-Umgebungen mit den Client-Protokollen iSCSI, FC und NFS, SMB (CIFS). Mit seinen einzigartigen Features ermöglicht das Produkt höchste Daten-Zuverlässigkeit und -Integrität für effizientes Storage, Datenschutz und Wiederherstellung.

  • Hochverfügbare Cluster

  • Tiered RAM und SSD Caching

  • In-line Kompression und Deduplizierung

  • Thick, Thin and Over-Provisioning

Mehr erfahren
under_body

google_under_body

AIDOSS

Anbieter von IT Verbesserungen und Neuigkeiten in Windows 10/7 so wie Linux. Computer Security und Cloud Storage Solutions. Sitz in Ostalb. 
    
Made in EU
 Kontaktdaten
   
 
 Büro:        + 49 173 233 8349
 E-Mail:    C o n t a c t  U s
 Login:      Benutzername
 Skype:     aidoss01
 Impressum

google03_footer

© 2022 by AIDOSS | All Rights Reserved