Voicebox von Meta: Revolutionierung der Sprachsynthese mit KI

By Anja Prosch

Anja Prosch

4 Min

Juni 21, 2023

Meta hat kürzlich Voicebox vorgestellt, sein neues generatives KI-Modell, das realistische Soundclips aus Text erstellen kann. Es behauptet, bis zu 20 Mal schneller zu sein als die neuesten KI-Modelle mit vergleichbarer Leistung. Voicebox weicht von der traditionellen TTS-Architektur ab und wendet ein Modell an, das Chatbots wie ChatGPT oder Bard ähnelt. Eines der Hauptunterscheidungsmerkmale zwischen Voicebox und ähnlichen TTS-Modellen ist die Fähigkeit, Sprache durch kontextbasiertes Lernen zu erzeugen. Dieses innovative Tool kann sowohl für Menschen mit Sehbehinderungen als auch für Autoren von Inhalten, die ihre Projekte mit Sprache versehen wollen, nützlich sein.

Wie ChatGPT und andere Transformationsmodelle ist auch Voicebox auf umfangreiche Trainingsdaten angewiesen. Frühere Versuche, umfangreiche Audiodaten zu verwenden, haben zu einer stark verminderten Audioqualität geführt. Aus diesem Grund verwenden die meisten TTS-Systeme kleinere, hochgradig kuratierte und beschriftete Datensätze. Meta geht diese Einschränkung an, indem es ein neuartiges Trainingsschema einsetzt, das auf Beschriftungen und Kategorisierung verzichtet und stattdessen eine Architektur verwendet, die Audioinformationen “ausfüllt”.

Voicebox: Wozu dient das generative KI-Modell?

Voicebox ist noch nicht für die Öffentlichkeit verfügbar, aber Meta hat in seiner Pressemitteilung vom 16. Juni einige Details und Demos zu seinen Fähigkeiten veröffentlicht. Voicebox ist das erste Modell, das Sprache für Aufgaben generiert, für die es nicht speziell trainiert wurde, und dabei den neuesten Stand der Technik erreicht. Darüber hinaus kann es Text in Sprache übersetzen und Ersatzsprache synthetisieren. So werden unerwünschte Geräusche entfernt, während der ursprüngliche Inhalt und die Qualität erhalten bleiben. Zudem verarbeitet es sechs Sprachen: Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch. Es kann auch verschiedene Stimmen und Sprechstile basierend auf einem kurzen Audiobeispiel imitieren. Bisher kann man mit Sicherheit sagen, dass dies eine der fortschrittlichsten Text-to-Speech-Technologien ist, die von Meta entwickelt wurden.

Laut dem US-Riesen könnten Mehrzweck-KI-Modelle wie Voicebox virtuellen Assistenten oder Nichtspieler-Charakteren im Metaverse eine “natürliche” Stimme verleihen. Sie könnten es auch sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden, Verwandten und Kollegen zu hören, die von einer KI mit einer Stimme gelesen werden, die ihrer eigenen sehr ähnlich ist. Für Creators könnte Voicebox neue Werkzeuge bieten, mit denen sie z. B. Audiospuren für Videos erstellen und bearbeiten können. Voicebox befindet sich noch in der Experimentierphase, hat aber das Potenzial, verschiedene Aspekte der Technologie zu revolutionieren, von virtuellen Assistenten und Spielen bis hin zu Barrierefreiheit und der Erstellung von Inhalten.

Die potenziellen Risiken von Voicebox

Dieses neue Tool kommt zu einer Zeit, in der die Moderation von Online-Inhalten ein heisses Thema für Social-Media-Plattformen ist. Voicebox ist nicht das einzige Tool dieser Art, aber es scheint eines der fortschrittlichsten zu sein. Um Missbrauch durch gefälschte Audiodaten zu verhindern, hat Meta einen speziellen Klassifikator entwickelt. Dieser kann leicht zwischen echter und von Voicebox generierter Sprache unterscheiden.

Wie Meta in seiner Ankündigung erklärt: “Wir sind uns bewusst, dass diese Technologie das Potenzial für Missbrauch und unbeabsichtigten Schaden birgt. In unserem Papier beschreiben wir, wie wir einen hocheffektiven Klassifikator entwickelt haben, der zwischen authentischer Sprache und mit Voicebox generiertem Audio unterscheiden kann, um diese möglichen zukünftigen Risiken zu mindern. Wir halten es für wichtig, unsere Arbeit offenzulegen, damit die Forschungsgemeinschaft darauf aufbauen und die wichtigen Gespräche über die verantwortungsvolle Entwicklung von KI fortsetzen kann, weshalb wir unseren Ansatz und unsere Ergebnisse in einem Forschungsbericht veröffentlichen.”

Meta ist der Meinung, dass künstliche Intelligenz verantwortungsvoll eingesetzt werden sollte. Aus diesem Grund haben sie ihre ersten Ergebnisse im Bereich der generativen KI geteilt, auch wenn Voicebox noch experimentell ist.

Empfehlung der Redaktion

Nana Banana Lab51s ehrliche Rezension

Blockchain Erklärt: Die Grundlage des Web3

CV Summit 2023: Wichtige Erkenntnisse für Web3-Unternehmen

Wird KI Marketer ersetzen?

Apple vs. ChatGPT: Die Privatsphäre ist in Gefahr

Via Treasure Trunks: Louis Vuitton’s neues NFT-Abenteuer

1 2 3 Weiter »

Voicebox von Meta: Revolutionierung der Sprachsynthese mit KI

Voicebox: Wozu dient das generative KI-Modell?

Die potenziellen Risiken von Voicebox

Empfehlung der Redaktion

Ähnliche Beiträge