LAB51 logo
Menu
Subscribe

Voicebox von Meta: Revolutionierung der Sprachsynthese mit kontextbasierter KI

LAB51_Meta AI Voicebox
By Eleni Murru
Eleni Murru

4 Min

Juni 21, 2023
Teilen

Meta hat kürzlich Voicebox vorgestellt, sein neues generatives KI-Modell, das realistische Soundclips aus Text erstellen kann. Es behauptet, bis zu 20 Mal schneller zu sein als die neuesten KI-Modelle mit vergleichbarer Leistung. Voicebox weicht von der traditionellen TTS-Architektur ab und wendet ein Modell an, das Chatbots wie ChatGPT oder Bard ähnelt. Eines der Hauptunterscheidungsmerkmale zwischen Voicebox und ähnlichen TTS-Modellen ist die Fähigkeit, Sprache durch kontextbasiertes Lernen zu erzeugen. Dieses innovative Tool kann sowohl für Menschen mit Sehbehinderungen als auch für Autoren von Inhalten, die ihre Projekte mit Sprache versehen wollen, nützlich sein.

Wie ChatGPT und andere Transformationsmodelle ist auch Voicebox auf umfangreiche Trainingsdaten angewiesen. Frühere Versuche, umfangreiche Audiodaten zu verwenden, haben zu einer stark verminderten Audioqualität geführt. Aus diesem Grund verwenden die meisten TTS-Systeme kleinere, hochgradig kuratierte und beschriftete Datensätze. Meta geht diese Einschränkung an, indem es ein neuartiges Trainingsschema einsetzt, das auf Beschriftungen und Kategorisierung verzichtet und stattdessen eine Architektur verwendet, die Audioinformationen "ausfüllt".

Voicebox: Wozu dient das generative KI-Modell?

Voicebox ist noch nicht für die Öffentlichkeit verfügbar, aber Meta hat in seiner Pressemitteilung vom 16. Juni einige Details und Demos zu seinen Fähigkeiten veröffentlicht. Voicebox ist das "erste Modell, das systematisch in der Lage ist, Sprache in Aufgaben zu generieren, für die es nicht speziell trainiert wurde, und dabei den neuesten Stand der Technik zu erreichen".

Das bedeutet, dass Voicebox in der Lage ist, Text in Sprache zu übersetzen und Ersatzsprache zu synthetisieren, um unerwünschte Geräusche zu eliminieren, während der ursprüngliche Inhalt und die Qualität intakt bleiben. Ausserdem kann es sechs Sprachen verarbeiten: Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch, und es ist in der Lage, verschiedene Stimmen und Sprechstile auf der Grundlage eines kurzen Audiobeispiels zu imitieren. Bisher kann man mit Sicherheit sagen, dass dies eine der fortschrittlichsten Text-to-Speech-Technologien ist, die von Meta entwickelt wurden.

Laut dem US-Riesen könnten Mehrzweck-KI-Modelle wie Voicebox virtuellen Assistenten oder Nichtspieler-Charakteren im Metaverse eine "natürliche" Stimme verleihen. Sie könnten es auch sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden, Verwandten und Kollegen zu hören, die von einer KI mit einer Stimme gelesen werden, die ihrer eigenen sehr ähnlich ist. Für Creators könnte Voicebox neue Werkzeuge bieten, mit denen sie z. B. Audiospuren für Videos erstellen und bearbeiten können. Voicebox befindet sich noch in der Experimentierphase, hat aber das Potenzial, verschiedene Aspekte der Technologie zu revolutionieren, von virtuellen Assistenten und Spielen bis hin zu Barrierefreiheit und der Erstellung von Inhalten.

Die potenziellen Risiken von Voicebox

Dieses neue Tool kommt zu einer Zeit, in der die Moderation von Online-Inhalten ein heisses Thema für Social-Media-Plattformen ist. Voicebox ist nicht das einzige Tool dieser Art, aber es scheint eines der fortschrittlichsten zu sein. Um Missbrauch und Schaden durch gefälschte oder manipulierte Audiodaten zu verhindern, hat Meta einen speziellen Klassifikator entwickelt, der den Unterschied zwischen echter und von Voicebox generierter Sprache leicht erkennen kann.

Wie Meta in seiner Ankündigung erklärt: "Wir sind uns bewusst, dass diese Technologie das Potenzial für Missbrauch und unbeabsichtigten Schaden birgt. In unserem Papier beschreiben wir, wie wir einen hocheffektiven Klassifikator entwickelt haben, der zwischen authentischer Sprache und mit Voicebox generiertem Audio unterscheiden kann, um diese möglichen zukünftigen Risiken zu mindern. Wir halten es für wichtig, unsere Arbeit offenzulegen, damit die Forschungsgemeinschaft darauf aufbauen und die wichtigen Gespräche über die verantwortungsvolle Entwicklung von KI fortsetzen kann, weshalb wir unseren Ansatz und unsere Ergebnisse in einem Forschungsbericht veröffentlichen."

Meta ist der Meinung, dass künstliche Intelligenz verantwortungsvoll eingesetzt werden sollte. Aus diesem Grund haben sie ihre ersten Ergebnisse im Bereich der generativen KI geteilt, auch wenn Voicebox noch experimentell ist.

magnifiercrossmenuchevron-down