Google meldet Durchbruch bei Computer mit menschlicher Stimme

Google ist offenbar ein wesentlicher Fortschritt in der Erzeugung computergenerierter Sprache gelungen. Mit Hilfe eines hochentwickelten Tools werden Computer dazu gebracht, möglichst natürlich zu klingen. Das Ziel: Eines Tages sollen sie sich wie Menschen anhören.

Ihren XING-Kontakten zeigen
linkedin
abo-pic

Für die Arbeit an der menschlichen Computerstimme zeichnet Googles Künstliche Intelligenz-Abteilung DeepMind verantwortlich. Bisherige Tests hätten gezeigt, dass ihre Technologie die qualitative Lücke zwischen den heutigen Computersystemen und der menschlichen Sprache schließen könnte, so die zuständigen Forscher. Der nötige Aufwand ist jedoch gigantisch.

„Dass Menschen mit Maschinen sprechen können, ist ein langjähriger Traum der Mensch-Computer-Interaktion“, sagen die DeepMind-Forscher. Eine möglichst natürlich klingende Form wollen sie nun mit Hilfe von WaveNet realisieren.

WaveNet unterscheidet sich von den bisherigen künstlichen Spracherzeugern grundlegend. „Die meisten Programme nutzen vorab aufgenommene Töne, die geschnitten und zu Wörtern und Sätzen zusammengepackt werden. Aus diesem Grund hören sich viele Sprachprogramme meist kalt und roboterartig an“, berichtet die Internetseite Entwickler.de. Anders als etwa bei Siri oder Cortana kommen hier künstliche neuronale Netze zum Einsatz. Mit deren Hilfe werden die richtigen Tonkombinationen bestimmt, um individuell gesprochene Texte zu generieren. „WaveNet analysiert dazu die Wellenformen der menschlichen Sprache und ist in der Lage, Muster zu erkennen. Diese werden dann eingesetzt, um geschriebene in gesprochene Sprache umzusetzen.“

Um WaveNet zu trainieren, seien im Vorfeld einige Tests durchgeführt worden. Dafür habe das DeepMind-Team hunderte von Menschen, WaveNet und anderen Text-zu-Sprache-Systemen gesprochene Testsätze durch Menschen beurteilen lassen. Das Ergebnis: „WaveNet erreichte beim Englischen einen Wert von 4,21 auf einer Skala von 1-5. Das beste andere Text-zu-Sprache-System erreichte 3,86, während die von Menschen gesprochenen Sätze einen Wert von 4,55 erzielten.“

Das spezielle Text-zu-Sprache-Synthese-Tool werde bislang noch in keinem anderen Google-Produkt eingesetzt, berichtet die Financial Times. Ob es aufgrund der erforderlichen massiven Rechenleistungen so schnell in der Praxis eingesetzt werde, sei allerdings fraglich.

Google hatte die britische Firma DeepMind vor rund zweieinhalb Jahren gekauft, der Kaufpreis lag laut Medienberichten bei rund 500 Millionen Dollar. Der Software gelang es im März, in einem Match einen der weltbesten Meister im asiatischen Brettspiel Go zu schlagen, was zuvor als zu komplex für Computer galt. Dabei überraschte die Maschine an einer Stelle auch Experten mit einem kreativen Zug, den bisher nie jemand gespielt hatte.

*** Bestellen Sie den täglichen Newsletter der Deutschen Wirtschafts Nachrichten: Die wichtigsten aktuellen News und die exklusiven Stories bereits am frühen Morgen. Verschaffen Sie sich einen Informations-Vorsprung. Anmeldung zum Gratis-Newsletter hier. ***

media-fastclick media-fastclick