Transkript-Versuche mit Text-to-Speech-Systemen (W. Näser 10/2k1 ff.)

Transkript-Versuche zu deutschen Sprachvarietäten für Text-to-Speech-Systeme

Wolfgang NÄSER, Marburg 10/2k1 ff.

Die zunächst (Oktober 2001) beispielhaft und repräsentativ herangezogene neue LOGOX-Engine und das WEBSPEECH-Plugin der Version 4 von GData sind mächtige Werkzeuge. Entscheidend verbessert, eröffnen sie neue Möglichkeiten der automatischen Text-to-Speech-Konversion. Des weiteren werden, ab Anfang 2008, auch andere Speech Engines herangezogen. Ein Erfahrungsaustausch ist sehr erwünscht!

In diesem Zusammenhang wäre es von Interesse zu prüfen, ob und inwieweit ein solches System in der Lage ist, nicht nur standardsprachliche Texte, sondern auch schriftsprachenahe Transkriptionen von Dialektproben zu verarbeiten und in einen Sprachfluß umzusetzen, der in lautlicher und intonatorischer Hinsicht dem Original möglichst nahekommt.

1. LOGOX: Die Umsetzung soll möglichst ohne Eingriffe in das Lexikon und ohne die phonetisch exakten, aber komplizierten Speech Tags erfolgen können, damit auch phonetisch unerfahrene Nutzer ohne spezielle Einarbeitung weltweit unter denselben Voraussetzungen ein entsprechendes Web-Angebot nutzen können. Unsere ohne Diakritika auskommende Umschrift dient als vereinfachende Meta-Ebene und ermöglicht andererseits ein noch intuitives Erfassen und Reproduzieren dialektaler Lautung durch den Leser, dessen Kompetenz die LOGOX-Engine emuliert.. Ein solches (praxisorientiertes) Vorgehen bedeutet mehr oder weniger starke Abstriche in lautlicher, vor allem allophonischer Hinsicht; andererseits läßt sich die LOGOX-Engine durch bestimmte Zeichenkombinationen "überlisten", auch solche Laute (wie z.B. langes offenes /o/) zu produzieren, die im standardsprachlichen Inventar fehlen. Prosodisch-intonatorische Feinheiten können durch verfremdende Auseinander- bzw. Zusammenschreibung von Wörtern bzw. Wortelementen und durch wiederholende Mehrzeichen erzielt werden. Dies alles ist erst im Anfangsstadium. Siehe hierzu unten [1] Deutsche Mundartsätze für TTS-Engines (WN 27.10.2k1)

2. Andere Programme (Auswahl 2/2008; s. auch hier; die Links verfolgen keinerlei kommerzielles Interesse):

2nd Speech Center (w/d AT&T natural voices; setzt phonetisch um wie Power Text to Speech, siehe oben)
Acapela TTS & Voice Solutions
Ace-High Text Reader
Adriane (für Blinde; Linux; -> www.knopper.net)
Agori CIC
Apple Education TTS
AT&T Labs Natural Voices
Ayuda SodelsCot (spanisch)
Bell Labs TTS (Alcatel Lucent)
Cepstral TTS (auch für für Linux)
Cycos TTS
DeskBot
Edict TTS
Expressivo TTS Reader (US-engl., poln., rümänisch)
Festival Speech Synthesis (University of Edinburgh; kostenlos)
Flexvoice (mindmaker)
Fonix
Free TTS
Haptek Player (kostenlos im Web, gutes Signal, verhält sich phonetisch wie Power Text to Speech)
Jaws for Windows (für Blinde und Sehgeschädigte)
Linguatec Voice Reader
Loquendo TTS 6.5 SDK
Natural Reader
Pentax Neo Speech TTS engine
Nextup Real Speak Voices (als Zubehör für -> Text Aloud, in vielen Sprachen)
Fujitsu Siemens sakrament (engl. und russ.)
Sapis TTS App (-> Microsoft Speech Technology / Speech Server 2004 R2 (w/d speech utilities and SDK)
Ultra HAL Assistant
VentaFax
ServerDev Vocal Reader (ital. Oberfläche; Stimmen in mehreren Spr., auch engl. und deutsch)

Hier kommt es darauf an zu prüfen, inwieweit den jeweils mitgelieferten bzw. Engine-kompatiblen Stimmen sprachspezifische Korrektur-Algorithmen implantiert wurden, die sie in die Lage versetzen, bestimmte Laute und Lautkombinationen jeweils eigensprachlich korrekt zu reproduzieren. Solche Programme, die eine standardsprachliche Idealkompetenz abbilden, eignen sich nicht oder nur eingeschränkt dazu, Transkripte von Dialektäußerungen phonetisch umzusetzen wie z.B. I hoob mei göüt valuhrn, weil es im deutschen Standard den in wienerischen Lautung aus einer L-Vokalisierung entstandenen Diphthong /öü/ nicht gibt. Folglich sind, wie im Falle der LOGOX-kompatibel aufbereiteten Testsätze, ebenfalls bestimmte Notations-Strategien zu erarbeiten, die die Engines dazu bringen, die gewünschten Lautungen und dialekttypischen Intonationsmuster zu produzieren. Ein erster Versuch findet sich im folgenden ebenfalls unter [1].

Ideal wäre für unsere Zwecke eine neutrale Speech Engine, die, abseits von Korrekturalgorithmen, nach klarschriftorientierten (also möglichst ohne Diakritika auskommenden) Dialektschrift-Konventionen Graphemsequenzen schrittweise und in Echtzeit in Phonationswerte umsetzt, also auch Fälle wie das erwähnte wienerische /öü/, den in Mittelhessen vorkommenden "gestürzten" Diphthong /ou/ in Brourer 'Bruder', das [x] im westfälischen Challe 'Galle' oder Cheertchen 'kleiner Gerd' und das dem Niederländischen entsprechende, ebenfalls westfäl. [sx] in S-chaumäiker 'Schu(h)macher'.

Andererseits zeigen die selbstkorrigierenden, standardsprachlich orientierten Speech Engines, wie schwer man sich damit täte, eine mit der Eigenkompetenz inkompatible, also fremde Sprachvarietät zu reproduzieren, und es ließen sich daraus Lehren ziehen für eine möglichst überregional gültige und dennoch aussagekräftige Dialektschreibung.

Texte und Experimente:

Deutsche Mundartsätze für TTS-Engines (WN 27.10.2k1)
Wenker-Sätze, US-amerikanisch gelautet (WN 9/99), für englischbasierte TTS-Systeme (siehe unten)
Mundartprobe Westfälisch (WN 26.10.2k1)
Mundartprobe Mecklenburgisch-Vorpommersch (WN 26.10.2k1)

Ältere Links (auch zu anderen Systemen; Stand ca. 2002):

Prosodie: Einführung (IKP Bonn)
Geschichte der Sprachsynthese
Mikrosegmentsynthese: Publikationen
Sprechmelodie: Steuerung der - (Webspeech Tutorial)
SAMPA: University College London;
SAMPA-D-V[erb]M[obil]lex: Dafydd Gibbon, Uni Bielefeld 1995
Sprachsynthese-Bookmarks (Uni Saarbrücken)
Beat Siebenhaar-Rölli, LAIP, Université de Lausanne, schweizerisch-dt. Dialektsynthese "Sprechmühle"
AT&T Labs Research Next-Generation Text-To-Speech (TTS)
Bell Labs Sprachsynthese deutsch (=> Lucent Technologies)
Elan Text to Seech (auch deutsch)
ETEX-Sprachsynthese
HADIFIX-Sprachsynthese (IKP Uni Bonn)
SVOX Text-to-Speech
BOMP - German machine readable pronunciation dictionary (Stefan Breuer, IKP, Uni Bonn)
Webspeech20-Manual
Modellierung der Dauer in Silben (Bibliographie)
VL Automatische Spracherkennung (Uni Jena)

Wird ergänzt. (c) WN 10/2k1 ff. * Stand: 16.3.2008