Wolfgang NÄSER, Marburg 10/2k1 ff.
Die zunächst (Oktober 2001) beispielhaft und repräsentativ herangezogene neue LOGOX-Engine und das WEBSPEECH-Plugin der Version 4 von GData sind mächtige Werkzeuge. Entscheidend verbessert, eröffnen sie neue Möglichkeiten der automatischen Text-to-Speech-Konversion. Des weiteren werden, ab Anfang 2008, auch andere Speech Engines herangezogen. Ein Erfahrungsaustausch ist sehr erwünscht!
In diesem Zusammenhang wäre es von Interesse zu prüfen, ob und inwieweit ein solches System in der Lage ist, nicht nur standardsprachliche Texte, sondern auch schriftsprachenahe Transkriptionen von Dialektproben zu verarbeiten und in einen Sprachfluß umzusetzen, der in lautlicher und intonatorischer Hinsicht dem Original möglichst nahekommt.
1. LOGOX: Die Umsetzung soll möglichst ohne Eingriffe in das Lexikon und ohne die phonetisch exakten, aber komplizierten Speech Tags erfolgen können, damit auch phonetisch unerfahrene Nutzer ohne spezielle Einarbeitung weltweit unter denselben Voraussetzungen ein entsprechendes Web-Angebot nutzen können. Unsere ohne Diakritika auskommende Umschrift dient als vereinfachende Meta-Ebene und ermöglicht andererseits ein noch intuitives Erfassen und Reproduzieren dialektaler Lautung durch den Leser, dessen Kompetenz die LOGOX-Engine emuliert.. Ein solches (praxisorientiertes) Vorgehen bedeutet mehr oder weniger starke Abstriche in lautlicher, vor allem allophonischer Hinsicht; andererseits läßt sich die LOGOX-Engine durch bestimmte Zeichenkombinationen "überlisten", auch solche Laute (wie z.B. langes offenes /o/) zu produzieren, die im standardsprachlichen Inventar fehlen. Prosodisch-intonatorische Feinheiten können durch verfremdende Auseinander- bzw. Zusammenschreibung von Wörtern bzw. Wortelementen und durch wiederholende Mehrzeichen erzielt werden. Dies alles ist erst im Anfangsstadium. Siehe hierzu unten [1] Deutsche Mundartsätze für TTS-Engines (WN 27.10.2k1)
2. Andere Programme (Auswahl 2/2008; s. auch hier; die Links verfolgen keinerlei kommerzielles Interesse):
Hier kommt es darauf an zu prüfen, inwieweit den jeweils mitgelieferten bzw. Engine-kompatiblen Stimmen sprachspezifische Korrektur-Algorithmen implantiert wurden, die sie in die Lage versetzen, bestimmte Laute und Lautkombinationen jeweils eigensprachlich korrekt zu reproduzieren. Solche Programme, die eine standardsprachliche Idealkompetenz abbilden, eignen sich nicht oder nur eingeschränkt dazu, Transkripte von Dialektäußerungen phonetisch umzusetzen wie z.B. I hoob mei göüt valuhrn, weil es im deutschen Standard den in wienerischen Lautung aus einer L-Vokalisierung entstandenen Diphthong /öü/ nicht gibt. Folglich sind, wie im Falle der LOGOX-kompatibel aufbereiteten Testsätze, ebenfalls bestimmte Notations-Strategien zu erarbeiten, die die Engines dazu bringen, die gewünschten Lautungen und dialekttypischen Intonationsmuster zu produzieren. Ein erster Versuch findet sich im folgenden ebenfalls unter [1].
Ideal wäre für unsere Zwecke eine neutrale Speech Engine, die, abseits von Korrekturalgorithmen, nach klarschriftorientierten (also möglichst ohne Diakritika auskommenden) Dialektschrift-Konventionen Graphemsequenzen schrittweise und in Echtzeit in Phonationswerte umsetzt, also auch Fälle wie das erwähnte wienerische /öü/, den in Mittelhessen vorkommenden "gestürzten" Diphthong /ou/ in Brourer 'Bruder', das [x] im westfälischen Challe 'Galle' oder Cheertchen 'kleiner Gerd' und das dem Niederländischen entsprechende, ebenfalls westfäl. [sx] in S-chaumäiker 'Schu(h)macher'.
Andererseits zeigen die selbstkorrigierenden, standardsprachlich orientierten Speech Engines, wie schwer man sich damit täte, eine mit der Eigenkompetenz inkompatible, also fremde Sprachvarietät zu reproduzieren, und es ließen sich daraus Lehren ziehen für eine möglichst überregional gültige und dennoch aussagekräftige Dialektschreibung.
Texte und Experimente:
Ältere Links (auch zu anderen Systemen; Stand ca. 2002):
Wird ergänzt. (c) WN 10/2k1 ff. * Stand: 16.3.2008