Transkript-Versuche zu deutschen Sprachvarietäten für Text-to-Speech-Systeme

Wolfgang NÄSER, Marburg 10/2k1 ff.

Die zunächst (Oktober 2001) beispielhaft und repräsentativ herangezogene neue LOGOX-Engine und das WEBSPEECH-Plugin der Version 4 von GData sind mächtige Werkzeuge. Entscheidend verbessert, eröffnen sie neue Möglichkeiten der automatischen Text-to-Speech-Konversion. Des weiteren werden, ab Anfang 2008, auch andere Speech Engines herangezogen. Ein Erfahrungsaustausch ist sehr erwünscht!

In diesem Zusammenhang wäre es von Interesse zu prüfen, ob und inwieweit ein solches System in der Lage ist, nicht nur standardsprachliche Texte, sondern auch schriftsprachenahe Transkriptionen von Dialektproben zu verarbeiten und in einen Sprachfluß umzusetzen, der in lautlicher und intonatorischer Hinsicht dem Original möglichst nahekommt.

1. LOGOX: Die Umsetzung soll möglichst ohne Eingriffe in das Lexikon und ohne die phonetisch exakten, aber komplizierten Speech Tags erfolgen können, damit auch phonetisch unerfahrene Nutzer ohne spezielle Einarbeitung weltweit unter denselben Voraussetzungen ein entsprechendes Web-Angebot nutzen können. Unsere ohne Diakritika auskommende Umschrift dient als vereinfachende Meta-Ebene und ermöglicht andererseits ein noch intuitives Erfassen und Reproduzieren dialektaler Lautung durch den Leser, dessen Kompetenz die LOGOX-Engine emuliert.. Ein solches (praxisorientiertes) Vorgehen bedeutet mehr oder weniger starke Abstriche in lautlicher, vor allem allophonischer Hinsicht; andererseits läßt sich die LOGOX-Engine durch bestimmte Zeichenkombinationen "überlisten", auch solche Laute (wie z.B. langes offenes /o/) zu produzieren, die im standardsprachlichen Inventar fehlen. Prosodisch-intonatorische Feinheiten können durch verfremdende Auseinander- bzw. Zusammenschreibung von Wörtern bzw. Wortelementen und durch wiederholende Mehrzeichen erzielt werden. Dies alles ist erst im Anfangsstadium. Siehe hierzu unten [1] Deutsche Mundartsätze für TTS-Engines (WN 27.10.2k1)

2. Andere Programme (Auswahl 2/2008; s. auch hier; die Links verfolgen keinerlei kommerzielles Interesse):

  1. 2nd Speech Center (w/d AT&T natural voices; setzt phonetisch um wie Power Text to Speech, siehe oben)
  2. Acapela TTS & Voice Solutions
  3. Ace-High Text Reader
  4. Adriane (für Blinde; Linux; -> www.knopper.net)
  5. Agori CIC
  6. Apple Education TTS
  7. AT&T Labs Natural Voices
  8. Ayuda SodelsCot (spanisch)
  9. Bell Labs TTS (Alcatel Lucent)
  10. Cepstral TTS (auch für für Linux)
  11. Cycos TTS
  12. DeskBot
  13. Edict TTS
  14. Expressivo TTS Reader (US-engl., poln., rümänisch)
  15. Festival Speech Synthesis (University of Edinburgh; kostenlos)
  16. Flexvoice (mindmaker)
  17. Fonix
  18. Free TTS
  19. Haptek Player (kostenlos im Web, gutes Signal, verhält sich phonetisch wie Power Text to Speech)
  20. Jaws for Windows (für Blinde und Sehgeschädigte)
  21. Linguatec Voice Reader
  22. Loquendo TTS 6.5 SDK
  23. Natural Reader
  24. Pentax Neo Speech TTS engine
  25. Nextup Real Speak Voices (als Zubehör für -> Text Aloud, in vielen Sprachen)
  26. Fujitsu Siemens sakrament (engl. und russ.)
  27. Sapis TTS App (-> Microsoft Speech Technology / Speech Server 2004 R2 (w/d speech utilities and SDK)
  28. Ultra HAL Assistant
  29. VentaFax
  30. ServerDev Vocal Reader (ital. Oberfläche; Stimmen in mehreren Spr., auch engl. und deutsch)

Hier kommt es darauf an zu prüfen, inwieweit den jeweils mitgelieferten bzw. Engine-kompatiblen Stimmen sprachspezifische Korrektur-Algorithmen implantiert wurden, die sie in die Lage versetzen, bestimmte Laute und Lautkombinationen jeweils eigensprachlich korrekt zu reproduzieren. Solche Programme, die eine standardsprachliche Idealkompetenz abbilden, eignen sich nicht oder nur eingeschränkt dazu, Transkripte von Dialektäußerungen phonetisch umzusetzen wie z.B. I hoob mei göüt valuhrn, weil es im deutschen Standard den in wienerischen Lautung aus einer L-Vokalisierung entstandenen Diphthong /öü/ nicht gibt. Folglich sind, wie im Falle der LOGOX-kompatibel aufbereiteten Testsätze, ebenfalls bestimmte Notations-Strategien zu erarbeiten, die die Engines dazu bringen, die gewünschten Lautungen und dialekttypischen Intonationsmuster zu produzieren. Ein erster Versuch findet sich im folgenden ebenfalls unter [1].

Ideal wäre für unsere Zwecke eine neutrale Speech Engine, die, abseits von Korrekturalgorithmen, nach klarschriftorientierten (also möglichst ohne Diakritika auskommenden) Dialektschrift-Konventionen Graphemsequenzen schrittweise und in Echtzeit in Phonationswerte umsetzt, also auch Fälle wie das erwähnte wienerische /öü/, den in Mittelhessen vorkommenden "gestürzten" Diphthong /ou/ in Brourer 'Bruder', das [x] im westfälischen Challe 'Galle' oder Cheertchen 'kleiner Gerd' und das dem Niederländischen entsprechende, ebenfalls westfäl. [sx] in S-chaumäiker 'Schu(h)macher'.

Andererseits zeigen die selbstkorrigierenden, standardsprachlich orientierten Speech Engines, wie schwer man sich damit täte, eine mit der Eigenkompetenz inkompatible, also fremde Sprachvarietät zu reproduzieren, und es ließen sich daraus Lehren ziehen für eine möglichst überregional gültige und dennoch aussagekräftige Dialektschreibung.

Texte und Experimente:

  1. Deutsche Mundartsätze für TTS-Engines (WN 27.10.2k1)
  2. Wenker-Sätze, US-amerikanisch gelautet (WN 9/99), für englischbasierte TTS-Systeme (siehe unten)
  3. Mundartprobe Westfälisch (WN 26.10.2k1)
  4. Mundartprobe Mecklenburgisch-Vorpommersch (WN 26.10.2k1)

Ältere Links (auch zu anderen Systemen; Stand ca. 2002):

  1. Prosodie: Einführung (IKP Bonn)
  2. Geschichte der Sprachsynthese
  3. Mikrosegmentsynthese: Publikationen
  4. Sprechmelodie: Steuerung der - (Webspeech Tutorial)
  5. SAMPA: University College London;
  6. SAMPA-D-V[erb]M[obil]lex: Dafydd Gibbon, Uni Bielefeld 1995
  7. Sprachsynthese-Bookmarks (Uni Saarbrücken)
  8. Beat Siebenhaar-Rölli, LAIP, Université de Lausanne, schweizerisch-dt. Dialektsynthese "Sprechmühle"
  9. AT&T Labs Research Next-Generation Text-To-Speech (TTS)
  10. Bell Labs Sprachsynthese deutsch (=> Lucent Technologies)
  11. Elan Text to Seech (auch deutsch)
  12. ETEX-Sprachsynthese
  13. HADIFIX-Sprachsynthese (IKP Uni Bonn)
  14. SVOX Text-to-Speech
  15. BOMP - German machine readable pronunciation dictionary (Stefan Breuer, IKP, Uni Bonn)
  16. Webspeech20-Manual
  17. Modellierung der Dauer in Silben (Bibliographie)
  18. VL Automatische Spracherkennung (Uni Jena)

Wird ergänzt. (c) WN 10/2k1 ff. * Stand: 16.3.2008