Ein Tondokument aus dem Jahre 1903:

Kaiser Franz Joseph I. von Österreich (1830-1916) verewigt seine Stimme im Phonogramm-Archiv der Wiener Akademie der Wissenschaften

VORBEMERKUNG. Das folgendes ist eigentlich eine Kette von Zufällen: Walter HAAS  hatte mich im Jahre 1985 aufmerksam gemacht auf dieses unschätzbar wichtige Tondokument *), dem ich, eine andere Aufnahme suchend, am 10. November 1999 in meinem Archiv wiederbegegnete. Meine Sicherungs-Cassette hörte ich ab, war aufs neue fasziniert und beschloß spontan, mich mit diesem historischen Schatz eingehend zu befassen: weil, wie ich fand, Sprache und Inhalt von außerordentlicher Bedeutung sind. - Es folgte intensivste Arbeit und danach - aus dem Internet - die Erkenntnis, daß das 1899 gegründete, weltweit älteste Phonogramm-Archiv **) aus Anlaß seines 100jährigen Bestehens eine CD-Sammlung herausbringt, die auch alle historischen Aufnahmen und Kommentare dazu enthält 1) . Mein eigener Versuch, die Aufnahme des Kaisers zu re-editieren und zu transkribieren, hat mit diesem Vorhaben nichts zu tun, sondern ist und bleibt eine persönliche bescheidene Hommage an den weitblickenden Monarchen und die in Geschichte und Methodik so einzigartige Institution.
*) die Original-Aufnahme wurde am 2. August 1903 von Sigmund EXNER und Fritz HAUSER mit dem Wiener Archiv-Phonographen in Bad Ischl durchgeführt und im Frühjahr 1979 vom Wiener Phonogramm-Archiv als Schallplatte publiziert.
**) das Archiv hat seit kurzem eine noch eindrucksvoller gestaltete Web-S(e)ite

Wir haben hier eine der ältesten Sprach-Tonaufnahmen überhaupt: immerhin sind fast hundert Jahre vergangen, seitdem der damals 73jährige, ebenso volkstümliche wie beliebte österreichische Kaiser auf einer Wachs-Platte des Wiener Archivphonographen anerkennende und richtungsweisende Worte verewigte, denen ich mich im folgenden widme - nicht zuletzt der Bedeutung halber, die der Kaiser schon damals der apparativen wissenschaftlichen Sprach- und Dialektdokumentation attestierte.

Eine solche Ton-Probe ist naturgemäß sehr schwierig zu verarbeiten und zu verstehen. Damals gab es noch keine elektrisch verstärkte Tonaufnahme - sie wurde erst zwanzig Jahre später erfunden -, es wurde in einen großen Schalltrichter (wie wir ihn von alten Megaphonen her kennen) hineingesprochen, dessen Endmembran mechanisch gekoppelt war mit dem Schneid-Stichel, der die Modulation als "Tiefenschrift" auf  den darunter rotierenden, per Hand oder elektrisch angetriebene wächsernen Tonträger (i.d.R. eine Walze) übertrug. Von den Edison-Walzen wurden mit speziellen Bedampfungsverfahren Abgußzylinder und davon wiederum harte Wachskopien erstellt, die dann zumindest mehrere hundert Male abgespielt werden konnten.

Der Archivphonograph (oder, wie EXNER2) schreibt, "Recorder") verwendet die 1877 von Thomas A. EDISON mit seinen Walzen eingeführte Tiefenschrift, und zwar mit 100 Rillen pro Zoll auf  "einer Wachsplatte, die aus derselben Masse besteht, wie die Zylinder Edisons2) ", aber nur 15 cm Durchmesser aufweist (CD = 12 cm, Single = 17 cm); dies ermöglicht entsprechend kompakte (und daher für Feldforschung ideale) Aufnahmegeräte.

"Diese Aufnahme wird sofort durch den Edisonschen 'Reproducer' abgehört, um zu ersehen, ob sie nach Wunsch ausgefallen ist. Entspricht sie, so wird die Platte auf Expeditionen sogleich so verpackt, daß sie auch bei ungünstigsten Transportverhältnissen an ihrer beschriebenen Fläche nicht berührt werden kann, bis sie im Archive zur weiteren Verarbeitung angelangt ist." (EXNER, a.a.O. 323)

Von den Wachs-Originalen wurden mittels Galvanoplastik Kupfer-Negative gewonnen, die als dauerhafte Master dienten für Wachs- und andere Kopien. Im 2. Weltkrieg zerschmolzen die Originale, doch überlebten die Negativ-Matrizen und dienten in den 60er Jahren als Mutter-Shells für die Produktion neuer, aus dauerhaftem Epoxidharz bestehender Positive, die mit einem eigens dazu entwickelten Gerät abgespielt werden können. Die 15-cm-Platten wurden von 1901 bis 1931 verwendet.

Jede Art von Membran, auch die höchstentwickelte, setzt mit steigender Tonfrequenz dem Schall wachsenden Widerstand entgegen; wenn nun eine solche Membran die empfangene Energie unverstärkt und unkorrigiert auf einen Stichel umsetzt, der seine Schwingungen in ein Material einzugraben hat, dann erhöht sich der mechanische Widerstand so weit, daß die in der Amplitudenstatistik ohnehin benachteiligten, zur Konsonanten-Distinktion aber unerläßlichen höherfrequenten Spektralanteile nicht aufgezeichnet werden; außer dem Stimm-Grundton werden nur wenige Erstformanten übertragen, denn bei etwa 1,5 kHz endet schon der Frequenz-"Umfang"+). Wenn auch inzwischen mit höchstentwickelten Systemen abtastbar, sind solche rein mechanischen Aufnahmen meist mit einem hohen Rausch- und Kratzpegel unterlegt, so daß hinsichtlich der nutzbaren Modulation ein "Störabstand" von nur etwa 20 dB zustandekommt.
-----------------
+) In einem so begrenzten Sprachfrequenzspektrum sind [f] und [s], deren wichtige Formanten bei 10 bzw. 5 kHz liegen, nicht mehr unterscheidbar, wogegen /sch/ noch gerade wahrgenommen wird. (=> ESSEN, Otto von: Allgemeine und angewandte Phonetik, 5. Aufl. Berlin 1979, 165 f.)

Mein Ziel war, aus der mir zugänglichen (Cassetten-) Kopie der alten Aufnahme durch eigene Versuche ein Höchstmaß an Information (d.h. als verständliche Sprache identifizierbarer Ton-Modulation) zu gewinnen. Hatte ich i.J. 1985 zunächst versucht, mit einem steilflankigen Bandpaß (Sherold-Filter im 1971 gebauten Linearverzerrer) einen Teil des Störpegels auszufiltern, standen mir nun, 14 Jahre später, die damals undenkbaren Segnungen der PC-Audio-Bearbeitung zur Verfügung. Allerdings darf man auch hier keine Wunder erwarten: Hard- und Software können nur das 'herausholen', was wirklich existiert. Liegt irgendein schwach artikuliertes Wort unter dem Rauschen und Knacken, so ist es für uns verloren; liegt es nur wenige Dezibel darüber, so wird mit viel Geduld und Geschicklichkeit das Gesagte so weit verständlich, daß es (auch im Sinne möglicher Minimalpaare und sonstiger Assonanzen) zweifelsfrei transkribiert werden kann (was mir nicht immer gelang).

Die folgenden Proben sind ab 2001 erstellte Real-Audio-Dateien (*.ra), die heute (2012) mit dem noch hier downloadbaren Real Player 6 abgehört werden können. Neuere Versuche zeigten, daß bei solchen historischen Sprachaufnahmen auch 10 Jahre später mit verbesserter Software, zusätzlichen Plugins sowie der (weniger ökonomischen) Abspeicherung auf MP3pro nur selten bessere Resultate zu erzielen waren.

Mit verschiedenen Rechnern (P 166 MMX; 686-150), Sound-Karten (16-Bit Vibra-PNP; Miro-PCM 1) und Software (Cool Edit Pro 1.2, Real Audio Encoder 3.1, Ra2Wav) machte ich mich ans Werk; für zunächst drei Versuche (Sessions) ergab sich folgendes Prozedere:         

  1. ------------- Rechner 1, Session 1 -------------
    Einspielung des hist. Tondokuments in den PC-Editor
  2. Herausschneiden "leerer" Passagen und Anhebung schwacher Artikulationspassagen
  3. Absenkung der tiefen Frequenzen
  4. Versuchsweises "Ausschneiden" störender Spektralanteile mit steilflankigem Notch-Filter
  5. erneutes korrigierendes Equalizing und Anheben der durch [2] und [3] abgesenkten Signal-Amplitude
  6. Absenken des (niedrigfrequenten) Rauschens durch De-Esser (hard)
  7. Konversion des bearbeiteten Tondokuments zur Real-Audio-Datei mit dem Ziel optimalen Stör-Abstands und optimaler Verständlichkeit,
  8. Abhören der 1. Version (*.ra), Hochladen ins Internet und Kontrolle mit [Browser und] Real Player.
    ------------- Rechner 1, Session 2 --------------
  9. Gesamtes originales Tondokument in den Sound-Editor geladen
  10. Herausschneiden leerer Passagen und störender Nadel-Impulse (Knacken)
  11. Extrem steilflankiges Ausnotchen von 100 Hz mit -70 dB
  12. Verstärkung angehoben auf >200 %
  13. Dynamic Processing mit De-Esser 'hard'
  14. Konversion (mit Editor) zu *.ra (8,5 kbps / 4 kHz)
  15. Upload der 2.Version usw. wie (8)
    -------------- Rechner 2, Session 3 -------------
  16. Re-Konvertierung der 2. RA-Version mit RA2WAV;
  17. Laden der rückgewonnenen, schmalbandigeren *.wav (ca. 1,85 MB) in den Editor,
  18. gezieltes Anheben einiger schwach artikulierter Wörter/Silben; div. Notching, Equalizing,
  19. dann mit separatem Encoder (3.1) Erzeugung einer 3.Version (121,4 kB; 8,5 kbps / 4 kHz, Kompr.-Faktor 15)
    -------------- Rechner 2, Session 4 --------------
  20. Re-Konvertierung von Version 2 (kaiser1.ra) zu *.wav;
  21. Ausnotchen von 120 Hz (-100 dB);
  22. "Normalizing" mit Cool Edit Pro
  23. Anheben bei 4 kHz + 10 dB
  24. "De-hissing" - 20 dB
  25. Konversion zur neuen Version 2 (8,5 kbps / 4 kHz wie oben), Upload
    ----------- Rechner 3, Session 5 (Re-Editing 1) -------
  26. Aufspielen der Cassettenkopie via SONY WM-D6C an ASUS L 8400, Line in, Aufnahme mit Cool Edit Pro 1.2a
  27. manuelles Tilgen interverbaler Pausen
  28. Tschebycheff-Bandpaß (18. Ordnung) 150...2000 Hz
  29. Declicking "Constant Hiss & Crackle"
  30. Sound Forge Noise Reduction 2.0a
  31. teilweise Hard Limiting (CEPro), max. -1 dB, Average +10 dB
  32. Normalizing 95 %, Abspeichern als *.wav
  33. Encoding mit 8,5 kbps (RA 5.0, nach krit. Vergleich neuer Upload 28.11.2k1) zur Version 5 (hier Streaming)
    ----------- Rechner 3, Session 6 (Re-Editing 2) ------
  34. Einlesen des Originals in Cool Edit
  35. Normalizing 95%
  36. manuelles Tilgen aller langen Sprechpausen im noch nicht "entstörten" Original
  37. Waves(tm)- X-Noise
  38. redaktionelle Nacharbeiten
  39. Abspeichern als *.wav
  40. Encoding mit 8,5 kbps (wie oben) zur Version 6 (hier Streaming)

Mit dem Ziel maximaler Erkenntnisfähigkeit in lautlicher und suprasegmentaler Hinsicht wurde in einer vierten, zunächst nicht vorgesehenen Session (s. oben [20]) versucht, den Störabstand (overall SNR) der Aufnahme weiter zu verbessern; hierzu wurde mit dem Dienstprogramm RA2WAV die (bereits mit Zuhilfenahme des De-Essers) kreierte Version 2 in eine schmalbandige 16-Bit-*.wav rekonvertiert und im Sound-Editor verschiedenen Maßnahmen unterworfen; ein steilflankiges Ausnotchen von 120 Hz hatte ebenso Erfolg wie ein "trickweises" Anheben des (im Grunde nur virtuellen) Spektralbereichs bei 4 kHz und ein De-Hissing von -20 dB. Es ergab sich ein Störabstand von etwa 35 dB; der im Editor implementierte Dynamik-Expander hätte ihn auf >60 dB erhöht, wenn dadurch nicht alle knapp über dem Störpegel liegenden Nutzsignalanteile mit verschwunden wären. Zugunsten der Rezeptions-Ästhetik wurde auf amplitudenkomprimierende Maßnahmen (wie sie auch ein HF-Kompressor ermöglicht hätte) verzichtet, weil dadurch zusammen mit den artikulationsschwachen Komponenten auch der Grundstörpegel (wieder) zum Vorschein gekommen wäre.

Aus o.a. Maßnahmen resultiert ein gewisser Zischel- und Pumpeffekt, der jedoch die Sprachverständlichkeit nicht beeinflußt. Überlagert dieses Zischeln ein vom Sprecher realisiertes,  jedoch durch die schlechte Aufnahmequalität unterdrücktes  /s/ oder /sch/, so wird dieses (vor allem in Version 1) hörbar - ob tatsächlich oder mental ergänzt, wäre im Einzelfall zu prüfen. Die (ungekürzten) Versionen 2 und 3 unterscheiden sich durch den aus verschiedenem Equalizing resultierenden Stimm-Klang. Ich habe die Dateien als *.ra ins Netz geladen, damit Sie sie herunterladen, off-line abhören und entscheiden können, welche Version Ihnen am meisten zusagt. Ich bin mir bewußt, daß dies nur bescheidene Versuche sein können; denkbar wären neue, revolutionäre Verfahren, z.B. der künstlichen Addition von Obertönen bzw. des Ersatzes bestimmter virtueller (also unhörbarer) durch tatsächliche Laute (aus der Datenbank), die das Ganze zwar wesentlich hörbarer und eindrucksvoller werden ließen, wobei durch die Künstlichkeit allerdings jede Authentizität verloren ginge.

Version 5 entstand am 15.9.2001; hier nutzte ich als Direct-X-Plugin Sonic Foundrys Noise Reduction 2.0a, es ergab sich ein ausgewogene(re)s Klangbild mit nur geringem Störpegel. Mehr, denke ich, ist hier nicht zu erreichen, auch nicht mit den neuen WAVES(tm) Utilities wie X-Click, X-Hum und X-Noise, die ich am 28.11.2k1 in Zusammenwirken mit der NR 2.0a an der Kaiser-Datei erproben konnte. In Version 6 (1.12.2001) erprobte ich erstmalig das neue Waves(tm)-Plugin X-Noise.

Versetzen Sie sich nun zurück bis an den Beginn unseres schicksalsschweren Jahrhunderts, lauschen Sie - so gut es geht - den Worten des greisen Monarchen und lesen Sie (in der folgenden Wiener oder meiner eigenen Transkription) mit, was er der Nachwelt zu sagen hat(te):

"Erfreulich ist es, die Fortschritte zu verfolgen, welche im Laufe der letzten Jahrzehnte das Ineinandergreifen von Wissenschaft und Technik erzielt.
So war es [?] unter anderem die Zeichensprache des Telegraphen durch die hörbare des Telefons ergänzt.
Und nun gelang es auch, im Phonographen gesprochene Worte bleibend festzuhalten und sie selbst nach vielen Jahren späteren Geschlechtern wieder vorzuführen. Wohl sind die Konstruktionsschwierigkeiten des letzterwähnten Apparates noch nicht vollständig überwunden. Doch wird es dessenungeachtet von Interesse sein, auch in dieser nicht ganz vóllkommenen Weise die Stimmen hervorragender Persönlichkeiten aus früheren Zeiten zu vernehmen und deren Klang und Tonfall sowie die Art des Sprechens gewissermaßen als historisches Dokument aufbewahrt zu erhalten.
Ähnlich wie in anderem Sinne Statuen und Porträte es bisher waren; und wenn, [wie] ich höre, die Akademie der Wissenschaften jetzt daran geht, sämtliche Sprachen und Dialekte unseres Vaterlandes phonographisch zu fixieren, so ist das eine Arbeit, die sich in der Zukunft sicherlich lohnen wird.
Es hat mich sehr gefreut, auf Wunsch der Akademie der Wissenschaften meine Stimme in den Apparat hineinzusprechen und dieselbe dadurch der Sammlung einzuverleiben."
Für die unterstrichenen Passagen mußte ich Dietrich SCHÜLLERs + Erhard ASCHINGERs Transkription zu Hilfe nehmen.

Nun, letztendlich, zur Frage, was wir mit derartigen alten Tondokumenten noch anfangen können und welche Erkenntnisse sich aus ihnen gewinnen lassen. Zunächst sollten wir allen Archiven dankbar sein, die über Generationen hinweg und in zum Teil entbehrungsreicher Arbeit uns solche Dokumente erhalten und diese ggf. neu aufbereitet haben. Unser Beispiel ist fast hundert Jahre alt und als Original inhaltlich nur nach vielmaligem Hinhören zu verstehen. Wird jedoch der Störpegel hinlänglich reduziert und - nach den vielen Bearbeitungsschritten - die Probe über eine gute Anlage wiedergegeben, so wird die Distanz aufgehoben, tritt die ehemals verschleierte Stimme hervor, offenbart Engagement und Emotion, wird - auch ohne Obertonspektrum - zum akustischen Porträt: und gerade dieses Porträtieren war und ist ja eines der Hauptanliegen des Archivs. Wenn wir dem Kaiser aufmerksam zuhören, erkennen wir Eigenheiten in Lautung (/oi/>/ai/ in erfreulich, Längung in [dara:n]), Wortakzent ('voll|kommen; gewisser|'maßen; 'einzuver|'leiben) und Satzakzent (level stress: 'lohnen 'wird); natürlich porträtiert die Aufnahme auch und, wie ich denke, sehr schön des Kaisers Intonation und Sprechtempo (einige 'leere' Passagen wurden allerdings herausgeschnitten). Fazit: nicht nur phonetisch-phonologische, sondern auch und vor allem prosodisch-suprasegmentale Erkenntnisse lassen sich gewinnen. Über allem steht jedoch der Gewinn, eine über drei Generationen zurückliegende Persönlichkeit nicht nur auf Bildern zu erleben, sondern in der originalen Stimme, wie sie mit dem ihr eigenen Timbre zu uns spricht - in ihrer Lebendigkeit festgehalten für immer.

Ich gratuliere dem Wiener Phonogramm-Archiv sehr herzlich zu seinem 100jährigen Bestehen und wünsche ihm und allen, die dort arbeiten, Glück und Segen für die Zukunft!
---------------------------------
Bibliographische Hinweise:
1) POLLAK, Hans W.: Das Phonogramm-Archiv der kaiserlichen Akademie der Wissenschaften in Wien. Germ.-Roman. Monatsschrift VI (1914), 257-269; s. auch seinen späteren Bericht in: Teuthonista 1 (1924/25), 231 f.
2) EXNER, Sigmund: Der Katalog I der Platten 1-2000 des Phonogrammarchives der Akademie der Wissenschaften in Wien. Germ.-Roman. Monatsschr. X (1922), 321-327
3) HORNUNG, Maria: Tonaufnahmen im Dienste der Mundartforschung. Zum 60jährigen Bestehen des Phonogrammarchivs der österreichischen Akademie der Wissenschaften in Wien. In: Zeitschrift für Mundartforschung 28 (1961), 183-191
4) SCHÜLLER, Dietrich (Hrsg.): Tondokumente aus dem Phonogrammarchiv der Österreichischen Akademie der Wissenschaften, Gesamtausgabe der Historischen Bestände 1899-1950 - Sound Documents from the Phonogrammarchiv of the Austrian Academy of Sciences, The Complete Historical Collections 1899-1950:
Series 1: The First Expeditions 1901 to Croatia, Brazil, and the Isle of Lesbos. 1999, CD, CD-Rom, Booklet (48 S.), ISBN 3-7001-2856-8 ATS 299,- DEM 40,90 CHF 38,-

Änderungen, Korrekturen und Ergänzungen vorbehalten.
(c) Dr. W. NÄSER, Marburg ; Stand: 1.12.2001