Mikrofone und Sprachaufnahme innerhalb einer auditiven Mediothek (W. Näser 1984/96)

Mikrofone und Sprachaufnahme innerhalb einer auditiven Mediothek

Von Wolfgang Näser (1984, aus: Materialien zu einer auditiven Mediothek; mit Ergänzungen von 1996)

Das Mikrofon ist eines der wichtigsten Accessoires überhaupt, vor allem wenn wissenschaftlich und/oder didaktische relevante Live-Aufnahmen anzufertigen sind; aber auch z.B. für eingeschobene Kommentare des Bearbeiters sollten Mikrofone mit optimalem Sprachfrequenzgang Verwendung finden. Bis etwa 1970 galten noch allgemein dynamische Mikrofone als in unserem Zusammenhang optimal, waren sie doch preiswert, technisch hochwertig und robust zugleich. Man unterscheidet allgemein hoch-, mittel- und niederohmige dyn. Mikrofone: deren Einsatz richtet sich nach der entsprechenden Eingangs-Impedanz der Mikrofon-Vorstufe im Bandgerät oder Verstärker unserer Audiothek. Hierbei ist zu beachten, daß Tonquellen- und Eingangsimpedanz (in Ohm) möglichst gleich sind; die Quell-Impedanz kann etwas kleiner sein. Arbeitet jedoch eine hochohmige Tonquelle auf einen mittel- oder gar niederohmigen Eingang, so kann dies in Frequenzgangverfälschungen oder gar Verzerrungen resultieren. Das heißt in der Praxis: ein hochohmiges (= 50 kOhm) dyn. Mikrofon klingt 'schlecht' an mittel- bzw. niederohmigen Eingängen moderner, transistorisierter Bandgeräte oder Verstärker; hoch-/niederohmige Mikros wie z.B. das AKG-D 19 BK/HI, Sennheiser MD 421 HN u.a. müssen niederohmig angeschlossen werden; 200-Ohm-Mikrofone harmonieren ausgezeichnet mit nieder- und mittelohmigen (200 Ohm ... 2 kOhm) Eingängen, steuern allerdings hochohmige Eingänge (50 kOhm ... 1 MOhm) ggf. nicht ausreichend 'durch', was zu reduzierter Verstärkung führt; niederohmige Mikros sind an solche Eingänge nur anzuschließen über Zwischen- oder Anpaßübertrager (200 Ohm -> 50 kOhm), die es für rund 20 DM im Handel gibt. Zu achten ist gerade bei dynamischen Mikros auf die Beschaltung (Kontaktbelegung) von Steckern und Buchsen, ganz abgesehen von der noch immer unbeseitigten Buchsen- und Steckervielfalt. Das bedeutet nicht von vornherein, daß nach Ankopplung das Mikro auch funktioniert, denn es könnte - wie in vielen Fällen - die Mikrofon-Schwingspule (Tauchspule) an die Steckerstifte 1 und 3 angeschlossen sein (sog. symmetr. Anschluß), die gemeinsame Kabel-Abschirmung läge an Pol 2 (Mitte), während die Geräte-Eingangsbuchse zweipolig wie folgt beschaltet wäre: 1 = 'heißer' Signalanschluß, 2 = Masse/Rückleitung (asymmetr. Anschluß). erforderlich wird eine geringfügige Lötarbeit, in der Regel im Mikrofonstecker ein Abtrennen des einen Schwingspulenanschlusses vom DIN-Steckerpol 3, der nun mit dem Masse-Pol 2 verbunden wird. Gefährlich für das u.U. sehr teure dynam. Mikrofon wird es, wenn, wie bei manchen Ausführungen (z.B. D 19 BK/HI, Bild rechts) die niederohmige Schwingspule asymmetrisch an 3 und 2 gelötet ist, der hochohmige Anschluß eines bereits eingebauten Anpaßtrafos an 1 und 2 (2 ist dann gemeinsame Masse/Rückleitung). Nun gibt es ja Aufnahmegeräte mit fernbedienbarer Relais-Steuerung für Start/Stop, wobei der Stromfluß der Relais-Erregerwicklung durch einen auf der DIN-Eingangsbuchse befindlichen Stecker-Kontakt unterbrochen/geschlossen wird. Ist dies - wie üblich - Pol 3, so geschieht folgendes: die aus haarfeinem Draht gewickelte, irreparable Mikrofon-Schwingspule schließt über 3,2 den Stromfluß der Relaiswicklung, es fließt über die Mikrofonspule ein unzulässig hoher Strom, sie brennt durch, das Mikrofon ist wertlos, zumal sich der feinmechanisch schwierige und zudem teure Einbau einer Spule (sofern sie überhaupt zu beschaffen ist) in den wenigsten Fällen lohnt.

Man war ohnehin längst nicht immer zufrieden mit den dynamischen Mikrofonen: billige Ausführungen hatten einen unausgeglichenen Frequenzgang, die teuren klangen an bestimmten Geräten zu dumpf, zudem waren viele Mikrofone extrem berührungs- und trittschallempfindlich und reagierten zudem sehr unangenehm auf elektrische Wechselfelder; die professionellen Bändchen-Mikrofone konnten durch zu hohe Schalldrücke zerstört werden.

Die auf dem Amateursektor bisweilen benutzten magnetischen bzw. Kristall-Mikrofone klangen meist zu dumpf bzw. schrill und hatten einen zu hohen Klirrfaktor. Die seit 1928/29 bekannten professionellen Kondensator.Mikrofone nach Nieder- und Hochfrequenz-Prinzip boten zwar schon immer überdurchschnittliche, hervorragende Arbeitsdaten, blieben jedoch unerschwinglich für Institutionen bzw. Anwender mit kleinen Etats.

Seit etwa 1973 kamen die ersten sog. Elektret-Kondensatormikrofone auf den Markt. Das (meist nieder- oder mittelohmige) ECM wird in der Regel von einer (im Griffkörper eingebauten) 1,5-Volt-Mignonzelle gespeist (Lebensdauer mehrere tausend Stunden) und hat, auch in den billigsten Versionen, einen nahezu linearen Frequenzgang von ca. 60 ... 11.000 Hertz; es ist weit weniger berührungsempfindlich als ein vergleichbares dynamisches Mikro, was, wie Verf. an der eigenen Amateurfunkstelle erproben konnte, bes. im Kurzwellen-Weitverkehr von Vorteil ist. Die anfängliche Prognose, daß die bei der Herstellung kurzzeitig erzeugte Aufladung, damit Polarisierung und Kapazität des Elektretsystems (und damit dessen Funktions- und Leistungsfähigkeit überhaupt) schon nach wenigen Jahren nachlassen oder ganz verschwinden könne, hat sich in der Praxis (Zeitraum 1973-1996!) nicht bewahrheitet. Der geringe Rauschabstand der ersten billigen ECMs konnte in wenigen Jahren bei Ausführungen ab ca. 100 DM auf Werte von > 50 dB verbessert werden. Ein Rauschabstand von 48 dB bei einem ECM für nur 49 DM, dessen Frequenzgang von 50 ... 18.000 Hz reicht und das zudem ein echtes Richt-Mikrofon ist, das sind beachtliche Werte im Vergleich mit denen professioneller Studio-Mikrofone, die mindestens zwanzigmal teurer sind .

Elektret-Mikrofone besitzen keine Schwingspule (Tauchspule), deren zarte Wicklung durchbrennen könnte, und sind - im Gegensatz zu den dynamischen Mikros - völlig unempfindlich gegen elektromagnetische Felder. Sie sind mechanisch unkompliziert und sehr robust. Die im Mikrofon-Kopf befindliche Elektret-Kapsel kann für 5-20 DM im Elektronik-Handel als Ersatzteil beschafft und sehr leicht in selbstentworfene (custom designed), für bestimmte Akustiken "zugeschnittene" Köpfe eingebaut werden (links: vom Verfasser 1987 und 1988 gebaute Kapseln). Auch lassen sich ECMs gleicher bzw. annähernd gleicher Impedanz (z.B. 200 oder 600 Ohm) galvanisch bzw. über (Ent-)Koppelkondensatoren oder -widerstände parallelschalten, wodurch - ohne Mischpult - im Mono-Betrieb Round-Table-Gespräche wirkungsvoller 'abgebildet' werden; überhaupt lassen sich so auf einfache Weise Mikrofon-Kombinationen (s. auch weiter unten) erzielen, die verschiedensten Aufnahme-Situationen gerecht werden.

Das ECM hat in nur zehn Jahren einen Siegeszug erlebt, der dazu führte, daß es inzwischen auch von führenden, weltweit anerkannten westeuropäischen Firmen (z.B. Sennheiser) produziert bzw. vertrieben wird, teilweise in Ausführungen für (semi-)professionelle Anwendungen wie z.B. als Bestandteil variabler Baustein-Systeme für verschiedenste Aufnahmesituationen und Programm-Materialien. Ein solches System besteht zum einen aus einem zylindrischen Körper, der außer der Batterie eine Anschluß-Buchse mit den zugehörigen Schalt-Elementen (Widerstände, Kondensatoren u.a.) enthält. Auf diesen Körper können (in bezug auf elektr. Impedanz und Anschlußgewinde identische) Köpfe aufgeschraubt werden, deren Elektret-Kapseln sich unterscheiden in puncto Richtwirkung, Frequenzgang und Empfindlichkeit. Offenbar hat man diese Technologie übernommen von der Wechsel-Optik moderner Spiegelreflex-Kameras. Unter Verwendung preiswerter ECM-Körper und -köpfe lassen sich solche modularen Kombinations-Systeme auch per Eigen(um)bau realisieren: so erhält man z.B. einen sehr wirkungsvollen Richtmikrofon-Zusatzkopf, indem man ein - u.U. selbstgefertigtes - Richtrohr mit einem akustisch und mechanisch passenden ECM-Kopf verbindet. Für weniger als 200 DM ließe sich ein vierteiliges Bausteinsystem erstellen aus je einem ECM-Kopf mit kugel-, nieren- und extrem keulenförmiger Richtcharakteristik und einem gemeinsamen Stromspeisungs- und -anschlußkörper. Ein ECM 'für alle Fälle' konstruierte Verf. mit Bauteilen eines für nur 29 DM erworbenen Mikrofons. Im verlängerten Körper befinden sich eine 1,5-Volt-Mignonzelle (Speisespannung) sowie eine DIN-Anschlußbuchse. Die Ausgangs-Impedanz läßt sich umschalten zwischen nieder/mittel- und hochohmig; bei kräftiger Spannungsabgabe lassen sich mit dem ECM somit alle vorhandenen (nieder/mittel/hochohmigen) Mikrofoneingänge aussteuern, ja sogar DIN-Radioeingänge in Spulen- und Cassettentonbandgeräten.

Die preiswerten ECMs mit meist kugelförmiger Richtcharakteristik und mittelohmiger Impedanz für ca. 30-50 DM (Stand: 1984/85; inzwischen [1996] Angebot zurückgegangen) sind ohnehin in der Lage, nahezu sämtliche Geräte-Eingänge hinreichend durchzusteuern, ohne daß Anpaßübertrager bzw. Zusatzverstärker erforderlich wären.

Ideal ist das ECM für die wissenschaftliche Feldforschung: leicht, handlich und kompakt, läßt es sich bequem und langzeitig ermüdungsfrei halten oder auf einem Tischfuß oder Stativ montieren; verschiedenstes Zubehör, auch die sog. Universalklemmen und trittschallfesten Halterungen, sind im Handel. Für Interviews eignen sich sehr gut die winzigen Ansteck-Mikrofone oder die sog. Lavalier-Mikrofone zum Umhängen: bei letzteren befindet sich die Einsprache etwa in Kragenhöhe unterhalb des Kinns. Da der menschliche Sprechschall, bes. in den mittleren und hohen Frequenzen (Formantbereiche) nach vorn über das Lavalier-Mikrofon hinweggestrahlt wird und nur die tieferen Anteile infolge ihrer größeren Wellenlänge und durch Beugung das Mikrofon ungeschwächt erreichen, arbeiten Lavalier-Mikros mit stetiger, kompensierender Mittelhochton-Anhebung. Ein leichtes, kleines ECM läßt sich jedoch auch so um den Hals hängen, daß sich die Einsprache etwa 2 cm vor dem Sprecher-Mund befindet; Verf. konstruierte eine entsprechende Halterung, die sich bes. im mobilen Kurzwellen-Funkbetrieb ausgezeichnet bewährte.

Jedes ECM wird mit einem aufsteckbaren Wind- oder Nahbesprechungs-Poppschutz geliefert. Es handelt sich um eine aus Schaumstoff bzw. einem Drahtgeflecht bestehende Kappe (Haube), die auf den Mikrofon-Kopf gesteckt wird, um bei starkem Luftzug im Freien bzw. Besprechung aus nächster Nähe das Mikrofon vor 'Übersteuerung' (overload) zu schützen. Würde dessen Membran ungeschützt einem Luftzug oder explosionsartigen Artikulationsgeräuschen (Plosive, Affrikaten, behauchte Dentale, Gutturale) ausgesetzt, so würden zum Verständnis relevante Teile der Sprach-Modulation 'zerhackt'. Andererseits ist bekannt, daß die Lesbarkeit (readability) von Sprache, z.B. Im Kurzwellen-Weitverkehr, unter erschwerten Bedingungen bes. dadurch gesteigert wird, daß durch eine (über Windschutz vorgenommene) Nahbesprechung des (Sende-)Mikrofons jene konsonantischen Phoneme 'angehoben' werden, die durch ihre bedeutungsunterscheidende Funktion ganz besonders zur Sprachverständlichkeit beitragen: die erwähnten Plosive usw., die in der natürlichen Amplitudenstatistik eines Sprechers gegenüber den sog. Phonations-Anteilen im Sprachsignal oft dann stark zurücktreten, wenn der Hörer (bzw. das Mikrofon) relativ weit entfernt ist. Relevant ist dieses Problem z.B. auch und gerade innerhalb der sprachwissenschaftlichen Feldforschung bei schwach artikulierenden (und meist älteren) Sprechern. Man muß also dafür sorgen, daß besonders die zu leise artikulierten Phoneme so gut und so verzerrungsfrei wie möglich übertragen und dokumentiert werden, was bes. einer späteren Analyse (Transkription, Sonagramm usw.) zugutekommt. Ein weiterer Vorteil der Nahbesprechung liegt darin, daß Umweltgeräusche stark abgesenkt werden: wichtig für Aufnahmen in Fabrikhallen (Maschinenlärm) oder Menschenansammlungen sowie im mobilen Funkbetrieb (hoher Grund-Lärmpegel, ca. 70-80 dB(A) durch Reifenabroll- und Motorgeräusche im Fahrzeug). Infolge ihrer relativ hohen Übersteuerungsfestigkeit eignen sich manche (Elektret-)Kondensatormikrofone ausgezeichnet für extrem hohen Nah-Schall und liefern hierbei ein klares, durchsichtiges Klangbild, sofern ein geeigneter Windschutz aufgesetzt wird.

Befindet sich die Nutz- oder Informations-Schallquelle (hier der Sprecher) in relativ großem, mechanisch unüberbrückbarem Abstand (z.B. in Hörsälen, Theatern), sind Mikrofone mit extremer Richtcharakteristik vonnöten. Durch kleinen Öffnungswinkel ('Richt-Keule') bündeln sie den Frontal-Schall und vernachlässigen Seiten- und Rück-Schall. Konstruktionell bestehen sie entweder aus einem speziellen, meist langen, mit der Mikrofon-Kapsel (dem Schall-Wandler) gekoppelten Richt-Rohr oder einem Parabolspiegel, in dessen (akustischem) Brennpunkt sich die Mikrofon-Einsprache befindet - vergleichbar mit einem opt. Refraktor bzw. Spiegelteleskop. Das Parabolspiegelprinzip bietet zwar höheren Wirkungsgrad, bietet jedoch mechanische Probleme durch 'Sperrigkeit' und Windlast (wenn im Freien verwendet); daher werden die - schon für ca. 200 DM erwerbbaren und mit ECM-Systemen bestückten Richtrohre bevorzugt. Solche langen Mikrofone benötigen im Freien allerdings einen besonders wirkungsvollen, das Rohr in ganzer Länge umschließenden, für hohe Windstärken ggf. mehrfach geschichteten Windschutz oder -korb und sind zudem hochempfindlich gegen Berührung (Schaben, Kratzen) und Trittschall (durch den Aufnahmeraum gehende Personen, an das Mobiliar stoßende Füße u.ä.); Abhilfe schafft hier entweder ein Infraschall-Filter (subsonic noise filter) im Mikrofon oder Aufnahmegerät und/oder eine weitgehend elastische (d.h. mechanisch entkoppelnde) Mikrofon-Aufhängung. Starke Richtwirkung läßt sich auch herbeiführen dadurch, daß mehrere kurze Richt-Mikros (mit Nieren- oder Hypercardiod-Charakteristik) möglichst exakt nebeneinander und Einsprachen-deckungsgleich montiert und phasenkonform parallelgeschaltet werden; das entspricht in etwa den sog. gestockten Dipolen der UKW- und Fernsehantennentechnik.

Sollen - innerhalb der auditiven Lehre - Hörspiele (bzw. Dokumentar-, Hörszenen, Lesungen mit verteilten Rollen u.ä.) in eigener Regie produziert werden, so bietet die stereophone Mikrofon-Aufnahmetechnik nicht nur akustische, sondern auch psychologische Vorteile: der Hörer kann, bei entsprechender Wiedergabe, die verschiedenen Sprecher orten und so besser auseinanderhalten: besonders wichtig, wenn z.B. innerhalb eines Dialogs widersprüchliche Meinungen vorgetragen werden oder - in raschem Wort-'Gefecht' - dramatische Wirkungen erzielt werden sollen. Außerhalb der konventionellen Mikrofonanordnungen konnte sich die Kunstkopf-Technik aufgrund technischer Mängel ('dumpfige' Wiedergabe, Vernachlässigung der Präsenzen, Nichtberücksichtigung der Schädel-Knochenleitung) vorerst zögernd durchsetzen.

Kunstkopf-Stereo-Aufnahmen können optimal nur per Kopfhörer wiedergegeben werden, gute Kunstköpfe sind technisch aufwendig und daher sehr teuer; die von Jürg Jecklin (Bild links: W. Näser 6.11.2k4) erstmals 1980 beschriebene sog. OSS-Technik (optimum stereo signal) mit zwei Kugel-Mikrofonen und einer dazwischenliegenden Trennscheibe bietet kunstkopfähnliche, aber lautsprecherkompatible Aufnahmen mit sehr gutem Einbezug der Raumakustik, was wiederum für psychologische bzw. dramatische Effekte dienlich sein kann. OSS- oder JECKLIN-Scheiben (Durchmesser 25-30 cm) lassen sich leicht im Eigenbau erstellen und haben sich, in Verbindung mit experimentell-selektiv ermittelten Mikrofonen, beim Verf. seit Januar 1983 in [Stand 1996 = über 700] Live-Konzertaufnahmen bestens bewährt. Mein Bericht zur Musikdokumentation zeigt links unten die seit ca. 1990 verwendete Eigenbau-Scheibe mit selbstentwickeltem Mikrofonsystem auf Basis von modifizierten ECMs und einem EB-Speisemodul mit asymmetrischer Ableitung.

Stereo-Aufnahmen erfordern geringsten Materialaufwand auf Cassetten-Recordern (2 Stereo-Spuren = 1 Mono-Spur; unveränderte Bandkosten/Stunde; bei geeignetem Gerät lediglich ein zweiters Mikro nötig); der UKW-Rundfunk sendet heute ohnehin ausschließlich in Stereo, auch das Fernsehen hat sich diese Betriebsart erschlossen, in den USA wurde an Konzepten eines Mittelwellen-Stereo-Rundfunks gearbeitet, der moderne Konsument auditiver Medien ist an stereophones Hören gewöhnt und stellt - verwöhnt durch die HiFi-Bewegung - an das Hören höhere Ansprüche als die davorliegende Generation; die Übernahme moderner Stereo-Mikrofontechniken in Sonderbereichen der Sprachaufzeichnung ist nicht bloß Adaptation einer Mode, sondern Bereicherung durch neue, kreative Möglichkeiten.

Man sollte daher die Stereophonie mit allen ihren Möglichkeiten auch dann nutzen, wenn "nur Sprache" aufzuzeichnen ist. Für Blindenhörbüchereien kann z.B. eine Novelle als Hörbuch auch im Kunstkopfverfahren aufgelesen werden; die räumliche Wiedergabe (über Kopfhörer) kann als Mittel künstlerischer Intensivierung des Textgehalts dienen. Ebenso können aktuelle Magazinprogramme räumlich-stereophon mit verschiedenen Sprechern produziert werden; divergierende Meinungen ("Pro und Contra"), auch Sprecherspezifika, finden in Stereo optimale Realisation. Zudem eignet sich die zweikanalige Aufnahme in bezug auf Lokalisations- und Richtungssignale (Statik und Dynamik) dazu, etwa graphische Informationen in akustische umzusetzen, eine für Blinde höchst wichtige und willkommende Tatsache. Hierfür noch zu entwickelnde Regiekonzepte müssen auch die Verwendung informationsadäquater Mikrofone in Betracht ziehen; es kann ja von Nutzen sein, als Ausdrucksvariante den Klang desselben Sprechers mittels verschiedener Mikrofone zu manipulieren!

Im nichtprofessionellen Bereich sind mit einer Grundausstattung aus nur wenigen preiswerten Mikrofonen nahezu alle anfallenden Aufnahmesituationen zu meistern. Gute Mikrofonaufnahmen erfordern solide Grundkenntnisse und Einfallsreichtum seitens des Aufnehmenden; mit wachsender Erfahrung bekommt er ein Gefühl für das sogenannte Miking, d.h. die Kunst der situations- und zweckgerechten Mikrofonauswahl und -positionierung (welches Mikro muß ich für welchen Zweck wo aufstellen? Welche Mikros benötige ich wo und in welchem Verhältnis für welche komplexe Aufnahmesituation?). Wer, vor allem improvisatorisch, im nichtprofessionellen Bereich einen Grundstock an Erfahrungen sammeln konnte, dem wird es nicht schwer fallen, gute professionelle Aufnahmen zu machen. Im Profi-Bereich gelten freilich andere Maßstäbe. Mikrofone und Mikrofonzubehör kosten das 10- bis 20fache. Im Studiobetrieb haben sich Kondensatormikrofone von AKG, Bayer, Neumann, Schoeps, Sennheiser, Brüel & Kjær u.a. bewährt, entweder als modularisierte Systeme mit verschiedenen Kapseln oder als Kombi-Mikrofone, die sich intern auf bestimmte Richtcharakteristiken (Kugel, Niere, Hyperniere, Keule, Achter) umschalten bzw. in der Empfindlichkeit abschwächen lassen. Sind mehrere Sprecher beteiligt und müssen sie akustisch voneinander abgegrenzt werden, so geschieht dies gewöhnlich mittels mehrerer Richtmikrofone, die über ein Mischpult der Aufnahmemaschine zugeschaltet werden. Denkbar sind auch andere Konstellationen, so z.B. ein mittig plaziertes Kugelmikrofon, neuerdings sogar als Grenzflächen-Mikrofon bündig eingepaßt in eine ca. 30 x 30 cm messende "Kachel", die auf den Tisch gelegt wird und um die herum sich die Sprecher gruppieren; zwei dieser Kacheln in gewissem Abstand ergeben eine Stereo-Anordnung. Die Mischung aus Grenzflächen- und OSS-Prinzip ergibt eine Kachel mit zwei ca. 18 cm entfernt eingebauten Mini-Kapseln, die durch eine mittig aufgesetzte Halb-Scheibe akustisch getrennt sind. SENNHEISER entwickelte ein winziges Kondensator-Ansteckmikrofon (MKE 10), das den Sprecher der Sorge enthebt, ständig auf konstanten Mikrofonabstand achten zu müssen; er kann das Mikro vergessen und sich voll und ganz seinem Text widmen. Agieren mehrere Sprecher, so rüstet man am besten jeden mit einem solchen Ansteckmikro aus und stellt am Mischpult die sprecherindividuell optimalen Pegel ein; professionelle Mischpulte gestatten zudem eine für jeden Kanal individuelle höhen- und tiefenbezogene Klangbeeinflussung. wodurch sich stimmliche Unzulänglichkeiten korrigieren lassen. Solche Ansteckmikrofone reagieren allerdings empfindlich, sobald sie sich an Textilien reiben: lautes Schaben und/oder Knistern überlagert sich dem Nutzsignal.

Ist das Sprecherstudio nicht völlig nachhallfrei (schalltot), so geht seine Raumcharakteristik je mehr in die Aufnahme ein, desto weiter sich der Sprecher vom Mikro befindet und je "lauter" der Mikrofonkanal aufzudrehen ist. Betroffen ist möglicherweise der Stimmklang selbst: klingt ein Sprecher "topfig" in einem topfigen Raum, muß der Mikrofonabstand zur Korrektur verringert (oder ein Ansteckmikrofon verwendet) werden; geht das nicht, ist die Signalfrequenzkurve (das Sprecher-Klangspektrum) mit einem Equalizer zu "entzerren", also die Topfigkeits-Komponente zurückzuregeln. Reflexionsarme Aufnahmeräume lassen sich heute auch mit geringem finanziellem Aufwand realisieren. Im äußersten Notfall verlegt man den "Aufnahmeraum" in die freie Natur; in einer windstillen Ebene gibt es weder Reibstörungen noch unerwünschte Reflexionen oder (aufnahmeraumbedingte) Eigenresonanzen. Die Stimme klingt neutral; emotionale "Outbursts" beeinflussen die Aufnahmeaussteuerung weit weniger kritisch wie in einem engen Raum, in dem sich sehr leicht "stehende Wellen" oder "Druckzonen" aufbauen können.

Im Gegensatz zu ihren amateurmäßigen "Brüdern" arbeiten professionelle Kondensatormikrofone mit symmetrischen Signalkabeln und sog. Phantom-Speisung, wobei die benötigten 48 Volt (Gleichstrom) dem Mikrofon über die Tonadern zugeführt und am Eingangstrafo entkoppelt werden. Die Tonader-Speisespannung kommt entweder aus einem separaten Netzgerät oder aus einem im Mischpult eingebauten Modul. Eine symmetrische und zugleich erdfreie Leitungsführung zwischen Mikrofon, Speisegerät, Mischpult und Aufnahmemaschine unterdrückt weitestgehend Störsignale; mit Ein- und Ausgangsimpedanzen von nur 200 Ohm arbeiten die Leitungen verlust- und weitgehend verfärbungsfrei selbst auf hunderten von Metern. Die zur Zusammenschaltung eingesetzten Cannon- oder XLR-Steckverbinder sind mechanisch robust und elektrisch eindeutig und schließen Verkantungen bzw. Falschpolungen aus. Gleichermaßen bequemes Handling bieten (3-polig kontaktierte 6,3-mm-) Klinkenstecker, sind jedoch bisweilen unzuverlässig in der Kontaktgabe. Amateurmäßige und miniaturisierte Steckverbinder (Kleinklinke 2,5mm oder 3,5mm, Normal-Cinch, DIN, auch BNC) sind wegen mechanischer Labilität und unsicherer Kontaktgabe zu verwerfen.

Vollprofessionelle stationäre Sprachaufnahme bedeutet zugleich eine strenge apparative und personelle Funktionstrennung zwischen Sprecherstudio und Aufnahme- bzw. Schneideraum. In seinem Studio soll sich der Sprecher ganz auf seine Aufgabe konzentrieren; außer Mikrofon und Zeituhr befindet sich hier lediglich ein optisches Aufnahmesignal und eine Intercom- oder Kommandosprechverbindung zum Schneideraum. Die technischen Arbeitsvorgänge und Manipulationen (Mikrofonmischung, Signalaussteuerung, Klangbeeinflussung, Schalten der Aufnahmemaschinen usw.) werden vom Aufnahmeleiter und/oder Tontechniker vorgenommen. Im semiprofessionellen Aufnahmebetrieb z.B. einer Blindenhörbücherei kann notfalls der Sprecher auch die technisch-apparativen Manipulationen mitversorgen; der voreingestellte Aufnahmepegel erscheint auf einem Leuchtsäulen-Peakmeter, das auch aus dem Augenwinkel heraus sichtbar ist, und die Lauf-Funktionen der Aufnahmemaschine werden ferngeschaltet, was dem Sprecher eine autonome Eigenkorrektur des Masterbandes ermöglicht, was im Einzelfall eine maximale Ausschöpfung individuellen Leistungsvermögens bedeutet. Zudem entlastet dies den Aufnahmeleiter und ermöglicht es ihm, mehrere gleichzeitig ablaufende Aufnahmevorgänge stichprobenweise zu betreuen, ggf. von einem 'Leitstand ' aus über zentral zusammenlaufende Intercoms.

Im Gegensatz zur hochwertigen, künstlerisch optimalen Musik-Produktion können Sprach-Aufnahmen pegelnivellierend angefertigt werden, sofern weder Signalverfärbungen auftreten noch die dem Sprachfluß immanante, intonatorisch relevante Dynamik verfälschend eingeengt wird. Gerade bei sehr impulsiven Sprechern kann eine Sigalbegrenzung unumgänglich werden. Auch und gerade bei dokumentarischer Sprachaufzeichnung sind nichtlineare Verzerrungen zu minimieren: erstens ist Sprache ein verzerrungskritisches Programm-Material, zweitens wird im Zuge späterer Bearbeitungen (Kopien u.a.) ohnehin ein gewisses Maß an Verzerrungen hinzugefügt. Entsprechende Manipulationen können auch dann nötig werden, wenn in lärmerfüllter Umgebung (z.B. Maschinenhalle, Computerzentrum, Großraumbüro) z.B. ein von der Sprachgebung oder dem Inhalt wichtiges Interview aufgezeichnet (oder eine stark verbrummte Aufnahme nachbearbeitet bzw. in einem lauten Fahrzeug "gefunkt") wird. Läßt sich der dem Nutzsignal unterliegende Störpegel durch (extreme) Mikrofon-Nahbesprechung oder Frequenzgangfilterung (Bandpässe, Notchfilter) nicht verringern, so müssen - nach der Aufnahme - mit einem sog. Noise Gate alle unterhalb eines definierten Schwellwerts (z.B. -40 dB) liegenden Signalanteile getilgt werden, möglicherweise auf Kosten distinktiv-perzeptorisch wichtiger Laute (s. oben): der in jedem Falle anzustrebende Kompromiß erfordert einen erfahrenenen Praktiker. Inzwischen (1996) gibt es PC-Software, die, im Verein mit einer geeigneten Sound-Karte, Noise-Gates (und Equalizer!) perfekt emuliert. Der inzwischen zur Audio-Echtzeitverarbeitung gerüstete (Hochgeschwindigkeits-)PC kann heute in vieler Hinsicht rein mechanisch bzw. analog vorgehende Bearbeitungsprozesse übernehmen und bietet den Vorteil beliebiger Wiederholbarkeit und millisekundengenauen Schneidens. DAT-Recorder und PC-Schnittplatz zählen heute (1996) zur Standardausrüstung einer professionellen Audiothek.

Wir sollten unterscheiden zwischen (kompromißlos-)künstlerischer Sprachaufnahme und primär kommunikativer, rezipientenbezogener, vorrangig informationsvermittelnder Sprachverarbeitung. Letztere fällt an bei allen Arten schmalbandiger drahtloser Kommunikation, in der es weniger auf Ästhetik ankommt denn auf höchste Verständlichkeit (readability) bei gleichzeitige maximaler Übertragungsökonomie. Eine auf allerhöchste Klangtreue verzichtende, dennoch auf maximale Information gerichtete Sprachaufnahme berücksichtigt einerseits so gut wie möglich den individuellen Stimmklang, jedoch auch und gerade eine optimale Kopierbarkeit der Aufnahme. Zu dumpfe Aufnahmen müssen 'aufgehellt' werden, was den Rauschabstand verringert; zudem tragen die tiefen Stimmgrundtonanteile nichts zur Verständlichkeit bei, beanspruchen jedoch einen großen Anteil der zur Sprachgebung verwandten Energie. So hat es keinen Zweck, etwa kopierfähige Sprach-Master mit Frequenzanteilen unter 100 Hz herzustellen. Ebenso sinnlos ist ein über 10 KHz hinausreichendes Übertragungsmaß, da jenseits dieser Grenze keine sprachrelevanten Formanten angesiedelt sind. Wer auch immer die Aufnahme leitet und damit für die Endqualität der Dokumentation verantwortlich zeichnet, muß sich über die durchschnittliche Amplitudenstatistik der menschlichen Stimme und damit auch über deren Problematik im klaren sein. Es geht hierbei um das statistisch erfaßte, akustisch meßbare Vorkommen aller sprachindividuellen Laute und Lautkombinationen; die Vokale /a/, /o/ und /u/ liefern den höchsten Stimm-Output, andererseits produzieren Konsonanten wie z.B. /t/, /k/ oder /f/, auch der Plosiv /p/, bei normalem Mikrofonabstand (ca. 30 cm) relativ wenig Energie. Beim Probesprechen zur Aufnahme-Aussteuerung sollte man bestimmte Wörter wie Hand, Hund, Ofen, offen intonieren lassen und hiernach den Maximalpegel festlegen. Jeder Sprecher sollte überdies kritisch daraufhin beurteilt werden, ob sein Stimmklang und seine Sprechweise so beschaffen sind, daß ihm ein u.U. blinder Hörer längere Zeit ermüdungs- und frustrationsfrei zuhören kann. Das Timbre enthält möglicherweise eine vom Ansatzrohr (dem eigentlichen Artikulationsraum) bedingte Eigenresonanz, die in Frequenz und Amplitude der Stimme etwas Unangenehmes, Aufdringliches verleiht; verstärkt wird dies noch durch ungünstige Raumakustik (z.B. die erwähnte Topfigkeit). Auch hier hilft der (frequenzgangkorrigierende) Equalizer; entsprechende korrigierende Maßnahmen (und damit die klangliche Gestaltung) sollten per Team durchgeführt werden. Besonderes "Ohrenmerk" sollte dem Präsenz- und dem Brillanzbereich gelten, also den zwischen 1-3 kHz und oberhalb von ca. 5 kHz liegenden Spektralanteilen. Im Präsenzbereich (für den anatomisch gesehen das menschliche Ohr am empfindlichsten ist) liegen die für das muttersprachlich-distinktive Verstehen entscheidenden Formanten; innerhalb der Einseitenband-KW-Telefonie hat sich eine Bandbreite von nur ca. 500...2.500 Hz noch als ausreichend erwiesen. Grund ist die Fähigkeit des (ausreichend trainierten) Gehirns, durch eine (aus der muttersprachlichen Kompetenz resultierende) Echtzeit-Fehlerkorrektur ggf. fehlende Informationen 'hinzuzuaddieren' und somit die möglichen Verständnisfehler zu minimieren. Überstarke Präsenzen werden als zu laut, zu lästig empfunden, vor allem per Kopfhörer. Die progressive Anhebung der Frequenzen von etwa 3...8 kHz kann, besonders hinsichtlich späterer Kopien, die Klarheit bzw. Durchhörbarkeit des Sprachsignals verbessern. Die tonverarbeitende Geräte-"Kette" einer auditiven Mediothek ist so auszulegen, daß bei minimalem Klirrfaktor, optimaler "Schnittstellen"-Konfiguration und mit souveräner Beherrschung frequenzgangkorrigierender Maßnahmen in jeder Hinsicht einer rezipientengerechten Sprachverarbeitung Rechnung getragen wird.

Der professionelle bzw. semiprofessionelle bzw. amateurhafte Charakter einer Aufnahme wird nicht allein bestimmt vom verwandten Gerät, sondern ganz entschieden auch durch Erfahrung, Können, Einfallsreichtum, Kreativität und Engagement der an der Aufnahme und ihrer Bearbeitung beteiligten Personen. Es ist eben nicht wichtig, von welchem Hersteller das Mikrofon kommt und wie teuer es war bzw. welches Mischpult benutzt wurde, spondern einzig und allein, wie sich zum Schluß die Aufnahme anhört, und zwar nicht in einem teuren, noblen Studio-Monitor, sondern in einem ganz durchschnittlichen, "ordinären" Lautsprecher. Deshalb findet man bisweilen auch in Rundfunkstudios umfunktionierte Kofferradios oder Autolautsprecher als Abhör-"Monitore"; deren Übertragungsbereich erstreckt sich ohnehin nur von ca. 100 Hz bis 12 kHz. Dies entspricht etwa dem von Menschen über 50 Jahren noch rezipierbaren Spektrum; im Rentenalter sinkt die Obergrenze um weitere 1 bis 2 kHz. Das beeinträchtigt nicht die Fähigkeit, mit gesunden , also normal empfindlichen Ohren selbst im hohen Alter optimal aufbereitete Sprache noch mit großem Genuß zu rezipieren. Selbst Menschen, die (durch die akustischen Gegebenheiten der Arbeitswelt, aufgrund von Medikamentengenuß oder durch exzessiven Diskothekenbesuch) Gehörschäden davongetragen haben, können durch entsprechend aufbereitete Sprach-"Konserven" zu einem relativ genußreichen Hören gelangen. Eine Audiothek, die mit personellen, apparativen und archivalischen Mitteln dazu beiträgt, hat ihre Aufgabe voll und ganz erfüllt.

Alle Rechte (c) Wolfgang Näser 21.7.1996 * Stand: 11.1.2k13
Mein obiges Foto entstand am 7.11.2004 auf der Tonmeistertagung in Leipzig