Audio-Kompression mit Real Audio/ Real Media
und anderen Verfahren
von Wolfgang Näser,
Marburg
==>
Mundart-Tonbeispiele
VORBEMERKUNG
Nachstehende Ausführungen widerspiegeln die Erfahrungen, die ich als
Sprachwissenschaftler und in der Praxis der Tonaufnahme und -bearbeitung
mit komprimierten Audio-Dateien sammeln konnte seit Anfang Dezember
1996, als diese Seite in meine Homepage integriert wurde; außer
dem anfangs ausschließlich verwandten Real Audio ziehe ich
vergleichsweise auch das besonders im Musik-Bereich vorteilhafte
mp3-Format und weitergehende Entwicklungen (Liquid Audio, MP4-AAC,
WMA, MP3PRO) heran und dokumentiere entsprechende Versuche (s. unten Tab.
2). Das folgende resultiert aus der Praxis; die Darstellung mathematischer
Grundlagen kann hier nicht geleistet werden.
9.6.2014: Um Verständnis bitte ich dafür, daß aufgrund des mittlerweile über 17-jährigen Beobachtungs-Zeitraums im folgenden einiges etwas "durcheinander" läuft, da immer wieder Aktuelles angeführt wurde / wird. Aufgrund von Firmen-Schließungen u.a. sind viele Links inzwischen erloschen; neue (auch zu den angeführten Tonbeispielen) werden demnächst gesetzt.
Die "Mutter" der effektiven digitalen Audio-Kompression (und bis heute für Sprachpräsentation unübertroffen) ist das 1996 eingeführte Real Audio, ein zeit-/längenbezogenes Kompander- oder codec-Verfahren zu maximal ökonomischer PC-Dokumentation und Reproduktion "wirklicher" oder natürlicher Klänge bzw. Schallereignisse.
Real Audio wird in Form von Broadcasts und Clips im Internet angeboten; RA-Dateien können Sie aber auch selbst erzeugen, und zwar durch durch definierte Kompression in einem sog. Encoder, der, in den Versionen 3 bis 8 von www.real.com und anderen WWW-Servern lange Zeit zum Download angeboten wurde, bevor fast alle Links geschlossen und alle Encoder-Versionen vom sog. Helix Producer (V. 9)ersetzt wurden, der als "Basic"-Version frei und als "Producer Plus" für rund 200 $ erhältlich ist. Außer den schon von Version 5 (s.u.) bekannten Modi liefert er Bit-Raten von 100 bis 1500 kbps.
Im Vergleich der Versionen 3, 5, 8.5 und 9 zeigt sich
der Real Audio (Live) Encoder 3.1 in seiner 32-Bit-Version (Info links)
in bezug auf Qualität : Wirtschaftlichkeit allen anderen
überlegen. Eine 7.046.552 Bytes lange *.wav encodiert er im Modus
RA 3.0 / 16 kbps full sauber zu *.ra mit nur 159.392 Bytes (die mit
dem Real Producer Plus 8.5 erzeugte single-rate *.rm von
169.431 klingt schlechter!), während die "sparsamste" *.rm-Variante
des Helix Producers Basic im Modus "12 k Substream für 28k Dial-up"
die dreimal längere *.rm von 499.969 Bytes erzeugt, die in puncto
Brillanz etwa identisch ist mit der vom Encoder 3.1. generierten *.ra, die
bei 32 kbps / mono dennoch nur 319.972 Bytes umfaßt.
Werden keine neueren Daten-Modi erzeugt, so empfiehlt es sich, alle anderen
Real Audio Producer /Encoder außer der Version 3.1 zu deinstallieren,
wobei Sie auch Platz sparen, da jedes Programm eigene Pfade mit Common
Files und Codecs einrichtet, die jeweils identisch sein können;
möglicherweise versionsverschiedene RA-Module in separaten Directories
können sich unter Umständen gegenseitig behindern. Besonders wichtig
ist pngu3260.dll. Fehlt es oder ist es im Windows-System-Directory
UPX-gepackt, so kann z.B. der Real Player G2 (Version 6), der auch
heute (2003) noch für alle *.ra und *.rm gut ist, seine "Einsprung-Adresse"
nicht finden. Was andere Player-Versionen gibt, so kann es (in allen
Windows-Varianten ab 98) durchaus zu Installationsproblemen kommen: der Player
startet und wird sofort vom System abgeblockt (Version 8); er weigert sich,
*.ra usw. abzuspielen (Real One Version 1) oder er fragt x-mal nach
bestimmten von "ns.real.com" anzuliefernden, nicht vorhandenen Modulen, bevor
der Startvorgang endgültig abbricht (Real One Version 2). Auch
kann es passieren, daß der Real Player und Winamp miteinander
in Wettstreit treten, wenn es gilt, *.ra, *.rm, *.ram und *.mp3 (bzw. mp3pro)
von einem File-Manager (z.B. dem Windows Commander) aus zu aktivieren
(in bestimmten Konfigurationen ruft WinAmp auch *.ram ab).
Als mehr oder weniger professioneller Anbieter können Sie Real Audio mit einem Real Media Server als kontinuierlichen Datenstrom generieren und ins Inter- bzw. ein Intranet einspeisen. Je nach Kompressionsgrad und Bandbreite wird ein weitgehend authentisches Klangbild erzeugt.
Wie Tab. 2 (unten) veranschaulicht, würden hochwertige Schallereignise als *.wav-Dateien auf Disketten bzw. Server-Laufwerken unzumutbar viel Platz beanspruchen, insofern bieten Verfahren wie Real Audio, IIS-mp3 u.a. mit zweckmäßigen Kompressionsraten (s. Tabellen) in bezug auf Wirtschaftlichkeit und Übertragungstechnik optimale Audio-Lösungen in professionellen und non-profit-Datennetzen und Arbeitsumgebungen.
Im wissenschaftlichen Rahmen eröffnet eine solche Audio-Kompression völlig neue Möglichkeiten für Didaktiker (PC als Sprachlabor), Linguisten (Hörbeispiele zur Pragma-, Soziolinguistik u.a.; Historiolinguistik: gesprochenes Mittelhochdeutsch), Film- und Theaterwissenschaftler, vor allem Dialektologen und Phonetiker ("sprechende" Dialektkarten, Übungen zur Kompensatorik, Demonstrationen zur Lautdistinktion u.a.), um in solchem Rahmen relevante Ton-Dateien (oder einfache visuelle Abläufe) der Fachwelt zugänglich zu machen.
Für Real-Audio-Wiedergabe benötigen Sie:
1. als Hardware einen multimedia-fähigen PC (min.
486-DX50, 8 MB RAM) mit
(a) moderner, leistungsfähiger Sound-Karte (Regel:
16-Bit; gut sind die z.Zt. ab ca. 50 DM erhältlichen, auch für
Internet Phone verwendbaren Full-Duplex-Karten) sowie
(b) Lautsprecher-(Aktiv-)Boxen;
2. als Software
(a) einen leistungsfähigen, schnellen WWW-Browser (ab
Netscape 2.2, optimal 4.79) mit Plug-In(s) für Real Audio
(bzw. Video usw.) und / oder
(b) einen eigenständigen (autonomen) Real-Audio-Decoder (s.u.).
Werden im Real Media Stream auch visuelle Informationen verarbeitet
(in Nachrichten oder als Video-Clips), so läßt sich diese
Technologie sehr gut auch didaktisch nutzen, z.B. für kleinere
Lehrfilme der angewandten Phonetik, um die Erzeugung der gehörten Laute
im Ansatzrohr (bzw. auf die Stimmbänder gesehen) zu
veranschaulichen.
(c) eine für (a) und (b) optimale Konfiguration
(Auslagerungs-Datei min. 8 MB [oder höher unter Win95], korrekte Anbindung
(Registrierung) der Plugins, passende *.DLLs im Win-Systembereich.
RA kennt folgende Betriebsarten:
1. Streaming Real Audio
(a) Continuous live stream real audio processing: ein Server komprimiert (encodiert) bis zum Abschalten einen fortlaufenden Datenstrom zu Real Audio (*.rpm); das Signal wird im Direct-Connect-Modus mit einem Browser oder eigenständigen Player unverzögert oder gepuffert empfangen (= decodiert) und dabei möglicherweise in eine Datei (*.ra) geschrieben Für den Browser (Netscape, Internet Explorer usw.) benötigen Sie als Plugin das Modul npra16.dll (Win 3.11) bzw. npra32.dll (Win 95); komfortabler arbeitet mit oder ohne Browser der autonome Real (Audio) Player (*.exe + *.dlls) ab V. 3. Der Real Player 6 G2 bietet zudem viele Zusatz-Optionen wie editierbare "Programmspeicher" (für preset stations), verlangt unter identischen Bedingungen (Bandbreiten) jedoch einen höheren Daten-Durchsatz und daher eine schnellere CPU. - Wollen Sie aus dem Internet streaming real audio (audio/x-pn, *.rpm) in reduzierter UKW-Qualität (Mono 11 kHz, 40 kBps) empfangen, so benötigen Sie eine LAN- oder Modem-Anbindung von min. 64-kBit/s. Per Multitasking können Sie Streaming Audio als Internet-Radio empfangen und nebenher einer anderen (PC-) Arbeit nachgehen. In den immer häufigeren Zeiten der Netz-Überlastung (net congestion) kann der Empfang unter- oder gar abgebrochen werden.
(b) Limited audio stream to real audio file processing:
am Audio-Eingang wird ein zeitlich begrenztes akustisches Ereignis eingespielt
(oder live per Mikrofon erzeugt) und sofort als Datenstrom je nach Modus
(gewünschte Bandbreite) mehr oder weniger schnell und vollständig
(ggf. bis zum Puffer-Überlauf) zu einer Real-Audio-Datei (*.ra) encodiert.
Decodiert wird die fertige RA-Datei mit dem eigenständigen Real Audio
Player (realplay.exe + *.dlls) ab V. 3.0.
Es hängt vom CPU-Takt ab, in welcher Bandbreite und
Länge Sie einen in den Encoder gegebenen Live-Datenstrom
verarbeiten (und später decodieren) können. Mit einer schnellen
CPU und geeigneter En-/Decoder-Software können Sie Ihren PC als
RA-"Diktiergerät" benutzen und selbst auf kleineren Festplatten Unmengen
kürzerer Sprach-Files ablegen.
2. Audio file to real audio file conversion: eine (digitale) Audio-Datei (*.wav) wird zu einer Real-Audio-Datei (*.ra, *.rm) encodiert und kann als solche per RA-Software beliebig oft decodiert und via Soundkarte als natürliches Klangereignis abgespielt werden. Encodieren Sie im Schmalband-Modus (14,4 kbps /2.5 kHz), so sollten Sie die *.wav-Datei mit geeigneter Software (z.B. Cool Edit Pro) so entzerren, daß eine kontinuierliche Anhebung bis zum formantkritischen Bereich um 2-3 kHz erzielt (und das Restspektrum ggf. abgeschnitten) wird.
3. Real audio file streaming on demand: viele Server bieten Real-Audio-Files an, die als Datenströme abgerufen werden können. Je nach Modem-Durchsatz läßt sich dies in Echtzeit bewerkstelligen oder wird die Datei in einen flüchtigen Speicher geladen, von wo aus sie vom RA-Decoder zum einmaligen Anhören verarbeitet wird.
4. Real audio file download and replay: ebenfalls 'on demand' stehen (zum Beispiel in meiner Homepage) komplette RA-Files (*.ra) bereit, die nach dem Download beliebig oft off-line abgehört werden können; erst dazu tritt Ihre Decoder-Software in Aktion.
Zu (3) und (4): Im HTML-Text der jeweiligen URL wird entweder auf eine *.ra-Datei hingewiesen (Audio-File) oder (nur auf Live Stream Servern) eine mit der Extension *.ram (=real audio metafile, Script-Zeile mit Header pnm:// und Pfadangabe für *.ra). Beim Live-Stream-Empfang (s. Status-Zeile unten im RA-Player) werden die *.ram-(Text-)Dateien in den Platten-Cache geladen, die gehörten *.ra-(=Audio)-Clips bleiben "flüchtig" und können, falls intern freigegeben (Copyright!), allenfalls mit dem - kommerziell bei Progressive Networks erhältlichen - Real Audio Player Plus während des Abspielvorgangs aufgezeichnet werden; falls direkt anwähl(- und download)bar, werden *.ra-Files im Browser-Cache (oder dem \tmp-Bereich) "zwischengelagert" und können von dort aus, evtl. umbenannt, auf ein passendes Directory transferiert und - entweder über den Browser oder stand-alone über den Player - beliebig oft "abgespielt" werden.
Tabelle 1: alte und neue
Real-Audio-Modi
Stand: 27.2.2003
alter Typ |
Vers. | Modem | mono/ stereo |
Bandbr lHz |
Kompr.- Faktor |
Enc kbps |
Sampl kHz |
kByte sec |
CPU (*stream) |
1 | 5.0 | 14.4 | m | 2.5 | 280 | 4.9 | 0.6 | Pentium 1) | |
2 | 5.0 | 14.4 | m | 3 | 220 | 6.5 | 0.8 | Pentium 1) | |
3 | 2.0 | 14.4 | m | 2.5 | 196 | 8 | 8 | 1 | Pentium |
4 | 5.0 | 28.8 | m | 3 | 196 | 8 | 8 | 1 | Pentium |
5 | 5.0 | 28.8 | m | 4 | 196 | 8.5 | 1 | Pentium | |
6 | 5.0 - 9.0 | 28.8 | m 2) | 4 | 117,3 | 12 | 8 | 1.5 | 486/50 |
7 | 2.0 | 28.8 | m | 4 | 97,7 | 15.2 | 8 | 1.8 | Pentium |
8 | 3.0 | 28.8 | m nar | 4 | 88 | 16 | 8 | 2 | Pentium |
9 | 3.0 | 28.8 | m med | 4.7 | 88 | 16 | 11 | 2 | Pentium |
10 | 3.0 - 9 | 28.8 | m full | 5.5 | 88 | 16 | 11 | 2 | Pentium |
11 | 5.0 | 28.8 | m wide | 8 | 88 | 16 | 16 | 2 | Pentium 3) |
12 | 3.0 | 28.8 | stereo | 4 | 70 | 20 | 8 | 2.5 | 486/50 |
9.0 | Sub 56k | 26 | |||||||
13 | 5.0 | 56.6 | m | 8 | 44 | 32 | 4 | Pentium 3) | |
14 | 5.0 | 56.6 | stereo | 5.5 | 44 | 32 | 4 | Pentium | |
9.0 | 56k | 34 | |||||||
15 | 3.0 | ISDN | m | 11 | 35 | 40 | 22 | 5 | Pentium |
16 | 3.0 | ISDN 4) | stereo | 8 | 35 | 40 | 16 | 5 | P 120 |
9.0 | ISDN | 50 | |||||||
17 | 3.0 | 2xISDN | m | 20 | 17,6 | 80 | 44 | 10 | P II /233 |
3.0 | 2xISDN | stereo | 16 | 17,6 | 80 | 32 | 10 | P II/233 | |
9.0 | 150k LAN | 150 | |||||||
9.0 | 256k DSL | 225 | |||||||
9.0 | 384k DSL | 350 | |||||||
9.0 | weitere Modi | bis | 1500 |
Größtmögliche Kompression bei, wie [13] zeigt, noch akzeptabler Sprachverständlichkeit bietet der Real-Audio-Modus 1 (4,9 kbps) mit fast unglaublichen 0,6 kBytes/sec Platzbedarf. Komprimiere ich eine CD-kompatible Stereo-Datei zu Mono mit geringstmöglicher Bandbreite, so reduziert sich deren Länge auf 1/280 oder weniger; typengleiche Dateien erreichen die Hälfte. Ab K=44 lassen sich Hörfrequenzgänge von ca. 5,5 kHz erzielen, die alle wichtigen Formanten menschlicher Sprache abbilden und sich daher in bescheidenem Umfang auch für phonetische Arbeiten (Transkription) eignen. Per Ra2Wav re-expandiert, können solche Dateien mit gängigen Editoren wie Cool Edit u.a. weiterverarbeitet werden (s. auch unten). Konkurrenz bekommen hat der RA-Modus jüngst von neuen Formaten: u.a. WMA (Windows Media Audio), das, mit dem WMA-Encoder V.7 erzeugt, ab K=100 (mono/mono) gut verständliche Sprache erzeugt und bei K=69 (stereo/mono) eine durchsichtig klingende Modulation.
Alle oben angeführten Typen lassen sich mit dem oben erwähnten Real Audio Encoder 3.1 (32 Bit) erzeugen, der auch die neuen, verbesserten und wirtschaftlicheren 5.0-Algorithmen des Typs 1, 2, 5 und 11 verarbeitet. Hierzu wurde das neue Codec-Modul ra32sipr.dll geschaffen. Die übrigen Codecs gelten unverändert für die RA-Versionen 3, 4 und 5 und wurden erst mit der (für AV-Übertragungen konzipierten) Version 6 (G2) durch größere Module abgelöst. Die auch in Cool Edit 1.2 und anderen Sound-Editoren enthaltenen dnet3260.dll (19.968 Bytes), pncrt.dll (273.408 Bytes), pngu3260.dll (321.024 Bytes), pnrs3260.dll (11.264 Bytes), rnco3260.dll (88.576 Bytes) und sipr3260.dll (16.896 Bytes) sind (außer in W2k, s.u.) gemeinsam in \windows\system unterzubringen. Unter Windows 2000 Professional müssen sich alle zum De- und Encodieren nötigen Module in \winnt\system32 befinden, anderenfalls gibt es Probleme mit dem Real One Player, mit Cool Edit beim RA-Abspeichern und mit dem RA-Encoder 3.1.
Verlorengegangene *.wav lassen sich (zwecks Re-Editing) mit ra2wav (Versionen 1.0, 1.5 und Streambox Ripper V. 2.x) zurückgewinnen, und zwar mit einer dem jeweiligen RA-Modus entsprechenden Sampling-Rate; bei relativ sparsamen, also hohen Kompressionsraten sind Artefakte möglich.
Mit dem Real One Player eröffnen sich neue Möglichkeiten
(DVD-Wiedergabe und CD-Burning), doch macht die angeblich kostenlose
Basis-Variante Probleme. Unter Win2k ließ sich - off-
oder online - bisher nur Version 1 (Build 6.0.10.505) installieren;
wurde ein kritisches Modul gegen V 2 getauscht, gab es einen Hänger,
und wurde auch der Tausch rückgängig gemacht, mußte V. 1
dennoch re-installiert werden; Ursachen dafür sind hier vermutlich
gewisse Lizenz-Kontrollroutinen, die mit Registereinträgen
und online-Kontrollmeldungen einhergehen. Unter Win98SE
funktioniert indessen Version 2.0 "Helix powered" Build 6.0.11.853
Distribution RN10PD mit allen Zusatzmodulen (incl. CD-burn) und der "File
Open"-Funktion.
--------------------------------------
Anmerkungen:
1) mit 486/50 nur ca. 1 Minute bis
Puffer-Überlauf; Typ 1 z.Zt. wirtschaftlichster Modus mit nur ca.
0.6 kBytes (!) Platzbedarf für 1 Sek. Aufnahmezeit; mit
präsenzanhebendem Mikrofon noch befriedigende Sprachverständlichkeit;
Typ 2 erbringt leichte Verbesserung, klingt etwas besser als der alte RA
2.0-Typ (3) und liegt mit 0.8 kBytes/sec. dennoch unter dessen Durchsatzrate.
1,2 und 5 lassen sich als constant stream nur mit Pentium-Rechnern
generieren. Ideal für Sprache ist der 8,5
kbps-Modus (1 kByte/s, oben Typ 5).
2) Nur 1.5 kBytes/sec; Stream-Encoding mit
präsenzstarkem Mikrofon am Front-End des Real Encoders 3.0 erbringt
bei Wiedergabe mit Real Player 5.0 sehr gute Sprachverständlichkeit
und funktioniert auch mit CPU 486/50 (Encoding Buffer konstant bei 5-6 %;
Tests mit IBM Thinkpad 755C: > 5 Min. OK, 18.10.99, int. Mikrofon;
2'30" OK, 19.10.99, präsenzanhebendes ext. Elektret-Mikrofon m.
Pop-Schutz)
3) Werden 11, 13 (und wahrscheinl.
auch 14) mit 486/50 generiert, so erbringt dies doppelte Geschwindigkeit
beim Abspielen auf 486- und Pentium-Rechnern, die auch nur in der Lage sind,
diese Modi korrekt zu verarbeiten. Die mit Typ 13 (8 kHz, 32 kbps, 4 kBytes/sec.)
von 577.040 auf nur 26.232 Bytes verkleinerte Win-98-Startmelodie klingt
natürlich und voll, die sparsamere 16-kbps-Variante (8 kHz, 16 kbps,
2 kBytes /sec.) dagegen 'rauchig' und unnatürlich.
4) kann auch mit guten 56-kB-Analogmodems (mit
nur wenig Pufferung) empfangen werden (z.B. ELSA MicroLink 56k)
Für Echtzeit- oder audio-stream-Kompression (1b) mit gleichzeitiger Abhör-Kontrolle "hinter Encoder" benötigen Sie mindestens einen Pentium >100. In seiner "wirtschaftlichsten" Form (14,4 kBps mono) gestattet RA die Unterbringung von mehr als 20 Minuten Ton (in reduzierter "Mittelwellen-Qualität") auf einer HD-Diskette von 1,44 MB / 3,5"; der neueste Real Player G2 Plus bietet einen Echtzeit-Equalizer, der mit stetiger Anhebung bis 4 kHz schmalbandige Live-Signale wesentlich 'aufhellt'. Verfügen Sie nicht über diese Software, so können Sie eine abgespeicherte *.ra-Datei zunächst mit dem ebenfalls von real.com erhältlichen separaten 32-Band-Equalizer umeditieren, um sie dann mit der neuen Entzerrung abzuhören.
Sämtliche RA-Modi lassen sich mit RVPLAYER.EXE (V. 4, gepackt 40 kB) wiedergeben (s. hierzu auch meine Darstellung zum Thinkpad 755C); moderne Notebooks wie der von mir getestete Gericom-Webboy (Pentium III/8000, Windows ME) verfremden möglicherweise den Ton, sofern nicht der zuständige Treiber (hier: SiS7018.SYS) durch eine ältere Version (hier: 4.12.1.34, 285.572 Bytes) ersetzt wird. Der ein wenig bessere REAL PLAYER 5 ist durch seine erweiterten Video-Möglichkeiten auch heute (1/2002) noch zukunftssicher; vor allem läßt er sich in allen Software-Umgebungen problemlos installieren, was man von den späteren G2-Playern (ab Version 6) nicht sagen kann (unter Win98SE möglicherweise Start-Abbruch wegen Konflikt mit krnl386.exe). Eine Real-Player-Installation ist Voraussetzung, wenn *.ra, *.rm mit den neuen, verbesserten Winamp-Plugins abgespielt sollen.
Der im Herbst 2001 vorgestellte, selbst in dieser Beta1-Version nur unter Angabe vertraulicher Informationen (Kreditkarte usw.) als 14-Tage-Demo herunterladbare RealOne-Player (=V. 9) eröffnet die neue "Musik-gegen-Geld"-Ära und bietet nach fast einhelligen Benutzer-Aussagen keine Performance-Verbesserungen. Inzwischen sind die Version 2 "Gold" und V.10 verfügbar.
Real Audio für Handhelds
==> |
Trotz seiner rund 9-jährigen "Vergangenheit" gehört Real Audio noch längst nicht zum "alten Eisen". Wie Versuche im Oktober 2k5 zeigten, eignet es sich im Format Real Media auch für Handhelds wie den ACER n35. Die *.rm-Dateien lassen sich z.B. mit Adobe Audition 1.5 oder 2.0 (früher: Cool Edit Pro 2.1) per Speicher-Option Real Media G2 (Bild oben links) gewinnen, sofern die dafür nötigen Module (Ra_g2.flt = 28.672 Bytes, Pncrt.dll = 273.408 Bytes, Pngu3260.dll = 308.736 Bytes, Pnrs3260.dll = 11.264 Bytes, Rmbe3260.dll = 414208 Bytes, Rmme3260.dll = 412.672 Bytes, Rnco3260.dll = 88.576 Bytes, Sipr3260.dll = 16.896 Bytes) im Programmpfad sind, oder via Konversion aus *.mp3 mit dem Easy Real Converter 1.4, dessen 8.033.425 Bytes umfassendes Directory alle optierbaren Codecs und Konversionsmodule in den Sub-Pfaden \codecs, \common und \plugins enthält. Sie benötigen aus dem WWW die Installationsdatei RealOnePlayerppc.exe (1.134.592 Bytes), die auf dem Handheld im Pfad \RealNetworks RealOne Player die Datei realplayer.exe (813568 Bytes) erzeugt. Soweit bis jetzt bekannt, verarbeitet der Player (Bild oben rechts) nur *.rm mit 32 kbps, allerdings in hervorragender Qualität.
Tab. 2: Kompression einer 255 Sek. langen *.WAV-Datei in CD-Qualität (Brandenburg. Konzert Nr. 1, Satz 1, Aufn. W. Näser, Stiftsruine Bad Hersfeld 20.8.2000; Stereo 16-Bit /44,1 kHz), 45.005.352 Bytes, in div. Formate (Real Audio in Konkurrenz zu mp3, alle Dateien generiert mit Cool Edit Pro 1.2, August 2000; *.ra abgehört mit RvPlayer 4.0)
Mode | Encode /Sampling | Real Audio oder mp3 |
Bandbr kHz |
Länge Bytes |
Kompr- Faktor |
kByte/ sec |
Stunden / CD | |
Normal | LP (80') | |||||||
1 | 20 kbps /11 kHz | mp3 | 4 | 638.433 | 70 | 2,5 | > 86 | > 93 |
1 | 20 kbps / 8 kHz | RA | 4 | 639.460 | 70 | 2,5 | > 86 | > 93 |
2 | 32 kbps /16 kHz | mp3 | 5.5 | 1021.440 | 44 | 4 | > 54 | > 58 |
2 | 32 kbps /16 kHz | RA | 5.5 | 1018.692 | 44 | 4 | > 54 | > 58 |
3 | 40 kbps /16 kHz | RA | 8 | 1278.820 | 35 | 5 | 43 | > 46 |
4 | 56 kbps /22 kHz | mp3 | 11 | 1786.680 | 25 | 7 | > 30 | > 33 |
5 | 80 kbps /32 kHz | mp3 | < 15 | 2552.400 | 17,6 | 10 | > 21 | > 23 |
5 | 80 kbps /32 kHz | RA | 16.0 | 2557.540 | 17,6 | 10 | > 21 | > 23 |
Tab 3: Kompression einer 264 Sek. langen *.WAV-Datei in CD-Qualität (Brandenburg. Konzert Nr. 1, Satz 3, Stiftsruine Bad Hersfeld 20.8.2000; Stereo 16-Bit /44,1 kHz), 46.621.216 Bytes, mit 6 div. Encodern zu (MP4-)AAC, LQT, MP3 und WMA. Ausgewählt wurde dieses Musikstück aufgrund seiner vielfältigen, für Kompressionsverfahren kritischen Instrumentierung (Violino piccolo, Oboe, Hörner, Cembalo usw.).
Nr. | Dateiname | Encoder*) / | Encoding Mode / Bit Rate |
Länge Bytes |
Kompr- Faktor |
kB/ sec |
Stunden / CD | ||
Mode Preset | 20' | 74' | 80' | ||||||
1 | m6vq-020.vqf | vq2 / vqf | Stereo 20 kbps | 660.531 | 70,6 | 2,5 | 23 | 85 | 92,4 |
2 | m6wm-020.wma | wm7 /wma | Stereo 20 kbps | 674.295 | 69 | <2,6 | 23 | 85 | 92,3 |
3 | m6ac-028.lqt | lqf 5 /AAC | Stereo 28 kbps | 681.888 | 68,4 | 2,6 | 23 | 85,5 | 92,3 |
4 | m6hq-033.mp3 | ce1.2 / mp3 | 32 kbps /16 kHz | 1.057.824 | 44 | 4 | 15 | 55 | 59,4 |
5 | m6wm-032.wma | wm7 / wma | 32 kbps | 1.080.560 | 43 | 4 | 15 | 55 | 59,4 |
6 | m6ac-b56.lqt | lqf 5 /AAC | bright St. /56 k | 1.110.784 | 42 | 4,2 | 14 | 52,5 | 56,7 |
7 | m6ac-s56.lqt | lqf 5 /AAC | smooth St. /56 k | 1.110.820 | 42 | 4,2 | 14 | 52,5 | 56,7 |
8 | m6ac-is1.lqt | lqf 5 /AAC | ISDN 1 / 56 k | 1.639.856 | 28,4 | 6,2 | 9,6 | 35,5 | 38,3 |
9 | m6m3-isd.lqt | lqf 5 / mp3 | ISDN 1 / 56 k | 1.668.640 | 28 | 6,3 | 9,5 | 35 | 37,8 |
10 | m6hq-064.mp3 | FhG / mp3 | HQ 64 kbps | 2.104.960 | 22 | 8 | 7,4 | 27,5 | 29,7 |
11 | m6ac-064.lqt | lqf 5 / AAC | 64 kbps | 2.170.684 | 21,5 | 8,2 | 7,2 | 26,8 | 29 |
12 | m6m3-064.lqt | lq f 5 / mp3 | 64 kbps | 2.197.300 | 21,2 | 8,3 | 7,2 | 26,5 | 28,6 |
12a | m6av-096.epc | av2 / epac | 96 kbps | 3.134.098 | 14,9 | 11,8 | |||
13 | m6wm-096.wma | wm7 /wma | "CD" / 96 kbps | 3.196.166 | 14,6 | 12,1 | 4,8 | 18,2 | 19,8 |
14 | m6tf-128.aac | M4S / AAC | T/f 2x64 kbps | 3.350.624 | 14 | 12,7 | 4,7 | 17,5 | 19 |
15 | m6tf-144.aac | M4S / AAC | T/f 2x72 kbps | 3.561.863 | 13 | 13,5 | 4,4 | 16,3 | 17,6 |
16 | m6cp-128.mp3 | M3Cp / mp3 | Quick 128 kbps | 4.218.946 | 11 | 16 | 3,7 | 13,8 | 15 |
17 | m6hq-128.mp3 | FhG / mp3 | HQ 128 kbps | 4.219.623 | 11 | 16 | 3,7 | 13,8 | 15 |
*) [1] ce1,2 = Cool Edit Pro 1,2a mit Fraunhofer-MP3-Modul, Slider
9, Preemphasis 50/15
[2] FhG = Fraunhofer-MP3-Producer Pro 2.1
[3] lqf 5 = Liquifier Pro 5
[4] M3CP = MP3-Kompressor V. 0.9 mit FhG-HQ-Codec
(Beschleunigungsfaktor 3)
[5] M4S = MPEG4-Studio 1.0 (Build 124)
[6] wm7 = Windows Media Encoder 7 (zur Version
8 mit noch weiter verbesserten Codecs siehe unten)
[7] vq2 = SoundVQ Encoder 2.60b2e
[8] av2 = Audio Veda 2.0 (ePAC)
MP3-Dateien der Typen (4) und (10) können Sie auch mit dem
IBM-Thinkpad 755c (486er CPU) abspielen,
sämtliche Typen und Algorithmen mit dem Thinkpad 760 XL (P I/166
MMX) realisieren.
MP2, MP3, MP4 und die Konkurrenz
Im Herbst 2000 begonnen, befassen sich die folgenden Ausführungen mit allen damals verfügbaren Kompressionsalgorithmen (En- und Decoding). Die meisten Programme und Plugins waren schon Mitte 2003 nicht mehr im Internet abrufbar; hinsichtlich der wirtschaftlichen Kompressionsraten (> 20) haben *.mp3, mp3pro und *.wma überlebt sowie der Liquid Player (V. 6) zum Abspielen der *.lqt. Das (ebenso wie Lame lizenzfreie) OggVorbis wurde nicht getestet.
1. ISO-MPEG 1 Layer 2 (*.mp2) ist seit langem weltweiter Standard für komprimierte Audio-Aufzeichnung und -übertragung und wird besonders im professionellen Medien-Sektor (Pressewesen, Hörfunk) verwendet, z.B. für monaurale Reportage-Aufnahmen mit dem als "digitale Mono-NAGRA" fungierenden Marantz PMD 680 (Bild rechts), der im PCMCIA-Kartenslot via Adapter Compact-Flash-Karten der Typen I und II bespielt, die in Rechnern wie dem HP-Compaq-Notebook nx6110 (Pentium 4 /1,6 GHz; Windows XP prof.) und sogar dem alten IBM Thinkpad 760 XL (Pentium 1/166 MHz; Windows 98 SE) bei allen verfügbaren Bitraten (768-32 kBps / 48 kHz Sampling) auch in der als langsam geltenden PCMCIA-Schnittstelle unterbrechungsfrei eingelesen und (z.B. mit Winamp ab V.3) abgespielt werden können. Im August 2007 mit diesem Gerät unternommene Versuche ergaben im "Mittelspielmodus" bei 128 kBps (= < 1 MBytes / min.) sowohl mit Mikrofon wie am Line-Eingang mit TV-Ton eine Artefakt-freie HiFi-Qualität, die durchaus mit konventionellen Heimtonbandaufnahmen von 19 cm/s konkurrieren könnte, und selbst noch im LP-Modus bei 32 kBps entstand eine die wichtigen Sprachformanten berücksichtigende gute "Mittelwellenqualität", die allen Anforderungen an (protokollarische) Sprachaufnahmen und deren informationelle Auswertbarkeit genügt. Insofern eignet sich dieser zwar schon betagte, aber nach wie vor professionelle Kompressionsalgorithmus sehr gut für wissenschaftliche Tonaufnahmen in der Feldforschung und sogar bei Studioproduktionen, sofern mit 128 kBps oder mehr eine auch für phonetische Messungen taugliche Qualität erzielt wird.
2. ISO-MPEG 1 Layer 3 (*.mp3) wurde in mehreren Varianten besonders für (vorzugsweise stereophone) Musikdokumentation und -übertragung entwickelt und basiert ebenfalls auf psycho-akustischen Algorithmen. Es wird mit konstanter (=CBR) oder variabler (VBR) Bitrate komprimiert; beide Modi lassen sich mit den meisten MP3-Playern decodieren. Hochwertigste *.mp3 (oder als Variante komprimierte *.wav) erzeugen (mit vorwiegend CBR) die Fraunhofer-basierten Encoder, während andere Programme (z.B. Xing, mit VBR) wesentlich schneller, jedoch etwas weniger gründlich vorgehen. *.mp3 ist nur sinnvoll im HiFi-Bereich (ab 128kbps/44 kHz), während der Versuch, mit diesem Verfahren Spar-Modi (K-Faktor 70) wie beim unvergleichlichen Real Audio (s.o.) zu generieren, u.U. störende Artefakte hinzufügt und die dermaßen verschandelten Dateien unbrauchbar macht für wissenschaftliche Untersuchungen (Phonetik). MP4 ist derzeit noch etwas unscharf definiert (weil in Entwicklung befindlich) und wird häufig mit MPEG2-AAC (s.u.) gleichgesetzt. Das hervorragende AAC (=Advanced Audio Coding) wurde in Japan bereits Anfang 2000 zum alleinigen Standard im digitalen Rundfunk erklärt. Weitere Verfahren, teils fertig entwickelt, machen diesen Formaten heftig Konkurrenz.
Zur Tabelle 2:
(a) Sofern in höchster Qualität (Cool Edit: Slider '9') und nach Fraunhofer IIS encodiert, klingen die in Tab. 2 angeführten mp3-Dateien () vergleichsweise natürlicher (keine Verfälschungen /Störgeräusche); nur Mode 5, RA (Dual ISDN) klingt brillanter als *.mp3.
(b) Der wirtschaftlichste mp3-Stereo-Mode [1] entspricht RA-Typ [12] , Bsp. [2a] in Tab. 1; beide Verfahren liefern eine ausgewogen klingende Mittelwellen-Qualität.
(c) Mode 4 hat kein RA-Pendant und klingt deutlich besser als der sparsamere ISDN-Stereo-Modus von Real Audio; hören Sie dazu den Auszug meiner Live-Aufnahme von Martin Weyer an der Bad Hersfelder Stadtkirchen-Orgel (10.4.1982). Die qualitativ weitergehenden, jedoch weniger ökonomischen mp3-Modi werden hier nicht einbezogen.
Die Fraunhofer-Codecs zählen bislang unverändert zu den besten Kompressionsalgorithmen; MP3pro (s. unten) läßt eine weitere Qualitätssteigerung erkennen. Auch das neue 24-Bit-fähige Freeware-Plugin MAD (MPEG Audio Decoder) von Mars liefert zusammen mit WinAmp 2.76 (6/2k1) gute Abspielergebnisse für alle mp3-Dateien, funktioniert allerdings nicht mit LAME-encodierten files.
Ausführlichen "Anhörungsunterricht" bieten MP3pro-Samples (96
kBps = Kompressionsfaktor 15) meiner (seit Anfang 1981 nichtkommerziell
durchgeführten)
Live-Aufnahmen in:
http://wnaeser.wn.ohost.de/Samples/ .
Das hervorragende Programm Streambox Ripper (V. 2.011) ermöglicht in seiner registrierten Form uneingeschränkten Batch-Betrieb und kann hier auch von einem mp3-Format (z.B. 64 kbps / 22 kHz) in ein anderes (96 kbps / 32 kHz) konvertieren.
Der wohl beste Player für mp3 und mp3pro ist WinAmp (derzeit V. 2.81) mit den entsprechenden Plug-ins; die neue Version 3 kann bislang noch keine mp3pro abspielen. Falls beim Start das Fehlen von mac_info.dll angemahnt wird, müssen Sie Monkeys Audio (mac_397f.exe, 3,062 MB) als Plug-in (erneut) installieren.
MP3-ABSPIELGERÄTE (Hardware) MIT CD-LAUFWERK
Während die winzigen MP3-Player mit Internet-Einspeisung und / oder RAM-Speicherkarten (32 bzw. 64 MB) eine Spielerei bedeuten, sind die mit CD-Laufwerken ausgerüsteten Geräte vielseitiger und daher nützlicher. Wie bei "normalen" CD-Playern gibt es auch hier portable und "stationäre" Modelle; die kleinen "Flundern" können nur selten weniger als 96 kbps in voller Länge abspielen. Stationäre Geräte, äußerlich wie konventionelle CD-Player ausgelegt, gab es zunächst ausschließlich für MP3, heute handelt es sich um Mehrzweck-Laufwerke, die sowohl DVD, VCD, CD, CDR, CDRW und MP3 wiedergeben können; seltsamerweise sind eher die billigen DVD-Player auch MP3-tauglich, während die oft doppelt oder dreifach teureren Varianten auf dieses Feature verzichten. Ein vom Preis-Leistungsverhältnis wahres Wunder ist der SEG-Player "Beverly Hills", der zu einem Durchschnittspreis von ca. 150 Euro (April 2002) nicht nur DVDs in excellenter Qualität reproduziert, sondern auch und gerade MP3 (das angeschlossene TV-Gerät fungiert als Monitor). 64 kpbs Stereo klingt (an einer guten Stereo-Anlage) in vielen Fällen wie das unkomprimierte Original, und selbst 24 kbps Mono wird noch in voller Länge abgespielt, wodurch es z.B. möglich ist, eine mit rund 18 Stunden Audio vollgepackte 8-cm-CDR mit dem SEG abzuspielen. Es ist anzunehmen, daß sich in diesem Gerät ein weit über den Preisrahmen hinausweisender, exzellenter Wandler-Chip befindet, der auch das neue MP3Pro-Format in bestmöglicher Weise verarbeitet.
3. (MPEG 2)-AAC bietet bei 96 kbps dieselbe Qualität wie MP3 bei 128 kbps, ist jedoch mit diesem nicht kompatibel. Ebenso unverträglich untereinander sind die AAC-Varianten a2b (AT&T), LQT (Liquid Track, nach Fraunhofer-IIS), ISO-AAC (z.Zt. PsyTel) und Astrid.
3.1 Liquid Audio gilt bislang als hochwertigste AAC-Spielart und verwendet zudem AC-3 Dolby Digital. Sog. Liquid Master Files (*.lqm) werden vom Fraunhofer-kompatiblen Liquifier Pro 4 und 5 erzeugt. Als Clips bzw. Songs dienen sie zum kommerziellen Download via Internet und können mit bestimmten Zusatzinformationen (Kaufangebote, "Wasserzeichen") versehen werden.
Der Liquifier kann maximal 5 verschiedene Formate bis hin zur CD-Qualität in einer einzigen Datei verpacken. Für den Standalone-Betrieb bzw. interne Präsentationen eignet sich das Liquid-Track-Format (*.lqt), das sich, aus *.lqm mit dem einfachen Dienstprogramm lqm2lqt gewonnen, off-line mit dem (Freeware =) Liquid Player 5 abspielen läßt.
Beobachtungen an im Nov. 2000 erstellten Dateien*) mit einem Bullman-Notebook EK4 P4 an dessen Lautsprechern und WinAmp 2.91 (Juni 2003):
*) Das lqt-Plugin V. 104 (in_lqt.dll, 32.768 Bytes + lqmod.exe = 1.300.902 Bytes) verarbeitet nur vom Liquifier Pro 4.0 im 96-kbps-Mode erzeugte Dateien, V. 106 ist ebenso ungeeignet; in_liquid.dll (102.400 Bytes, im WWW nicht mehr abrufbar) dagegen sämtliche Modi.
3.2. ISO-AAC wird erzeugt mit dem von "Stammvater" Ivan
DIMKOVIC (PsyTel Research) entwickelten MPEG-4-Studio;
publiziert wurden bisher zwei Versionen:
3.2.1. Build 124 (nicht mehr erhältlich): der Encoder
(UPX = 389.632 Bytes) arbeitet unter DOS wie auch via Front-End (UPX = 102.400
Bytes), ist sehr schnell und erzeugt im voreingestellten HQ-Modus
T/F AAC*)
T/F-AAC klingt generell mindestens ebenso gut wie das um 20 %
größere Fraunhofer-MP3 (Tab. 3, 16+17). Eine kritische
Stereo-Aufnahme mit Sprecher vor dem Einpunkt-Mikrofon wurde selbst bei K=11
nur mit T/F-AAC naturgetreu gewandelt, nicht jedoch (Verfälschungen
bei /s/, /sch/) mit FhG-MP3 (!). Auch spätere Versuche (November 2003)
zeigten, daß ab 112 kbps encodiertes T/F-AAC allen anderen Verfahren
(incl. mp3pro und wma 9) mindestens ebenbürtig ist.
3.2.2. Build 191 (nur noch vereinzelt erhältlich) ist
'schlanker' (Kern = 126.464 bzw. [Patch] 127.488, Frontend 106.496 Bytes),
akzeptiert nur 44,1 kHz Stereo/16 Bit, ist wesentlich langsamer
und verarbeitet außer AAC-Main-auch die Profile LC und
SSR mit kleineren Bit-Raten+). Mit neuer Web-Site
präsent, hat PsyTel seine Codecs überarbeitet und liefert als neueste
(12/2000) Demo eine (ebenfalls sehr langsame!)
Kommandozeilen-Version (Encoder: aaenc.exe + la32math.dll;
Decoder: neuentwickeltes in_aac.dll für WinAmp); Befehlszeile:
aaenc -if in.wav -br
[kbit/s]. In den getesteten Modi (32 und 64 kbps) lag die
tatsächliche Bitrate mehrere kbps höher. In beiden Fällen
wurden nur max. 50% der Vorlagen encodiert, die Resultate konnten nicht
überzeugen. In Verbindung mit dem neuen, universell anwendbaren Verfahren
SBR (s. unten) soll AAC bei mehr als 50% Ersparnis denselben Klang
ergeben wie eine 'normale' *.aac.
Weitere Versionen:
3.2.3. Das AAC-Encoder-Plugin von Nero Burning ROM (aac.dll
= 847.872 Bytes; aacenc32.dll = 802.816 Bytes; aacmp32.dll = 49.152 Bytes)
erzeugt *.mp4 und erbringt ausgezeichnete Resultate; die Dateien sind
mit Winamp und dem der neuesten Version 5 beigefügten Plugin
in_mp4.dll (UPX = 157.696) abzuspielen, das auch alle *.aac
verarbeitet. Nero's Mp4-Entwickler Ivan Dimkovich (s.o.)
präsentiert zur CeBit 2003 das (künftig optierbare)
3.2.4. MPEG-4 High Efficiency AAC, das in den Versionen ab
6.6 enthalten ist und den vorläufig höchsterreichbaren
Qualitätsstandard in den ökonomischen Kompressionsraten ab 20
darstellt. Ein mit dem Nero Wave Editor 2.0.0.58 und Kompressionsfaktor 22
(64 kBit/s konstant) erzieltes Beispiel ist der am 10. Juli 2005 in der
Marburger Lutherischen Pfarrkirche mit dem Marburger Bachchor und dem
Barockorchester L'arpa festante München von mir live aufgenommene Chor
"The Lord gave the Word" (in G.F. Händels 1741 komponiertem "Messiah"),
den Sie hier hören können.
Wesentliche Klangunterschiede der nur 607 kB großen *.mp4-Datei zum
immerhin 13,1 MB großen *.wav-Original sind mit den Notebook-Lautsprechern
nur schwer wahrnehmbar.
3.2.5. Auf der Basis des von z.Plane und dem
Heinrich-Hertz-Institut der Fraunhofer-Gesellschaft entwickelten
zAAC-Encoders bringt afterdawn.com den Encoder Compaact
heraus. Das aus 12 Modulen bestehende, 5,7 MB (unkomprimiert) umfassende
Programm arbeitet sehr schnell und erzeugt z.B. im 96kbps-Modus ausgezeichnet
klingende Samples anspruchsvoller Klassischer Musik.
--------------
*) "In a t/f coder, the input signal is first decomposed into a time/frequency
(t/f) spectral representation by means of an anylysis filterbank prior to
subsequent quantization and coding" (Fraunhofer-IIS, MPEG-4,
Overview)
+) einzig mit dem FAAC-Plugin in_aac.dll
(27.10.2k1, UPX=107.520 Bytes) werden alle mit Build 191 erzeugten
Bit-Raten sauber abgespielt (und pauschal als "128 kbps 44 kHz" erkannt);
64 kbps-*.aac (Sprache Stereo) klingt wie die größeren Pendants
(112 /128 /144 kbps),
3.3. Mit den beiden vorgenannten inkompatibel (und daher ausschließlich mit dem KJÖFOL-Player abspielbar) ist *.aac von Astrid Quartex (Encoder: aacenc.exe, 1.707.936 Bytes, Decoder: aacdec.exe, 541.420 Bytes, beide nicht komprimierbar; Frontend: EasyAACv121.exe, UPX=70.656 Bytes). Das Verfahren akzeptiert bislang nur 44,1 kHz-*.wav; die testweise aus 37.973.260 (Stereo) zu 1.745.554 Bytes komprimierte Sprach-Datei (K=21,8) klingt ausgezeichnet.
4. Weitere Kompressionsverfahren sind u.a.**):
VERSUCHE ZU WMA 8 und 9:
[1] (15.5.2k1) Mit Cool Edit pro 1.2a aus eigener dialektologischer
Feldaufnahme eine 3' 45" lange und 39.599.320 Bytes umfassende Datei
(CD-Qualität, 44 kHz Stereo) erstellt, die mit dem neuen
WMA8-Codec im Modus 32 kpbs / 44 kHz Mono zu nur 920.874
Bytes komprimiert wurde. Qualitätsunterschiede zum 43mal
längeren Original sind kaum festzustellen; das zeigte sich jedoch
auch schon bei WMA 7.
[2] (16.5.2k1) Die inzwischen editorisch zu 37.973.260 Bytes
gekürzte Original-*.wav im Modus 20kbps / 22kHz Mono zu
558.218 Bytes komprimiert, das entspricht einem K-Faktor von
68; dennoch fast klangidentisch mit [1] und auch für
dialektologische Präsentation als verlustfrei zu betrachten.
Aus dieser Einspielung hier die Wenker-Sätze
zwei (12.158 Bytes) und
neun (20.780 Bytes).
Versuche, das sehr scharf klingende Original [1] und [2] jeweils als
Stereo-*.wma zu encodieren, erbrachten unnatürlich
scharfe, etwas schwimmende Resultate, während sich
die Kompression Stereo => Mono in bezug auf Störfreiheit
und Klangneutralität als ideal erwies.
[3] (16.5.2k1) Versuche, mehrere mit Stereo-Tonkopf abtastend
auf CD überspielte, später als 64-kHz-*.mp3 archivierte, mit starkem
Knistern durchsetzte frühe Aufnahmen (1936) des "Lautdenkmals" nach
Re-Konversion zu *.wav mit Cool Edit zu "reinigen" und dann zu *.ra oder
*.wma mono zu re-encodieren, führten zu sehr dumpf
klingenden Dateien. Zweikanalig erbrachte allein der Modus
32kbps/32 kHz annehmbare Resultate, während stärker
reduzierende Modi klanglich inhomogenen Sprachfluß mit
störenden Artefakten produzierten. Aus alledem könnte man
folgern, daß bei solchen Operationen Phasenbeziehungen und damit
Korrelationsgrad des aus welchen Gründen auch immer
zweikanalig erstellten Originals eine bedeutende Rolle spielen.
[4a,b] (19.5.2k1) Pre-Emphasis und Korrelation der 6/91
mit Eigenbau-Einpunktstereomikrofon (zwei schwenkbare Kugel-ECM-Zwillingsmodule
auf Traverse) und TCD5M gemachten analogen Aufnahme des Großseelheimer
Sprechers (s.o. [2]) sind anscheinend so günstig, daß selbst
bei 260,7-facher Datenreduktion mit dem ökonomischsten
*.wma-Algorithmus (5 kbps mono, 145.664 Bytes) noch ein durchaus
präsentables, allerdings mit 'künstlichem Raumklang' unterlegtes
Resultat herauskommt, während die (am 2.6.2k1) mit 285-facher
Reduktion (5 kbps mono, 133.300 Bytes) erzeugte
Real-Audio-Datei ebenso gut
durchhörbar ist, aber neutraler und natürlicher klingt. Ein mit
hoher Pre-Emphasis zu Real Audio 5 / 16kBps mono wide (K-Faktor
88) encodiertes Sprachsignal ist in bezug auf Klang (Bandbr. 8 kHz)
und Datenökonomie (2 kBytes je Sekunde) noch immer eine gute Alternative
und läßt sich außerdem von jeder Homepage aus auch als
Audio-Stream (*.ram) abrufen.
WMA 7 und 8 zeigen interessante und durchaus angenehme Effekte
bei anspruchsvoller Musik (Bach, Osteroratorium und
Magnificat); diese klingt schon bei 64 kBps / Stereo frisch und stark;
besonders bei Instrumental- und Vokalsoli hat man den Eindruck, daß
Wesentliches verstärkt wird.
[5] (19.6.2k1) Stereo-Dialektsketch (Schwalm, 6.6.2k1;
12.165.268 Bytes): auch die Modi 48 kBps/44.1 kHz (427.613
Bytes) und 32 kBps/44.1 kHz (288.322 Bytes) klingen noch ansprechend und
natürlich. Ich empfehle, jeweils die höchste Sampling-Frequenz
zu wählen!
[6] Verglichen mit Real Audio /32 kbps arbeitet
WMA 9 /(20 oder) 22 kbps wirtschaftlicher und
klangschöner. Aus diesem Grunde habe ich in meiner
Lautdenkmal-Seite nachstehende Proben
entsprechend umgearbeitet; mit 32 kbps klingt die Frankfurter
Aufnahme überragend:
* Frankfurt am Main (282 / U' 19,17;
red. bearb.; 3. Fassung 25.5.2k3 /wv/hl, wma9) * Freudenstadt /Schwarzwald (163 / p' 17,3; red. bearb.; 3. Fassung 25.5.2k3, wma9) * Kassel (281 / F' 23,10; 5. Fassung [leicht gekürzt] 23.1.2k2 /wv; 25.5.2k3, wma9) * Norddeich /Norden (Ostfriesland; 219 / C 9,1; red. bearb., 30.11.2k1 /wv; 2. Fassung 25.5.2k3 /hl, wma9) * Pantenburg /Wittlich (Eifel; 248 / U' 8,5; red. bearb., 18.4.2k3 /hl/wv, wma9 22.5.2k3) * Wulfen / Recklinghausen (229 / A' 9,1; 3. Fassung 25.5.2k3 /hl, wma9) |
Den State-of-the-Art der angewandten WMA-Kompression repräsentiert der
im Oktober 2006 eingeführte Olympus-Kleinstrecorder WS-200S.
-> hierzu mein
Erfahrungsbericht.
MP3Pro in Vollendung
1. Seit dem 25.8.2k1 kann eine verbesserte Version (1.02) des
64-kbps-Encoders/-Players als "evaluation package" geladen werden; erstmals
ist auch das langersehnte Winamp-Plugin verfügbar. Diese Kombination
testete ich am selben Tage mit anspruchsvollster Musik: meiner Live-Aufnahme
des ersten Satzes von Beethovens Violinkonzert D-Dur op. 61, sechs Tage zuvor
himmlisch dargeboten von Elisabeth WEBER und dem Prager
Dvorák-Sinfonieorchester unter Stanislav BOGUNIA in
der Bad Hersfelder Stiftsruine. Die bis in die allerhöchsten Lagen
jubilierende Geige stellt entsprechende Anforderungen an Hard- und Software.
Das 24' 38" lange Stück wurde mit meinem P III/800
(Gericom-Webboy) in 8' 59" (mit durchgehend
2,7-facher Geschwindigkeit) zu 11.834.433 Bytes komprimiert; die
Wiedergabe via Winamp-Plugin ist überragend - praktisch
kein Unterschied zum Original. Leichte Probleme gab es dagegen bei einigen
schnell bewegten Chor-Passagen, die mit WMA8 / 80kbps verfärbungsfrei
encodiert werden konnten.
2. NEROs Wave-Editor enthält ab Version 5.5.5.1
ein MP3pro-Modul, das Raten von 32 kBps mono bis 96 kBps stereo
verarbeitet. Die bereits mit 32 kBps stereo erzielbare hohe Qualität
zeigte sich eindrucksvoll in meinem Ottrauer Dialektsketch, dessen
Original-Länge (*.wav) von 48.620.584 Bytes ohne relevante Verluste
auf nur 1.102.182 Bytes (*.mp3) reduziert wurde; das bedeutet einen K-Faktor
von 44. Ein Orgelstück mit Trompeten-Register (59.837.128 Bytes)
wurde mit K=35,29 zu 40 kbps/44.1 kHz komprimiert und zeigte in
Winamp 2.78 mit dem neuen MP3Pro-Modul noch beachtliche
Klangqualität. Mit mp3pro / 48 kb encodierte, sehr
detailreiche Mundart-Beispiele finden Sie
hier.
MP3-Wiedergabe-Geräte
In den letzten drei Jahren wurden zahlreiche stationäre und portable
Geräte entwickelt, die auch Datenträger mit MP3-Dateien
abspielen können; davon wurden getestet:
a) der Roadstar-PCD 3025 MP,
b) der Riovolt SP 50
(Abbildung hier) und
c) die Thomson Lyra Personal Jukebox PDP 2820
(a) und (b) sind flache, batterie- und akkubetriebene
"Discman"-Geräte und können sowohl handelsübliche und
selbsterstellte Audio-CDs wie auch solche mit MP3-Files abspielen; während
(a) bei kontinuierlich rotierendem Laufwerk *.mp3 erst ab 96 kBit/s
in voller Länge reproduziert, liest (b) zunächst die Datei
voll ein, stoppt dann und spielt die jeweils letzten zwei Minuten aus dem
Speicher (was nicht nur die Stoßfestigkeit wesentlich verbessert, sondern
auch den Stromverbrauch reduziert); zudem werden alle MP3-Formate
bis hin zu 24 kBps vollständig und klangrein verarbeitet.
(c) Bei
einer Größe von nur ca. 13 x 7,6 x 2,8 cm und 312 g Gewicht ist
die PDP 2820 (die es inzwischen auch in einer drahtlosen
Version gibt) mit ihrem eingebauten Mikro-Computer und
Massenspeicher ein kompaktes Wunder an feinmechanischer Präzision
und performativer Vielseitigkeit. Die mit 5-VDC-Schaltnetzteil oder von internem
Lithium-Ionen-Akku (max. 12 h Wiedergabezeit) betriebene Personal
Jukebox (Digi-Foto re.) enthält eine mit FAT 32 formatierte,
autonome 20-GB-Festplatte (4.200/min., 12 ms), interne
Dateiverwaltung, einen digitalen Signalprozessor (DSP) mit
Equalizer, einen mit interner Software gesteuerten Decoder
für MP3 und MP3 pro (=> Bild
li.; mit Update der mp3.exe = 374.657 Bytes v. 9.1.2k3) und
WMA 7 (s. unten) sowie einen DA-Wandler mit
Kopfhörerverstärker. Im Lieferumfang enthalten sind:
USB-Kabel, (teilweise umschließende) Gürteltasche
(mit Clip), Autoradio-Koppelcassette, Autoadapter für
12 V, Stereo-Hörer mit Hinterkopfbügel und eine CD
mit PC-Software für Installation und MP3-Coding (MusicMatch Jukebox
6.1, im WWW Update auf 7.5; MP3Pro-Modul nur in Plus-Version
aktiv). Via USB (1.1) angekoppelt, dient die Lyra als externe
20-GB-Festplatte.
Als vollwertiges
(und damit auch Backup-fähiges!) Zusatzlaufwerk erkannt
und ins PC-System eingebunden, verträgt sie alle entsprechenden
DOS-Operationen,
also nicht nur das Anlegen von Pfaden sowie das Einspielen,
Überschreiben und Löschen aller Arten von Dateien, sondern
auch ZIP-Exploring, das Offline-Betrachten einer komplexen Homepage (mit
hunderten von Directories) und eine Defragmentierung mit dem
Diskeepertm (re: aus dem Report vom 12.1.2k3; die
Zahl von 1.178 Directories erklärt sich u.a. aus einer über 1,6
GB großen WWW-Site mit umfangreicher Datenbank, die sich problemlos
von der Lyra auslesen läßt). Die eingespielten *.mp3 lassen sich
entweder via USB einlesen und im PC mit einem beliebigen Player abspielen
oder - ohne PC - autonom von der Lyra via Line out oder dem
Kopfhörerausgang (beide regelbar) in eine beliebige Stereoanlage
einspeisen; das 8 MB große interne SD-RAM (!) dient als
Zwischenspeicher, was bei 128 kBps MP3 (CD-ähnl. Qualität) mindestens
8 Minuten rüttelfeste Wiedergabe ermöglicht. Nach jeder Änderung
der Lyra-Datenstruktur nimmt das Gerät auf Wunsch eine interne
Überprüfung (Profiling) vor; auch zahlreiche neu angeordnete Pfade
und tausende von Dateien lassen sich danach mit den Pfeiltasten und dem Display
ansteuern. Mit dem internen Decoder werden selbst 24-kBps-Dateien (->
Lautdenkmal) problemlos reproduziert;
die im 64-kBps-Modus (20-fache Datenreduktion) mit verschiedenen Live-Aufnahmen
(z.B. Zauberflöte; incl.
Beifall, s.u.) getestete Wiedergabe an einer Stereoanlage und im
beiliegenden Kopfhörer ist erstaunlich gut; mit 96kBps/MP3Pro encodiertes
kritisches Programm-Material läßt keine Wünsche offen. Sofern
das eigentlich für den kleinen RCA-64MB-Player entwickelte Programm
wma.exe (81.145 Bytes, 26.5.2k) in den System-Ordner der PDP eingespielt
und aktiv ist, spielt das Gerät auch WMA-7-Dateien;
erfolgreich getestet wurden die Formate 8 kBps Mono (MW-Qualität, noch
gut verständlich) sowie in Stereo 48 kBps (UKW-Qualität) und 96
kBps (sehr gut, wie CD-Qualität). Die Thomson Lyra Jukebox sollte
zur Standardausrüstung eines jeden Musik- oder Sprachpädagogen
gehören.
[7] Inzwischen (Stand: 2011) haben sich viele Vorteile der
WMA-Codierung in Luft aufgelöst und ist für all jene, die im Vertrauen
auf nachhaltige Anwendbarkeit solche Files encodiert haben, eine untragbare
und sehr ungerechte Situationn entstanden. Ich habe seinerzeit z.B. von einer
mit selbsterstellten Samples entworfenen und in Lehrveranstaltungen eingesetzten
Mundart-CD wma-Dateien erstellt; bei dem Versuch, diese abzuspielen oder
in einen Konverter einzulesen, werde ich ein Jahrzehnt später seitens
des Softwaregiganten Microsoft mit der Meldung konfrontiert, jede diese Dateien
verlangten eine besondere Lizenz, sie müsse heruntergeladen werden
und die Vergabe der Lizenzen werde protokolliert. Ist die Lizenz erteilt,
kann nun die *.wma zwar (mit Winamp) abgespielt, jedoch nicht
z.B. mit einem Konverter oder Audio-Editor verarbeitet werden. Ich
habe nichts gegen digitales Rechte-Management bei kommerziellen (Ton-
und Video-) Dateien, halte diese auch privat erzeugte Dateien betreffende
Zwangsregelung jedoch für unverschämt.und kann durchaus
nachvollziehen, wenn sich Betroffene darum bemühen, praktibale Auswege
zu finden.
**) Erfahrungsberichte folgen. ++) so jedenfalls eine griechische Quelle
Trotz aller Verbesserungen und Neuentwicklungen darf
nicht unterschlagen werden, daß in besonders kritischen
Programm-Materialien (akustischen Prozessen) Kompressionsgrade von 20
und mehr dem originalen Klangbild und -verlauf möglicherweise
gewisse Anteile entziehen, die im einen Falle (Sprache als
Kommunikation und nicht als Meßobjekt) irrelevant und
daher entbehrlich scheinen, in anderen Klangformungsprozessen jedoch
zweifelsfrei fehlen: so zeigten sich beim Abhören einer mittels des
neuen, zum Easy CD Creator 5 gehörenden Programms
Soundstream aus *.wma re-konvertierend auf CD gebrannten Live-Aufnahme
(1995) deutliche Mängel beim stereophon dokumentierten
Beifall, der ziemlich unnatürlich wirkte. Ich habe daraufhin
anhand einer exzerpierten Beifall-*.wav (5.460.028 Bytes) untersucht,
wie verschiedene Kompressionsalgorithmen mit diesem anscheinend kritischen
Programm-Material umgehen; zur Wiedergabe diente WinAmp 2.75, die Ergebnisse
zeigt folgende Tabelle (Änderungen und Ergänzungen vorbehalten!).
Anm.: Organische Fitness des Hörers/Beurteilers sowie
Phasenverhalten und Klangeigenschaften der Wiedergabe-Anlage
können den Höreindruck ebenso beeinflussen wie ggf. Unstimmigkeiten
bei den geladenen Treibern; aufgrund in Abständen wiederholter
Hörvergleiche wurde untenstehende Tabelle mehrmals erweitert und
umgeschrieben, die Beurteilung kann nicht als endgültig gelten. Unterschiede
zeigen sich deutlicher besonders bei didaktischen Präsentationen
in Hörsälen, wo bei größeren Lautstärken
Verfärbungen und Artefakte stark datenreduzierter Audiosignale
stärker zur Geltung kommen als in kleinen Räumen.
Nr. | Datei | Bytes | Typ / Stereo.Modus | kBit/s | Samp | Komp | Klangbild / Durchzeichnung | Note |
1 | appl-32.ra | 124.088 | Ra 5, 5 kHz | 32 | 44 | MW-Qualität, schwimmend | 4- | |
2 | appl-32.vqf | 124.251 | Twin-VQ | 32 | 16 | 44 | etwas heller als [1] | 4+ |
3 | appl-32.wma | 132.122 | WMA 8 | 32 | 41,3 | schwimmend, metallische Spitzen | 4- | |
4 | appl-L40.mp3 | 154.800 | Lame CBR 3.88 | 32 | 35 | Mittelwellenklang | 4 | |
5 | appl-20.vqf | 154.952 | Twin-VQ | 40 | 22 | 35 | etwa wie [7] | 3 |
6 | appl-40.mp3 | 155.160 | FhIIS | 40 | 35 | etwa wie [7] | 3 | |
7 | appl-40.ra | 155.620 | ISDN | 40 | 35 | heller als appl-40.mp3 | 3+ | |
8 | appl-40.wma | 164.378 | WMA 8 | 40 | 32 | 35 | etwas heller als [7], metallisch | 2- |
9 | appl-48.mp3 | 186.192 | WMA 7 | 48 | 30 | neutral | 2 | |
10 | appl-48.wma | 194.936 | WMA 8 | 48 | 44.1 | 28 | etw.breitbandiger, leiser als [7] | 2 |
11 | appl-mj56.mp3 | 217.234 | MMJB 6, CBR | 56 | 25 | etwa wie [10] | 2 | |
12 | appl-64.mp3 | 247.104 | FhIIS in AAPS 2.04 | 64 | 22 | neutral, kräftig | 2 | |
13 | appl-64.vqf | 247.510 | TwinVQ | 64 | 22 | wie [12] | 2 | |
14 | appl-L64.mp3 | 247.640 | Lame CBR 3.88 | 64 | 22 | bedeckt gegenüber [12] | 2- | |
Thomson Lyra | (Stream) | MP3, Intern-Decoder | 64 | 22 | klar, neutral | 1-2 | ||
15 | appl-pro.mp3 | 248.605 | MP3Pro (Demo-Enc.) | 64 | 22 | hell, klar, wenig verfärbt*) | 1- | |
16 | appl-64.wma | 261.836 | WMA 8 | 64 | 21 | hell-metallisch, etwas schwimmend | 2 | |
17 | appl-80.ra | 310.660 | 2xISDN | 80 | 17,6 | hell, klar | 1 | |
18 | appl-L80.mp3 | 309.600 | Lame CBR 3.88 | 80 | 17,6 | hell, klar, neutral | 1 | |
19 | appl-96.mp3 | 371.531 | FhIIS V.1 Build 63 | 96 | 14,7 | klar | 1 | |
20 | appl-96m.aac | 372.547 | AAC Main (MBSoft)°) | 96 | 14,7 | klar | 1 | |
21 | appl-96.wma | 391.118 | WMA 8 | 96 | 14 | klar | 1 | |
22 | appl-112.aac | 435.034 | TF-AAC, PsyTel 1.24°) | 112 | 12,6 | klar, brillant, völlig neutral | 1 |
*) kein Wiedergabe-Klangunterschied zwischen WinAmp 2.75 (in_mp3.dll)
und mp3proplayer.exe (UPX=378.880 Bytes)
°) mit WinAmp-Plugin in_aac.dll (128.512 Bytes)
In diesem Beifall-Test hielten die neuen WMA-8-Algorithmen nicht immer das, was sie versprachen: 64 kBps brachte noch keine CD-Qualität, andererseits erbrachten 48 kBps bei 44.1 kHz Sampling-Frequenz ein zwar leises, doch sauber und neutral wirkendes Klangbild; MP3pro [8] bringt in unserem ersten Versuch bei 64 kBps eine deutliche Verbesserung und entspricht mit seinem 'luftigen' Klang etwa den 80kBps-Modi. In einigen Fällen hat sich mit WinAmp oft erst nach ca. 1/2 Sekunde ein stabil bleibendes Klangbild aufgebaut. Der für andere Signale (s.o.) ideale Lame-Encoder (V. 3.88) klingt hier bei 64 kBps (CBR und VBR) weniger durchsichtig als sein Fraunhofer-Pendant und entfaltet seine Stärke erst bei 80 kBps. Das in bezug auf Phasen- bzw. Korrelationsprobleme unempfindliche Real Audio produziert in sparsamen Stereo-Modi wenig oder keine Artefakte, sondern reduziert eher die Bandbreite, während WMA 7 und 8 bei 'psychedelischem' Stereo-Encoding ab K=>35 zunehmend befremdliche Verfärbungen erzeugen, jedoch bessere Resultate erzielen, wenn Stereo=>Mono encodiert wird (s. auch oben). Das noch bei 64-kBps überraschend verfärbende AAC behauptet sich im "Main"-Mode bei 96 kBps und erreicht als TF-AAC bei 112 kBps eine schon oben (für korrelationskritische Mikrofonaufnahmen) festgestellte Spitzen-Position.
Ähnlich kritisch wie beim Applaus gestaltet sich das Encoding eines angeschlagenen Hi-Hat im Schlagzeug von Jazz-Combos und Big-Bands, wo vermutlich ähnliche Spektralanteile und Schallverläufe entstehen.
Nach unseren bisherigen Erkenntnissen wird wohl immer vom jeweiligen Programm-Material (Sprache, E-/U-Musik, Klangkörper und -struktur) abhängig individuell zu entscheiden sein, zu welchem Typ (*.ra, *.mp3, *.vqf, *.wma) und mit welchem Grad das Signal zu komprimieren ist bzw. noch komprimiert werden kann. Hierzu noch folgendes zur Klarstellung:
Direkte Kompression durch Audio Capture und CD Ripping
Wie bereits oben zu Real Audio unter 1 (b) beschrieben, können Sie bestimmte Programme als Hardware-simulierende Devices nutzen, an deren Eingang Sie entweder live generierte Audio-Datenströme einspeisen oder als digitale Konserve eine CD(R), deren Spuren eingelesen (ripped) werden. Diese Programme wandeln die eingelesenen Informationen direkt um in entsprechende Kompressionsformate:
Programm erzeugt
Audio-Formatdurch / *nach file
conversionconstant
stream captureCD
rippingReal Audio Encoder 3.1 *.ra (3 und 5) X X Real Producer G2 8.5 *.rm X X Real Jukebox *.ra, *.mp3 X X Audio Active Production Studio (AAPS) 2.04 *.mp3 X X Windows Media Encoder 7 + 8 *.wma 7 X X Sonic Foundry Sound Forge 5.0 *.rm /mp3 /wma 7 X *X dB PowerAmp Music Converter *.ra,*.mp3pro, wma8 usw. X X Music Match Jukebox (MMJB) 6.0 *.mp3, *.wma 7 X X X
Wie durch eigene Versuche ermittelt, eignen sich nicht alle CD(R)- oder
DVD-Laufwerke für dieses Verfahren; das im
Gericom-Webboy eingebaute
TORiSAN DRD-U824 produzierte ohne optionale
Fehlerkorrektur mit der Music Match Jukebox V. 6.0 (64-kBit-)*.wma,
die vom Start weg in kritischen Höhenbereichen (z.B. Schlagzeug: Hi-Hat)
immer mehr zischelten bzw. nach Leslie-Sound klangen, während
der an diesem Notebook via LPT1 angeschlossene, bereits betagte HP-Brenner
7100e (2x2x6x) mit bis 3-facher Einlesegeschwindigkeit in allen entsprechenden
Fällen gleichbleibend gute Resultate lieferte. Die
Wandler-Qualitäten des neuen Sound Forge 5.0 sind
überragend, desgleichen die mit dB PowerAmp und dem hierbei
eingebundenen
RCA-Player/Konverter
erzeugten mp3pro-Files.
-------------------------------------------------------------------
Beim Test-Encoding verwandtes Equipment:
Wird ergänzt. Kommentare sind jederzeit willkommen.
(c) Dr. W. Näser, Marburg 12/96 ff.
[101] Stand: 9.6.2014 (zuletzt 29.9.2011)