Real Audio Definitions

Audio-Kompression mit Real Audio/ Real Media und anderen Verfahren
von Wolfgang Näser, Marburg ==> Mundart-Tonbeispiele

VORBEMERKUNG
Nachstehende Ausführungen widerspiegeln die Erfahrungen, die ich als Sprachwissenschaftler und in der Praxis der Tonaufnahme und -bearbeitung mit komprimierten Audio-Dateien sammeln konnte seit Anfang Dezember 1996, als diese Seite in meine Homepage integriert wurde; außer dem anfangs ausschließlich verwandten Real Audio ziehe ich vergleichsweise auch das besonders im Musik-Bereich vorteilhafte mp3-Format und weitergehende Entwicklungen (Liquid Audio, MP4-AAC, WMA, MP3PRO) heran und dokumentiere entsprechende Versuche (s. unten Tab. 2). Das folgende resultiert aus der Praxis; die Darstellung mathematischer Grundlagen kann hier nicht geleistet werden.

9.6.2014: Um Verständnis bitte ich dafür, daß aufgrund des mittlerweile über 17-jährigen Beobachtungs-Zeitraums im folgenden einiges etwas "durcheinander" läuft, da immer wieder Aktuelles angeführt wurde / wird. Aufgrund von Firmen-Schließungen u.a. sind viele Links inzwischen erloschen; neue (auch zu den angeführten Tonbeispielen) werden demnächst gesetzt.

Die "Mutter" der effektiven digitalen Audio-Kompression (und bis heute für Sprachpräsentation unübertroffen) ist das 1996 eingeführte Real Audio, ein zeit-/längenbezogenes Kompander- oder codec-Verfahren zu maximal ökonomischer PC-Dokumentation und Reproduktion "wirklicher" oder natürlicher Klänge bzw. Schallereignisse.

Real Audio wird in Form von Broadcasts und Clips im Internet angeboten; RA-Dateien können Sie aber auch selbst erzeugen, und zwar durch durch definierte Kompression in einem sog. Encoder, der, in den Versionen 3 bis 8 von www.real.com und anderen WWW-Servern lange Zeit zum Download angeboten wurde, bevor fast alle Links geschlossen und alle Encoder-Versionen vom sog. Helix Producer (V. 9)ersetzt wurden, der als "Basic"-Version frei und als "Producer Plus" für rund 200 $ erhältlich ist. Außer den schon von Version 5 (s.u.) bekannten Modi liefert er Bit-Raten von 100 bis 1500 kbps.

Im Vergleich der Versionen 3, 5, 8.5 und 9 zeigt sich der Real Audio (Live) Encoder 3.1 in seiner 32-Bit-Version (Info links) in bezug auf Qualität : Wirtschaftlichkeit allen anderen überlegen. Eine 7.046.552 Bytes lange *.wav encodiert er im Modus RA 3.0 / 16 kbps full sauber zu *.ra mit nur 159.392 Bytes (die mit dem Real Producer Plus 8.5 erzeugte single-rate *.rm von 169.431 klingt schlechter!), während die "sparsamste" *.rm-Variante des Helix Producers Basic im Modus "12 k Substream für 28k Dial-up" die dreimal längere *.rm von 499.969 Bytes erzeugt, die in puncto Brillanz etwa identisch ist mit der vom Encoder 3.1. generierten *.ra, die bei 32 kbps / mono dennoch nur 319.972 Bytes umfaßt.

Werden keine neueren Daten-Modi erzeugt, so empfiehlt es sich, alle anderen Real Audio Producer /Encoder außer der Version 3.1 zu deinstallieren, wobei Sie auch Platz sparen, da jedes Programm eigene Pfade mit Common Files und Codecs einrichtet, die jeweils identisch sein können; möglicherweise versionsverschiedene RA-Module in separaten Directories können sich unter Umständen gegenseitig behindern. Besonders wichtig ist pngu3260.dll. Fehlt es oder ist es im Windows-System-Directory UPX-gepackt, so kann z.B. der Real Player G2 (Version 6), der auch heute (2003) noch für alle *.ra und *.rm gut ist, seine "Einsprung-Adresse" nicht finden. Was andere Player-Versionen gibt, so kann es (in allen Windows-Varianten ab 98) durchaus zu Installationsproblemen kommen: der Player startet und wird sofort vom System abgeblockt (Version 8); er weigert sich, *.ra usw. abzuspielen (Real One Version 1) oder er fragt x-mal nach bestimmten von "ns.real.com" anzuliefernden, nicht vorhandenen Modulen, bevor der Startvorgang endgültig abbricht (Real One Version 2). Auch kann es passieren, daß der Real Player und Winamp miteinander in Wettstreit treten, wenn es gilt, *.ra, *.rm, *.ram und *.mp3 (bzw. mp3pro) von einem File-Manager (z.B. dem Windows Commander) aus zu aktivieren (in bestimmten Konfigurationen ruft WinAmp auch *.ram ab).

Als mehr oder weniger professioneller Anbieter können Sie Real Audio mit einem Real Media Server als kontinuierlichen Datenstrom generieren und ins Inter- bzw. ein Intranet einspeisen. Je nach Kompressionsgrad und Bandbreite wird ein weitgehend authentisches Klangbild erzeugt.

Wie Tab. 2 (unten) veranschaulicht, würden hochwertige Schallereignise als *.wav-Dateien auf Disketten bzw. Server-Laufwerken unzumutbar viel Platz beanspruchen, insofern bieten Verfahren wie Real Audio, IIS-mp3 u.a. mit zweckmäßigen Kompressionsraten (s. Tabellen) in bezug auf Wirtschaftlichkeit und Übertragungstechnik optimale Audio-Lösungen in professionellen und non-profit-Datennetzen und Arbeitsumgebungen.

Im wissenschaftlichen Rahmen eröffnet eine solche Audio-Kompression völlig neue Möglichkeiten für Didaktiker (PC als Sprachlabor), Linguisten (Hörbeispiele zur Pragma-, Soziolinguistik u.a.; Historiolinguistik: gesprochenes Mittelhochdeutsch), Film- und Theaterwissenschaftler, vor allem Dialektologen und Phonetiker ("sprechende" Dialektkarten, Übungen zur Kompensatorik, Demonstrationen zur Lautdistinktion u.a.), um in solchem Rahmen relevante Ton-Dateien (oder einfache visuelle Abläufe) der Fachwelt zugänglich zu machen.

Für Real-Audio-Wiedergabe benötigen Sie:

1. als Hardware einen multimedia-fähigen PC (min. 486-DX50, 8 MB RAM) mit
(a) moderner, leistungsfähiger Sound-Karte (Regel: 16-Bit; gut sind die z.Zt. ab ca. 50 DM erhältlichen, auch für Internet Phone verwendbaren Full-Duplex-Karten) sowie
(b) Lautsprecher-(Aktiv-)Boxen;

2. als Software
(a) einen leistungsfähigen, schnellen WWW-Browser (ab Netscape 2.2, optimal 4.79) mit Plug-In(s) für Real Audio (bzw. Video usw.) und / oder
(b) einen eigenständigen (autonomen) Real-Audio-Decoder (s.u.). Werden im Real Media Stream auch visuelle Informationen verarbeitet (in Nachrichten oder als Video-Clips), so läßt sich diese Technologie sehr gut auch didaktisch nutzen, z.B. für kleinere Lehrfilme der angewandten Phonetik, um die Erzeugung der gehörten Laute im Ansatzrohr (bzw. auf die Stimmbänder gesehen) zu veranschaulichen.
(c) eine für (a) und (b) optimale Konfiguration (Auslagerungs-Datei min. 8 MB [oder höher unter Win95], korrekte Anbindung (Registrierung) der Plugins, passende *.DLLs im Win-Systembereich.

RA kennt folgende Betriebsarten:

1. Streaming Real Audio

(a) Continuous live stream real audio processing: ein Server komprimiert (encodiert) bis zum Abschalten einen fortlaufenden Datenstrom zu Real Audio (*.rpm); das Signal wird im Direct-Connect-Modus mit einem Browser oder eigenständigen Player unverzögert oder gepuffert empfangen (= decodiert) und dabei möglicherweise in eine Datei (*.ra) geschrieben Für den Browser (Netscape, Internet Explorer usw.) benötigen Sie als Plugin das Modul npra16.dll (Win 3.11) bzw. npra32.dll (Win 95); komfortabler arbeitet mit oder ohne Browser der autonome Real (Audio) Player (*.exe + *.dlls) ab V. 3. Der Real Player 6 G2 bietet zudem viele Zusatz-Optionen wie editierbare "Programmspeicher" (für preset stations), verlangt unter identischen Bedingungen (Bandbreiten) jedoch einen höheren Daten-Durchsatz und daher eine schnellere CPU. - Wollen Sie aus dem Internet streaming real audio (audio/x-pn, *.rpm) in reduzierter UKW-Qualität (Mono 11 kHz, 40 kBps) empfangen, so benötigen Sie eine LAN- oder Modem-Anbindung von min. 64-kBit/s. Per Multitasking können Sie Streaming Audio als Internet-Radio empfangen und nebenher einer anderen (PC-) Arbeit nachgehen. In den immer häufigeren Zeiten der Netz-Überlastung (net congestion) kann der Empfang unter- oder gar abgebrochen werden.

(b) Limited audio stream to real audio file processing: am Audio-Eingang wird ein zeitlich begrenztes akustisches Ereignis eingespielt (oder live per Mikrofon erzeugt) und sofort als Datenstrom je nach Modus (gewünschte Bandbreite) mehr oder weniger schnell und vollständig (ggf. bis zum Puffer-Überlauf) zu einer Real-Audio-Datei (*.ra) encodiert. Decodiert wird die fertige RA-Datei mit dem eigenständigen Real Audio Player (realplay.exe + *.dlls) ab V. 3.0.
Es hängt vom CPU-Takt ab, in welcher Bandbreite und Länge Sie einen in den Encoder gegebenen Live-Datenstrom verarbeiten (und später decodieren) können. Mit einer schnellen CPU und geeigneter En-/Decoder-Software können Sie Ihren PC als RA-"Diktiergerät" benutzen und selbst auf kleineren Festplatten Unmengen kürzerer Sprach-Files ablegen.

2. Audio file to real audio file conversion: eine (digitale) Audio-Datei (*.wav) wird zu einer Real-Audio-Datei (*.ra, *.rm) encodiert und kann als solche per RA-Software beliebig oft decodiert und via Soundkarte als natürliches Klangereignis abgespielt werden. Encodieren Sie im Schmalband-Modus (14,4 kbps /2.5 kHz), so sollten Sie die *.wav-Datei mit geeigneter Software (z.B. Cool Edit Pro) so entzerren, daß eine kontinuierliche Anhebung bis zum formantkritischen Bereich um 2-3 kHz erzielt (und das Restspektrum ggf. abgeschnitten) wird.

3. Real audio file streaming on demand: viele Server bieten Real-Audio-Files an, die als Datenströme abgerufen werden können. Je nach Modem-Durchsatz läßt sich dies in Echtzeit bewerkstelligen oder wird die Datei in einen flüchtigen Speicher geladen, von wo aus sie vom RA-Decoder zum einmaligen Anhören verarbeitet wird.

4. Real audio file download and replay: ebenfalls 'on demand' stehen (zum Beispiel in meiner Homepage) komplette RA-Files (*.ra) bereit, die nach dem Download beliebig oft off-line abgehört werden können; erst dazu tritt Ihre Decoder-Software in Aktion.

Zu (3) und (4): Im HTML-Text der jeweiligen URL wird entweder auf eine *.ra-Datei hingewiesen (Audio-File) oder (nur auf Live Stream Servern) eine mit der Extension *.ram (=real audio metafile, Script-Zeile mit Header pnm:// und Pfadangabe für *.ra). Beim Live-Stream-Empfang (s. Status-Zeile unten im RA-Player) werden die *.ram-(Text-)Dateien in den Platten-Cache geladen, die gehörten *.ra-(=Audio)-Clips bleiben "flüchtig" und können, falls intern freigegeben (Copyright!), allenfalls mit dem - kommerziell bei Progressive Networks erhältlichen - Real Audio Player Plus während des Abspielvorgangs aufgezeichnet werden; falls direkt anwähl(- und download)bar, werden *.ra-Files im Browser-Cache (oder dem \tmp-Bereich) "zwischengelagert" und können von dort aus, evtl. umbenannt, auf ein passendes Directory transferiert und - entweder über den Browser oder stand-alone über den Player - beliebig oft "abgespielt" werden.

Tabelle 1: alte und neue Real-Audio-Modi
                     Stand: 27.2.2003

alter
Typ Vers. Modem mono/
stereo Bandbr
lHz Kompr.-
Faktor Enc
kbps Sampl
kHz kByte
sec CPU
(*stream)

1 5.0 14.4 m 2.5 280 4.9 0.6 Pentium 1)

2 5.0 14.4 m 3 220 6.5 0.8 Pentium 1)

3 2.0 14.4 m 2.5 196 8 8 1 Pentium

4 5.0 28.8 m 3 196 8 8 1 Pentium

5 5.0 28.8 m 4 196 8.5 1 Pentium

6 5.0 - 9.0 28.8 m 2) 4 117,3 12 8 1.5 486/50

7 2.0 28.8 m 4    97,7 15.2 8 1.8 Pentium

8 3.0 28.8 m nar 4    88 16 8 2 Pentium

9 3.0 28.8 m med 4.7    88 16 11 2 Pentium

10 3.0 - 9 28.8 m full 5.5    88 16 11 2 Pentium

11 5.0 28.8 m wide 8    88 16 16 2 Pentium 3)

12 3.0 28.8 stereo 4    70 20 8 2.5 486/50

9.0 Sub 56k 26

13 5.0 56.6 m 8    44 32 4 Pentium 3)

14 5.0 56.6 stereo 5.5    44 32 4 Pentium

9.0 56k 34

15 3.0 ISDN m 11    35 40 22 5 Pentium

16 3.0 ISDN 4) stereo    8    35 40 16 5 P 120

9.0 ISDN 50

17 3.0 2xISDN m 20    17,6 80 44 10 P II /233

3.0 2xISDN stereo 16 17,6 80 32 10 P II/233

9.0 150k LAN 150

9.0 256k DSL 225

9.0 384k DSL 350

9.0 weitere Modi bis    1500

Größtmögliche Kompression bei, wie [13] zeigt, noch akzeptabler Sprachverständlichkeit bietet der Real-Audio-Modus 1 (4,9 kbps) mit fast unglaublichen 0,6 kBytes/sec Platzbedarf. Komprimiere ich eine CD-kompatible Stereo-Datei zu Mono mit geringstmöglicher Bandbreite, so reduziert sich deren Länge auf 1/280 oder weniger; typengleiche Dateien erreichen die Hälfte. Ab K=44 lassen sich Hörfrequenzgänge von ca. 5,5 kHz erzielen, die alle wichtigen Formanten menschlicher Sprache abbilden und sich daher in bescheidenem Umfang auch für phonetische Arbeiten (Transkription) eignen. Per Ra2Wav re-expandiert, können solche Dateien mit gängigen Editoren wie Cool Edit u.a. weiterverarbeitet werden (s. auch unten). Konkurrenz bekommen hat der RA-Modus jüngst von neuen Formaten: u.a. WMA (Windows Media Audio), das, mit dem WMA-Encoder V.7 erzeugt, ab K=100 (mono/mono) gut verständliche Sprache erzeugt und bei K=69 (stereo/mono) eine durchsichtig klingende Modulation.

Alle oben angeführten Typen lassen sich mit dem oben erwähnten Real Audio Encoder 3.1 (32 Bit) erzeugen, der auch die neuen, verbesserten und wirtschaftlicheren 5.0-Algorithmen des Typs 1, 2, 5 und 11 verarbeitet. Hierzu wurde das neue Codec-Modul ra32sipr.dll geschaffen. Die übrigen Codecs gelten unverändert für die RA-Versionen 3, 4 und 5 und wurden erst mit der (für AV-Übertragungen konzipierten) Version 6 (G2) durch größere Module abgelöst. Die auch in Cool Edit 1.2 und anderen Sound-Editoren enthaltenen dnet3260.dll (19.968 Bytes), pncrt.dll (273.408 Bytes), pngu3260.dll (321.024 Bytes), pnrs3260.dll (11.264 Bytes), rnco3260.dll (88.576 Bytes) und sipr3260.dll (16.896 Bytes) sind (außer in W2k, s.u.) gemeinsam in \windows\system unterzubringen. Unter Windows 2000 Professional müssen sich alle zum De- und Encodieren nötigen Module in \winnt\system32 befinden, anderenfalls gibt es Probleme mit dem Real One Player, mit Cool Edit beim RA-Abspeichern und mit dem RA-Encoder 3.1.

Verlorengegangene *.wav lassen sich (zwecks Re-Editing) mit ra2wav (Versionen 1.0, 1.5 und Streambox Ripper V. 2.x) zurückgewinnen, und zwar mit einer dem jeweiligen RA-Modus entsprechenden Sampling-Rate; bei relativ sparsamen, also hohen Kompressionsraten sind Artefakte möglich.

Mit dem Real One Player eröffnen sich neue Möglichkeiten (DVD-Wiedergabe und CD-Burning), doch macht die angeblich kostenlose Basis-Variante Probleme. Unter Win2k ließ sich - off- oder online - bisher nur Version 1 (Build 6.0.10.505) installieren; wurde ein kritisches Modul gegen V 2 getauscht, gab es einen Hänger, und wurde auch der Tausch rückgängig gemacht, mußte V. 1 dennoch re-installiert werden; Ursachen dafür sind hier vermutlich gewisse Lizenz-Kontrollroutinen, die mit Registereinträgen und online-Kontrollmeldungen einhergehen. Unter Win98SE funktioniert indessen Version 2.0 "Helix powered" Build 6.0.11.853 Distribution RN10PD mit allen Zusatzmodulen (incl. CD-burn) und der "File Open"-Funktion.
--------------------------------------
Anmerkungen:
1) mit 486/50 nur ca. 1 Minute bis Puffer-Überlauf; Typ 1 z.Zt. wirtschaftlichster Modus mit nur ca. 0.6 kBytes (!) Platzbedarf für 1 Sek. Aufnahmezeit; mit präsenzanhebendem Mikrofon noch befriedigende Sprachverständlichkeit; Typ 2 erbringt leichte Verbesserung, klingt etwas besser als der alte RA 2.0-Typ (3) und liegt mit 0.8 kBytes/sec. dennoch unter dessen Durchsatzrate. 1,2 und 5 lassen sich als constant stream nur mit Pentium-Rechnern generieren. Ideal für Sprache ist der 8,5 kbps-Modus (1 kByte/s, oben Typ 5).
2) Nur 1.5 kBytes/sec; Stream-Encoding mit präsenzstarkem Mikrofon am Front-End des Real Encoders 3.0 erbringt bei Wiedergabe mit Real Player 5.0 sehr gute Sprachverständlichkeit und funktioniert auch mit CPU 486/50 (Encoding Buffer konstant bei 5-6 %; Tests mit IBM Thinkpad 755C: > 5 Min. OK, 18.10.99, int. Mikrofon; 2'30" OK, 19.10.99, präsenzanhebendes ext. Elektret-Mikrofon m. Pop-Schutz)
3)Werden 11, 13 (und wahrscheinl. auch 14) mit 486/50 generiert, so erbringt dies doppelte Geschwindigkeit beim Abspielen auf 486- und Pentium-Rechnern, die auch nur in der Lage sind, diese Modi korrekt zu verarbeiten. Die mit Typ 13 (8 kHz, 32 kbps, 4 kBytes/sec.) von 577.040 auf nur 26.232 Bytes verkleinerte Win-98-Startmelodie klingt natürlich und voll, die sparsamere 16-kbps-Variante (8 kHz, 16 kbps, 2 kBytes /sec.) dagegen 'rauchig' und unnatürlich.
4) kann auch mit guten 56-kB-Analogmodems (mit nur wenig Pufferung) empfangen werden (z.B. ELSA MicroLink 56k)

Weiteres zum En- und Decodieren

Für Echtzeit- oder audio-stream-Kompression (1b) mit gleichzeitiger Abhör-Kontrolle "hinter Encoder" benötigen Sie mindestens einen Pentium >100. In seiner "wirtschaftlichsten" Form (14,4 kBps mono) gestattet RA die Unterbringung von mehr als 20 Minuten Ton (in reduzierter "Mittelwellen-Qualität") auf einer HD-Diskette von 1,44 MB / 3,5"; der neueste Real Player G2 Plus bietet einen Echtzeit-Equalizer, der mit stetiger Anhebung bis 4 kHz schmalbandige Live-Signale wesentlich 'aufhellt'. Verfügen Sie nicht über diese Software, so können Sie eine abgespeicherte *.ra-Datei zunächst mit dem ebenfalls von real.com erhältlichen separaten 32-Band-Equalizer umeditieren, um sie dann mit der neuen Entzerrung abzuhören.

Sämtliche RA-Modi lassen sich mit RVPLAYER.EXE (V. 4, gepackt 40 kB) wiedergeben (s. hierzu auch meine Darstellung zum Thinkpad 755C); moderne Notebooks wie der von mir getestete Gericom-Webboy (Pentium III/8000, Windows ME) verfremden möglicherweise den Ton, sofern nicht der zuständige Treiber (hier: SiS7018.SYS) durch eine ältere Version (hier: 4.12.1.34, 285.572 Bytes) ersetzt wird. Der ein wenig bessere REAL PLAYER 5 ist durch seine erweiterten Video-Möglichkeiten auch heute (1/2002) noch zukunftssicher; vor allem läßt er sich in allen Software-Umgebungen problemlos installieren, was man von den späteren G2-Playern (ab Version 6) nicht sagen kann (unter Win98SE möglicherweise Start-Abbruch wegen Konflikt mit krnl386.exe). Eine Real-Player-Installation ist Voraussetzung, wenn *.ra, *.rm mit den neuen, verbesserten Winamp-Plugins abgespielt sollen.

Der im Herbst 2001 vorgestellte, selbst in dieser Beta1-Version nur unter Angabe vertraulicher Informationen (Kreditkarte usw.) als 14-Tage-Demo herunterladbare RealOne-Player (=V. 9) eröffnet die neue "Musik-gegen-Geld"-Ära und bietet nach fast einhelligen Benutzer-Aussagen keine Performance-Verbesserungen. Inzwischen sind die Version 2 "Gold" und V.10 verfügbar.

Real Audio für Handhelds

==>

Trotz seiner rund 9-jährigen "Vergangenheit" gehört Real Audio noch längst nicht zum "alten Eisen". Wie Versuche im Oktober 2k5 zeigten, eignet es sich im Format Real Media auch für Handhelds wie den ACER n35. Die *.rm-Dateien lassen sich z.B. mit Adobe Audition 1.5 oder 2.0 (früher: Cool Edit Pro 2.1) per Speicher-Option Real Media G2 (Bild oben links) gewinnen, sofern die dafür nötigen Module (Ra_g2.flt = 28.672 Bytes, Pncrt.dll = 273.408 Bytes, Pngu3260.dll = 308.736 Bytes, Pnrs3260.dll = 11.264 Bytes, Rmbe3260.dll = 414208 Bytes, Rmme3260.dll = 412.672 Bytes, Rnco3260.dll = 88.576 Bytes, Sipr3260.dll = 16.896 Bytes) im Programmpfad sind, oder via Konversion aus *.mp3 mit dem Easy Real Converter 1.4, dessen 8.033.425 Bytes umfassendes Directory alle optierbaren Codecs und Konversionsmodule in den Sub-Pfaden \codecs, \common und \plugins enthält. Sie benötigen aus dem WWW die Installationsdatei RealOnePlayerppc.exe (1.134.592 Bytes), die auf dem Handheld im Pfad \RealNetworks RealOne Player die Datei realplayer.exe (813568 Bytes) erzeugt. Soweit bis jetzt bekannt, verarbeitet der Player (Bild oben rechts) nur *.rm mit 32 kbps, allerdings in hervorragender Qualität.

Tab. 2: Kompression einer 255 Sek. langen *.WAV-Datei in CD-Qualität (Brandenburg. Konzert Nr. 1, Satz 1, Aufn. W. Näser, Stiftsruine Bad Hersfeld 20.8.2000; Stereo 16-Bit /44,1 kHz), 45.005.352 Bytes, in div. Formate (Real Audio in Konkurrenz zu mp3, alle Dateien generiert mit Cool Edit Pro 1.2, August 2000; *.ra abgehört mit RvPlayer 4.0)

Mode Encode /Sampling Real Audio
oder mp3 Bandbr
kHz Länge
Bytes Kompr-
Faktor kByte/
sec Stunden / CD

Normal LP (80')

1 20 kbps /11 kHz mp3     4 638.433 70 2,5 > 86 > 93

1 20 kbps / 8 kHz RA     4 639.460 70 2,5 > 86 > 93

2 32 kbps /16 kHz mp3     5.5 1021.440 44 4 > 54 > 58

2 32 kbps /16 kHz RA     5.5 1018.692 44 4 > 54 > 58

3 40 kbps /16 kHz RA     8 1278.820 35 5     43 > 46

4 56 kbps /22 kHz mp3    11 1786.680 25 7 > 30 > 33

5 80 kbps /32 kHz mp3 < 15 2552.400 17,6 10 > 21 > 23

5 80 kbps /32 kHz RA    16.0 2557.540 17,6 10 > 21 > 23

Tab 3: Kompression einer 264 Sek. langen *.WAV-Datei in CD-Qualität (Brandenburg. Konzert Nr. 1, Satz 3, Stiftsruine Bad Hersfeld 20.8.2000; Stereo 16-Bit /44,1 kHz), 46.621.216 Bytes, mit 6 div. Encodern zu (MP4-)AAC, LQT, MP3 und WMA. Ausgewählt wurde dieses Musikstück aufgrund seiner vielfältigen, für Kompressionsverfahren kritischen Instrumentierung (Violino piccolo, Oboe, Hörner, Cembalo usw.).

Nr.    Dateiname Encoder*) / Encoding
Mode / Bit Rate Länge
Bytes Kompr-
Faktor kB/
sec Stunden / CD

Mode Preset 20' 74' 80'

1 m6vq-020.vqf vq2 / vqf Stereo 20 kbps     660.531 70,6 2,5 23 85 92,4

2 m6wm-020.wma wm7 /wma Stereo 20 kbps     674.295 69 <2,6 23 85 92,3

3 m6ac-028.lqt lqf 5   /AAC Stereo 28 kbps     681.888 68,4    2,6 23 85,5 92,3

4 m6hq-033.mp3 ce1.2 / mp3 32 kbps /16 kHz 1.057.824 44    4 15 55 59,4

5 m6wm-032.wma wm7 / wma 32 kbps 1.080.560 43    4 15 55 59,4

6 m6ac-b56.lqt lqf 5 /AAC bright St.   /56 k 1.110.784 42    4,2 14 52,5 56,7

7 m6ac-s56.lqt lqf 5 /AAC smooth St. /56 k 1.110.820 42    4,2 14 52,5 56,7

8 m6ac-is1.lqt lqf 5 /AAC ISDN 1 / 56 k 1.639.856 28,4    6,2 9,6 35,5 38,3

9 m6m3-isd.lqt lqf 5   / mp3 ISDN 1 / 56 k 1.668.640 28    6,3 9,5 35 37,8

10 m6hq-064.mp3 FhG    / mp3 HQ 64 kbps 2.104.960 22    8 7,4 27,5 29,7

11 m6ac-064.lqt lqf 5 / AAC 64 kbps 2.170.684 21,5    8,2 7,2 26,8 29

12 m6m3-064.lqt lq f 5 / mp3 64 kbps 2.197.300 21,2    8,3 7,2 26,5 28,6

12a m6av-096.epc av2   / epac 96 kbps 3.134.098 14,9 11,8

13 m6wm-096.wma wm7 /wma "CD" / 96 kbps 3.196.166 14,6 12,1 4,8 18,2 19,8

14 m6tf-128.aac M4S / AAC T/f 2x64 kbps 3.350.624 14 12,7 4,7 17,5 19

15 m6tf-144.aac M4S / AAC T/f 2x72 kbps 3.561.863 13 13,5 4,4 16,3 17,6

16 m6cp-128.mp3 M3Cp / mp3 Quick 128 kbps 4.218.946 11 16 3,7 13,8 15

17 m6hq-128.mp3 FhG    / mp3 HQ 128 kbps 4.219.623 11 16 3,7 13,8 15

*) [1] ce1,2 = Cool Edit Pro 1,2a mit Fraunhofer-MP3-Modul, Slider 9, Preemphasis 50/15
    [2] FhG = Fraunhofer-MP3-Producer Pro 2.1
    [3] lqf 5 = Liquifier Pro 5
    [4] M3CP = MP3-Kompressor V. 0.9 mit FhG-HQ-Codec (Beschleunigungsfaktor 3)
    [5] M4S = MPEG4-Studio 1.0 (Build 124)
    [6] wm7 = Windows Media Encoder 7 (zur Version 8 mit noch weiter verbesserten Codecs siehe unten)
    [7] vq2 = SoundVQ Encoder 2.60b2e
    [8] av2 = Audio Veda 2.0 (ePAC)
MP3-Dateien der Typen (4) und (10) können Sie auch mit dem IBM-Thinkpad 755c (486er CPU) abspielen, sämtliche Typen und Algorithmen mit dem Thinkpad 760 XL (P I/166 MMX) realisieren.

MP2, MP3, MP4 und die Konkurrenz

Im Herbst 2000 begonnen, befassen sich die folgenden Ausführungen mit allen damals verfügbaren Kompressionsalgorithmen (En- und Decoding). Die meisten Programme und Plugins waren schon Mitte 2003 nicht mehr im Internet abrufbar; hinsichtlich der wirtschaftlichen Kompressionsraten (> 20) haben *.mp3, mp3pro und *.wma überlebt sowie der Liquid Player (V. 6) zum Abspielen der *.lqt. Das (ebenso wie Lame lizenzfreie) OggVorbis wurde nicht getestet.

1. ISO-MPEG 1 Layer 2 (*.mp2) ist seit langem weltweiter Standard für komprimierte Audio-Aufzeichnung und -übertragung und wird besonders im professionellen Medien-Sektor (Pressewesen, Hörfunk) verwendet, z.B. für monaurale Reportage-Aufnahmen mit dem als "digitale Mono-NAGRA" fungierenden Marantz PMD 680 (Bild rechts), der im PCMCIA-Kartenslot via Adapter Compact-Flash-Karten der Typen I und II bespielt, die in Rechnern wie dem HP-Compaq-Notebook nx6110 (Pentium 4 /1,6 GHz; Windows XP prof.) und sogar dem alten IBM Thinkpad 760 XL (Pentium 1/166 MHz; Windows 98 SE) bei allen verfügbaren Bitraten (768-32 kBps / 48 kHz Sampling) auch in der als langsam geltenden PCMCIA-Schnittstelle unterbrechungsfrei eingelesen und (z.B. mit Winamp ab V.3) abgespielt werden können. Im August 2007 mit diesem Gerät unternommene Versuche ergaben im "Mittelspielmodus" bei 128 kBps (= < 1 MBytes / min.) sowohl mit Mikrofon wie am Line-Eingang mit TV-Ton eine Artefakt-freie HiFi-Qualität, die durchaus mit konventionellen Heimtonbandaufnahmen von 19 cm/s konkurrieren könnte, und selbst noch im LP-Modus bei 32 kBps entstand eine die wichtigen Sprachformanten berücksichtigende gute "Mittelwellenqualität", die allen Anforderungen an (protokollarische) Sprachaufnahmen und deren informationelle Auswertbarkeit genügt. Insofern eignet sich dieser zwar schon betagte, aber nach wie vor professionelle Kompressionsalgorithmus sehr gut für wissenschaftliche Tonaufnahmen in der Feldforschung und sogar bei Studioproduktionen, sofern mit 128 kBps oder mehr eine auch für phonetische Messungen taugliche Qualität erzielt wird.

2. ISO-MPEG 1 Layer 3 (*.mp3) wurde in mehreren Varianten besonders für (vorzugsweise stereophone) Musikdokumentation und -übertragung entwickelt und basiert ebenfalls auf psycho-akustischen Algorithmen. Es wird mit konstanter (=CBR) oder variabler (VBR) Bitrate komprimiert; beide Modi lassen sich mit den meisten MP3-Playern decodieren. Hochwertigste *.mp3 (oder als Variante komprimierte *.wav) erzeugen (mit vorwiegend CBR) die Fraunhofer-basierten Encoder, während andere Programme (z.B. Xing, mit VBR) wesentlich schneller, jedoch etwas weniger gründlich vorgehen. *.mp3 ist nur sinnvoll im HiFi-Bereich (ab 128kbps/44 kHz), während der Versuch, mit diesem Verfahren Spar-Modi (K-Faktor 70) wie beim unvergleichlichen Real Audio (s.o.) zu generieren, u.U. störende Artefakte hinzufügt und die dermaßen verschandelten Dateien unbrauchbar macht für wissenschaftliche Untersuchungen (Phonetik). MP4 ist derzeit noch etwas unscharf definiert (weil in Entwicklung befindlich) und wird häufig mit MPEG2-AAC (s.u.) gleichgesetzt. Das hervorragende AAC (=Advanced Audio Coding) wurde in Japan bereits Anfang 2000 zum alleinigen Standard im digitalen Rundfunk erklärt. Weitere Verfahren, teils fertig entwickelt, machen diesen Formaten heftig Konkurrenz.

Zur Tabelle 2:
(a) Sofern in höchster Qualität (Cool Edit: Slider '9') und nach Fraunhofer IIS encodiert, klingen die in Tab. 2 angeführten mp3-Dateien () vergleichsweise natürlicher (keine Verfälschungen /Störgeräusche); nur Mode 5, RA (Dual ISDN) klingt brillanter als *.mp3.
(b) Der wirtschaftlichste mp3-Stereo-Mode [1] entspricht RA-Typ [12] , Bsp. [2a] in Tab. 1; beide Verfahren liefern eine ausgewogen klingende Mittelwellen-Qualität.
(c) Mode 4 hat kein RA-Pendant und klingt deutlich besser als der sparsamere ISDN-Stereo-Modus von Real Audio; hören Sie dazu den Auszug meiner Live-Aufnahme von Martin Weyer an der Bad Hersfelder Stadtkirchen-Orgel (10.4.1982). Die qualitativ weitergehenden, jedoch weniger ökonomischen mp3-Modi werden hier nicht einbezogen.

Die Fraunhofer-Codecs zählen bislang unverändert zu den besten Kompressionsalgorithmen; MP3pro (s. unten) läßt eine weitere Qualitätssteigerung erkennen. Auch das neue 24-Bit-fähige Freeware-Plugin MAD (MPEG Audio Decoder) von Mars liefert zusammen mit WinAmp 2.76 (6/2k1) gute Abspielergebnisse für alle mp3-Dateien, funktioniert allerdings nicht mit LAME-encodierten files.

Ausführlichen "Anhörungsunterricht" bieten MP3pro-Samples (96 kBps = Kompressionsfaktor 15) meiner (seit Anfang 1981 nichtkommerziell durchgeführten) Live-Aufnahmen in:
http://wnaeser.wn.ohost.de/Samples/ .

Das hervorragende Programm Streambox Ripper (V. 2.011) ermöglicht in seiner registrierten Form uneingeschränkten Batch-Betrieb und kann hier auch von einem mp3-Format (z.B. 64 kbps / 22 kHz) in ein anderes (96 kbps / 32 kHz) konvertieren.

Der wohl beste Player für mp3 und mp3pro ist WinAmp (derzeit V. 2.81) mit den entsprechenden Plug-ins; die neue Version 3 kann bislang noch keine mp3pro abspielen. Falls beim Start das Fehlen von mac_info.dll angemahnt wird, müssen Sie Monkeys Audio (mac_397f.exe, 3,062 MB) als Plug-in (erneut) installieren.

MP3-ABSPIELGERÄTE (Hardware) MIT CD-LAUFWERK

Während die winzigen MP3-Player mit Internet-Einspeisung und / oder RAM-Speicherkarten (32 bzw. 64 MB) eine Spielerei bedeuten, sind die mit CD-Laufwerken ausgerüsteten Geräte vielseitiger und daher nützlicher. Wie bei "normalen" CD-Playern gibt es auch hier portable und "stationäre" Modelle; die kleinen "Flundern" können nur selten weniger als 96 kbps in voller Länge abspielen. Stationäre Geräte, äußerlich wie konventionelle CD-Player ausgelegt, gab es zunächst ausschließlich für MP3, heute handelt es sich um Mehrzweck-Laufwerke, die sowohl DVD, VCD, CD, CDR, CDRW und MP3 wiedergeben können; seltsamerweise sind eher die billigen DVD-Player auch MP3-tauglich, während die oft doppelt oder dreifach teureren Varianten auf dieses Feature verzichten. Ein vom Preis-Leistungsverhältnis wahres Wunder ist der SEG-Player "Beverly Hills", der zu einem Durchschnittspreis von ca. 150 Euro (April 2002) nicht nur DVDs in excellenter Qualität reproduziert, sondern auch und gerade MP3 (das angeschlossene TV-Gerät fungiert als Monitor). 64 kpbs Stereo klingt (an einer guten Stereo-Anlage) in vielen Fällen wie das unkomprimierte Original, und selbst 24 kbps Mono wird noch in voller Länge abgespielt, wodurch es z.B. möglich ist, eine mit rund 18 Stunden Audio vollgepackte 8-cm-CDR mit dem SEG abzuspielen. Es ist anzunehmen, daß sich in diesem Gerät ein weit über den Preisrahmen hinausweisender, exzellenter Wandler-Chip befindet, der auch das neue MP3Pro-Format in bestmöglicher Weise verarbeitet.

3. (MPEG 2)-AAC bietet bei 96 kbps dieselbe Qualität wie MP3 bei 128 kbps, ist jedoch mit diesem nicht kompatibel. Ebenso unverträglich untereinander sind die AAC-Varianten a2b (AT&T), LQT (Liquid Track, nach Fraunhofer-IIS), ISO-AAC (z.Zt. PsyTel) und Astrid.

3.1 Liquid Audio gilt bislang als hochwertigste AAC-Spielart und verwendet zudem AC-3 Dolby Digital. Sog. Liquid Master Files (*.lqm) werden vom Fraunhofer-kompatiblen Liquifier Pro 4 und 5 erzeugt. Als Clips bzw. Songs dienen sie zum kommerziellen Download via Internet und können mit bestimmten Zusatzinformationen (Kaufangebote, "Wasserzeichen") versehen werden.

Der Liquifier kann maximal 5 verschiedene Formate bis hin zur CD-Qualität in einer einzigen Datei verpacken. Für den Standalone-Betrieb bzw. interne Präsentationen eignet sich das Liquid-Track-Format (*.lqt), das sich, aus *.lqm mit dem einfachen Dienstprogramm lqm2lqt gewonnen, off-line mit dem (Freeware =) Liquid Player 5 abspielen läßt.

Beobachtungen an im Nov. 2000 erstellten Dateien^*) mit einem Bullman-Notebook EK4 P4 an dessen Lautsprechern und WinAmp 2.91 (Juni 2003):

Durchsichtige Mittelwellen-Qualität erbringt Lqf 5 / AAC im Stereo-Modus mit nur 28 kbps (K= 68,4), wo in Bachs Brandenburg. Konzert Nr. 1, Satz 3 die Violino piccolo besonders gut durchzuhören ist.
Frappante Unterschiede zeigen sich zwischen mp3 /32 kbps (Tab. 3,4), lqt-AAC /Smooth Stereo 56 kbps (Tab. 3,7) und wma 7 (Tab. 3,5), die bei K-Faktoren von 44 - 42 annähernd gleichlange Dateien liefern.
(a) m6hq-033.mp3: Cool Edit liefert mit dem Fraunhofer-MP3-Modul trotz höchster Qualitätsoption nur dumpfen Mittelwellenklang (Cembalo unhörbar!)
(b) m6ac-s56.lqt: der Liquifier Pro 5 erzeugt zwar etwas "synthetischen", doch vielfach durchsichtigeren Klang, in dem das Cembalo "durchscheint" und die Violino piccolo als charakteristisch erkennbar wird. Hier wirkt offenbar ein Algorithmus, der wesentlich mehr an oberen Spektralanteilen rück-synthetisiert und dadurch auch bei hohen Kompressionsraten spezifische Klang-Charakteristika bewahrt.
(c) m6wm-032.wma (K=43) klingt sehr ausgewogen und zeigt bereits in der Version 7 den unaufhaltsamen Aufstieg von Windows Media Audio (s. unten) in die Spitzenklasse der Kompressionsalgorithmen.
m6ac-is1.lqt (K=28,4) klingt hell und "analytisch"; präzise die Cembalo-Einwürfe und die Violino piccolo.
m6ac-064.lqt (64 kbps, AAC; K= 21,5) bringt präzise Cembalo-Einwürfe, seidige Violinen und eine typisch "kratzende" Violino piccolo.

*) Das lqt-Plugin V. 104 (in_lqt.dll, 32.768 Bytes + lqmod.exe = 1.300.902 Bytes) verarbeitet nur vom Liquifier Pro 4.0 im 96-kbps-Mode erzeugte Dateien, V. 106 ist ebenso ungeeignet; in_liquid.dll (102.400 Bytes, im WWW nicht mehr abrufbar) dagegen sämtliche Modi.

3.2. ISO-AAC wird erzeugt mit dem von "Stammvater" Ivan DIMKOVIC (PsyTel Research) entwickelten MPEG-4-Studio; publiziert wurden bisher zwei Versionen:
3.2.1. Build 124 (nicht mehr erhältlich): der Encoder (UPX = 389.632 Bytes) arbeitet unter DOS wie auch via Front-End (UPX = 102.400 Bytes), ist sehr schnell und erzeugt im voreingestellten HQ-Modus T/F AAC^*)

aus (min.) 22.05 kHz-PCM-Dateien 48kbps-*.aac und höhere Bitraten, die jedoch weder mit dem FAAC- noch mit dem Homeboy-Plugin (1.09, 1.11) von WinAmp abgespielt werden;
aus 44,1-kHz-PCM (Mono, Stereo) 2x 56 /64 /72 kbps; Wiedergabe OK.

T/F-AAC klingt generell mindestens ebenso gut wie das um 20 % größere Fraunhofer-MP3 (Tab. 3, 16+17). Eine kritische Stereo-Aufnahme mit Sprecher vor dem Einpunkt-Mikrofon wurde selbst bei K=11 nur mit T/F-AAC naturgetreu gewandelt, nicht jedoch (Verfälschungen bei /s/, /sch/) mit FhG-MP3 (!). Auch spätere Versuche (November 2003) zeigten, daß ab 112 kbps encodiertes T/F-AAC allen anderen Verfahren (incl. mp3pro und wma 9) mindestens ebenbürtig ist.

3.2.2. Build 191 (nur noch vereinzelt erhältlich) ist 'schlanker' (Kern = 126.464 bzw. [Patch] 127.488, Frontend 106.496 Bytes), akzeptiert nur 44,1 kHz Stereo/16 Bit, ist wesentlich langsamer und verarbeitet außer AAC-Main-auch die Profile LC und SSR mit kleineren Bit-Raten⁺⁾. Mit neuer Web-Site präsent, hat PsyTel seine Codecs überarbeitet und liefert als neueste (12/2000) Demo eine (ebenfalls sehr langsame!) Kommandozeilen-Version (Encoder: aaenc.exe + la32math.dll; Decoder: neuentwickeltes in_aac.dll für WinAmp); Befehlszeile: aaenc -if in.wav -br [kbit/s]. In den getesteten Modi (32 und 64 kbps) lag die tatsächliche Bitrate mehrere kbps höher. In beiden Fällen wurden nur max. 50% der Vorlagen encodiert, die Resultate konnten nicht überzeugen. In Verbindung mit dem neuen, universell anwendbaren Verfahren SBR (s. unten) soll AAC bei mehr als 50% Ersparnis denselben Klang ergeben wie eine 'normale' *.aac.
Weitere Versionen:

3.2.3. Das AAC-Encoder-Plugin von Nero Burning ROM (aac.dll = 847.872 Bytes; aacenc32.dll = 802.816 Bytes; aacmp32.dll = 49.152 Bytes) erzeugt *.mp4 und erbringt ausgezeichnete Resultate; die Dateien sind mit Winamp und dem der neuesten Version 5 beigefügten Plugin in_mp4.dll (UPX = 157.696) abzuspielen, das auch alle *.aac verarbeitet. Nero's Mp4-Entwickler Ivan Dimkovich (s.o.) präsentiert zur CeBit 2003 das (künftig optierbare)

3.2.4. MPEG-4 High Efficiency AAC, das in den Versionen ab 6.6 enthalten ist und den vorläufig höchsterreichbaren Qualitätsstandard in den ökonomischen Kompressionsraten ab 20 darstellt. Ein mit dem Nero Wave Editor 2.0.0.58 und Kompressionsfaktor 22 (64 kBit/s konstant) erzieltes Beispiel ist der am 10. Juli 2005 in der Marburger Lutherischen Pfarrkirche mit dem Marburger Bachchor und dem Barockorchester L'arpa festante München von mir live aufgenommene Chor "The Lord gave the Word" (in G.F. Händels 1741 komponiertem "Messiah"), den Sie hier hören können. Wesentliche Klangunterschiede der nur 607 kB großen *.mp4-Datei zum immerhin 13,1 MB großen *.wav-Original sind mit den Notebook-Lautsprechern nur schwer wahrnehmbar.

3.2.5. Auf der Basis des von z.Plane und dem Heinrich-Hertz-Institut der Fraunhofer-Gesellschaft entwickelten zAAC-Encoders bringt afterdawn.com den Encoder Compaact heraus. Das aus 12 Modulen bestehende, 5,7 MB (unkomprimiert) umfassende Programm arbeitet sehr schnell und erzeugt z.B. im 96kbps-Modus ausgezeichnet klingende Samples anspruchsvoller Klassischer Musik.
--------------
*) "In a t/f coder, the input signal is first decomposed into a time/frequency (t/f) spectral representation by means of an anylysis filterbank prior to subsequent quantization and coding" (Fraunhofer-IIS, MPEG-4, Overview)
⁺⁾ einzig mit dem FAAC-Plugin in_aac.dll (27.10.2k1, UPX=107.520 Bytes) werden alle mit Build 191 erzeugten Bit-Raten sauber abgespielt (und pauschal als "128 kbps 44 kHz" erkannt); 64 kbps-*.aac (Sprache Stereo) klingt wie die größeren Pendants (112 /128 /144 kbps),

3.3. Mit den beiden vorgenannten inkompatibel (und daher ausschließlich mit dem KJÖFOL-Player abspielbar) ist *.aac von Astrid Quartex (Encoder: aacenc.exe, 1.707.936 Bytes, Decoder: aacdec.exe, 541.420 Bytes, beide nicht komprimierbar; Frontend: EasyAACv121.exe, UPX=70.656 Bytes). Das Verfahren akzeptiert bislang nur 44,1 kHz-*.wav; die testweise aus 37.973.260 (Stereo) zu 1.745.554 Bytes komprimierte Sprach-Datei (K=21,8) klingt ausgezeichnet.

4. Weitere Kompressionsverfahren sind u.a.**):

TAC (=Transparent Audio Coding, K+K Research), u.a. im sog. Music Publisher 02; soll vor allem bei sparsamen Bitraten (K-Faktor >15) deutliche Qualitätssteigerungen erbringen; inwieweit HQ-TAC mit dem LQT5-Modus "Transparent Audio" (128 kbps) verwandt oder identisch ist, war nicht zu ermitteln;
PAC (=Perceptual Audio Coding) und
ePAC (=Enhanced Perceptual Audio Coding, beide Lucent Technologies): sehr schnell; SDMI-kompatibel mit Verschlüsselung 256 (!) Bit; kann bislang (12/2000) nur mit AudioVeda erzeugt (und abgespielt) werden; die Programm-Suite Vedalab Media Engine (VME) soll alle ePAC-Funktionen bereitstellen. Eigene Erfahrungen: mit Audio Veda 2.0 m06.wav (46 MB) encodiert zu m6av-096.epc (Tabelle 3, 12a; 96 kbps); Klang vom unkomprimierten Original praktisch nicht unterscheidbar; damit Spitzenposition in dieser Bit-Rate (K=15)!
VQF (Twin VQ (=vector quantized); Yamaha; angeblich 96 kbps VQF = 256 kbps MP3); in höheren Modi sehr langsam; gute Sprachverständlichkeit ab 8kbps/11kHz (1 kByte/sec, besser als RA-Modus 5); nach eigenen Erkenntnissen alle wichtigen Formanten schon bei 10 kbps/11 kHz (1,25 kb/sec.); für WinAmp-Wiedergabe müssen aus dem VQ-Player (vqp252... oder ähnl.) die Module decode32.dll (196.608 Bytes) und TwinVQ2.cdb (336.192 Bytes) nach \Plugins\ kopiert werden.
ATRAC 3 (=Adaptive Transform Acoustic Coding; Sony); K-Faktor max. 20; angewandt in Minidisc-Recordern (Bild rechts), die im SP-Mode (standard play, fast CD-Qualität) mit 5-facher Datenreduktion arbeiten; mit LP2-Stereo wird 10-fach (entsprechend mp3/128 kbps), mit LP4-Stereo 20-fach (wie mp3/64 kbps) komprimiert. LP4 zeigt leichte Abstriche bei den Brillanzen, genügt jedoch für "informative" Sprachaufnahme; LP2 zeigt keine Unterschiede zum Original. Des weiteren ist im SP-Modus eine monaurale Aufnahme möglich mit doppelter Aufzeichnungsdauer und unverminderter Qualität.

WMA (=Windows Media Audio; Bitraten ab 5 kbps; gute Resultate ab 64 kbps). In den Spar-Modi "der Real-Audio-Killer"⁺⁺⁾: nach eigenen Versuchen akzeptable Sprachqualität (Mittelwelle) schon bei K=100 (6 kbps/8 kHz, 0,9 kBytes/sec.); K=69: sehr gute Verständlichkeit bei <20 kbps/22 kHz (stereo => mono; 2,5 kBytes/sec., Stereo-Musik s. Tabelle 3, 2); durchsichtige Stereo-Wiedergabe bei 32 kbps/32 kHz (K-Faktor 43), eindeutig besser als vergleichbare Liquid Tracks; ältere Sprachaufnahmen, die von Stereo-Tonkopf auf CDR übertragen wurden, lassen sich ohne Qualitäts-Abstriche mit 22kbps/32 kHz Stereo encodieren; das gesamte "Lautdenkmal" von 1936/7 mit seinen 306 Aufnahmen von zus. etwa 18 Std. Dauer findet so noch auf einer Mini-CDR (8 cm) Platz.
Mittlerweile (5/2001) existiert eine WMA-Version 8 mit neuen Codecs (zunächst als Kommandozeilen-Programm wm8eutil.exe und Win-Oberfläche wm8egui.exe). CD-Qualität soll hier schon bei 64kbps / 44 kHz erzielt werden.
=> Arbeiten Sie (noch) unter Win98 /98SE /ME, so installieren Sie außer den oben genannten, mit WMP 7 und WMEnc 7.1 kompatiblen Modulen auf keinen Fall den ab 5/2k1 schon als Beta-Version erhältlichen neuen Windows Media Player 8; dabei werden Systemdateien durch inkompatible Versionen ersetzt und wichtige Funktionen (z.B. System-Verwaltung) außer Kraft gesetzt; Sie müssen in diesem Falle:

(ggf. ein paar Male mit Kaltstart) neu booten
alle zum WMP(7)-Bereich gehörenden Dateien löschen und/oder (sofern möglich) das Programm de-installieren
ggf. auch den WM-Encoder 7 und/oder das zugehörige System Devolping Kit löschen/deinstallieren
mit einem geeigneten Tool (z.B. TuneUp 97) noch fehlerhafte Registry- und *.ini-Daten beseitigen
die Festplatte defragmentieren
WMEnc 7.1 und SDK neu installieren
WMEnc 7.1 und 8 auf Funktion überprüfen

VERSUCHE ZU WMA 8 und 9:
[1] (15.5.2k1) Mit Cool Edit pro 1.2a aus eigener dialektologischer Feldaufnahme eine 3' 45" lange und 39.599.320 Bytes umfassende Datei (CD-Qualität, 44 kHz Stereo) erstellt, die mit dem neuen WMA8-Codec im Modus 32 kpbs / 44 kHz Mono zu nur 920.874 Bytes komprimiert wurde. Qualitätsunterschiede zum 43mal längeren Original sind kaum festzustellen; das zeigte sich jedoch auch schon bei WMA 7.
[2] (16.5.2k1) Die inzwischen editorisch zu 37.973.260 Bytes gekürzte Original-*.wav im Modus 20kbps / 22kHz Mono zu 558.218 Bytes komprimiert, das entspricht einem K-Faktor von 68; dennoch fast klangidentisch mit [1] und auch für dialektologische Präsentation als verlustfrei zu betrachten. Aus dieser Einspielung hier die Wenker-Sätze zwei (12.158 Bytes) und neun (20.780 Bytes).
Versuche, das sehr scharf klingende Original [1] und [2] jeweils als Stereo-*.wma zu encodieren, erbrachten unnatürlich scharfe, etwas schwimmende Resultate, während sich die Kompression Stereo => Mono in bezug auf Störfreiheit und Klangneutralität als ideal erwies.
[3] (16.5.2k1) Versuche, mehrere mit Stereo-Tonkopf abtastend auf CD überspielte, später als 64-kHz-*.mp3 archivierte, mit starkem Knistern durchsetzte frühe Aufnahmen (1936) des "Lautdenkmals" nach Re-Konversion zu *.wav mit Cool Edit zu "reinigen" und dann zu *.ra oder *.wma mono zu re-encodieren, führten zu sehr dumpf klingenden Dateien. Zweikanalig erbrachte allein der Modus 32kbps/32 kHz annehmbare Resultate, während stärker reduzierende Modi klanglich inhomogenen Sprachfluß mit störenden Artefakten produzierten. Aus alledem könnte man folgern, daß bei solchen Operationen Phasenbeziehungen und damit Korrelationsgrad des aus welchen Gründen auch immer zweikanalig erstellten Originals eine bedeutende Rolle spielen.
[4a,b] (19.5.2k1) Pre-Emphasis und Korrelation der 6/91 mit Eigenbau-Einpunktstereomikrofon (zwei schwenkbare Kugel-ECM-Zwillingsmodule auf Traverse) und TCD5M gemachten analogen Aufnahme des Großseelheimer Sprechers (s.o. [2]) sind anscheinend so günstig, daß selbst bei 260,7-facher Datenreduktion mit dem ökonomischsten *.wma-Algorithmus (5 kbps mono, 145.664 Bytes) noch ein durchaus präsentables, allerdings mit 'künstlichem Raumklang' unterlegtes Resultat herauskommt, während die (am 2.6.2k1) mit 285-facher Reduktion (5 kbps mono, 133.300 Bytes) erzeugte Real-Audio-Datei ebenso gut durchhörbar ist, aber neutraler und natürlicher klingt. Ein mit hoher Pre-Emphasis zu Real Audio 5 / 16kBps mono wide (K-Faktor 88) encodiertes Sprachsignal ist in bezug auf Klang (Bandbr. 8 kHz) und Datenökonomie (2 kBytes je Sekunde) noch immer eine gute Alternative und läßt sich außerdem von jeder Homepage aus auch als Audio-Stream (*.ram) abrufen.
WMA 7 und 8 zeigen interessante und durchaus angenehme Effekte bei anspruchsvoller Musik (Bach, Osteroratorium und Magnificat); diese klingt schon bei 64 kBps / Stereo frisch und stark; besonders bei Instrumental- und Vokalsoli hat man den Eindruck, daß Wesentliches verstärkt wird.
[5] (19.6.2k1) Stereo-Dialektsketch (Schwalm, 6.6.2k1; 12.165.268 Bytes): auch die Modi 48 kBps/44.1 kHz (427.613 Bytes) und 32 kBps/44.1 kHz (288.322 Bytes) klingen noch ansprechend und natürlich. Ich empfehle, jeweils die höchste Sampling-Frequenz zu wählen!
[6] Verglichen mit Real Audio /32 kbps arbeitet WMA 9 /(20 oder) 22 kbps wirtschaftlicher und klangschöner. Aus diesem Grunde habe ich in meiner Lautdenkmal-Seite nachstehende Proben entsprechend umgearbeitet; mit 32 kbps klingt die Frankfurter Aufnahme überragend:

* Frankfurt am Main (282 / U' 19,17; red. bearb.; 3. Fassung 25.5.2k3 /wv/hl, wma9)
* Freudenstadt /Schwarzwald (163 / p' 17,3; red. bearb.; 3. Fassung 25.5.2k3, wma9)
* Kassel (281 / F' 23,10; 5. Fassung [leicht gekürzt] 23.1.2k2 /wv; 25.5.2k3, wma9)
* Norddeich /Norden (Ostfriesland; 219 / C 9,1; red. bearb., 30.11.2k1 /wv; 2. Fassung 25.5.2k3 /hl, wma9)
* Pantenburg /Wittlich (Eifel; 248 / U' 8,5; red. bearb., 18.4.2k3 /hl/wv, wma9 22.5.2k3)
* Wulfen / Recklinghausen (229 / A' 9,1; 3. Fassung 25.5.2k3 /hl, wma9)

Den State-of-the-Art der angewandten WMA-Kompression repräsentiert der im Oktober 2006 eingeführte Olympus-Kleinstrecorder WS-200S. -> hierzu mein Erfahrungsbericht.

MP3i[nteractive], entwickelt von First International Digital und Songdog, enthält zusätzlich Song-Texte und Graphik (für Karaoke); benötigt einen speziellen Player (z.B. Irock 680).
MP3 Pro, auf Fraunhofer-Basis entwickelt von Thomson multimedia und Coding Technologies als Konkurrenz zu WMA 8, soll schon mit 64 kbps die Performance des herkömmlichen Formats bei 128 kbps erreichen und bis Ende 2001 in Hard- und Softwareprodukte integriert werden.
"mp3PRO is the combination of mp3 and SBR in a backwards compatible way. SBR (Spectral Band Replication) is a new audio coding enhancement tool. It improves the efficiency and fidelity of conventional audio codecs and offers full audio bandwidth at virtually all bitrates."
(Quelle: http://www.codingtechnologies.de/technology/mp3pro.htm)
Die freie Demo-Version des auf 64 kBps (K=22) MP3pro beschränkten RCA-Encoders und MP3-Universal-Players wurde am 14.6.2k1 vorgestellt; vgl. Tabelle unten.
Encoding eigener Live-Aufnahmen:
- Ein zu mp3pro encodierter Stereo-Dialektsketch (Schwalm, 6.6.2k1, => 552.670 Bytes) klingt in allen Lautstärken neutral und fast wie das Original; etwas mehr Brillanz, allerdings auch zischelnde Artefakte zeigt (bei größerer Wiedergabe-Lautstärke) die (am 27.6.2k1) mit dem neuen LAME-Encoder V. 3.89 (Alpha 8) mit 32/64 kBps-VBR (Sampling 48 kHz) in doppelter Echtzeit erstellte Datei (=> 547.896 Bytes).
- Big-Band-Stück (Lady B. Goode, BuJazzO, P. Herbolzheimer, MR 2.7.1999; eingelesen mit HP 7100e an Notebook) kein Unterschied im 64-kBps-Mode zwischen WMA 7 (5.4.2k1, => 2.128.376 Bytes) und MP3pro (16.6.2k1, => 2.175.830 Bytes): jeweils leicht "verschwommenes" Schlagzeug (s. auch unten).
- Barock-Orchester mit Original-Instrumenten: Joseph Haydn, Sinfonie Nr. 35 B-Dur, 1. Satz (5' 07" = 54.084.298 Bytes), Savaria Baroque, Fürstl. Reitbahn Arolsen 16.6.2k1: Versuche mit 64 kBps, 9.7.2k1, Beurteilung mittels Abhörvergleich
  (1) mp3pro (=>2.453.584 Bytes): neutral, klar, sehr sauber, vom Original kaum zu unterscheiden.
  (2) wma 8 (=> 2.486.318 Bytes): qualitäts- und klangidentisch mit mp3pro (zuletzt 8.6.2002 an anderem Tonmaterial verifiziert)
  (3) LAME 3.90 alpha (VBR 32/64 kBps, Q5, 48 kHz, => 2.419.828 Bytes = K 22,5): verwaschene Obertöne;
  weiterer Nachteil: sehr lange Encodierzeit (14' 23")
- Großer, komplexer Klangkörper in diffusem Schallfeld, bearbeitet: Beethoven, Missa solemnis, Marburg 25.6.2k1, St. Peter und Paul Marburg, Konzertchor mit ca. 140 Sänger/innen, RSO Kattowitz, 4 Solisten, Dir. S. Heinrich; Aufnahme mit OSS-Zentralmikro; bearb. mit Yamaha DSP 100 (church user, reverb 1.0, hight 1.0); daraus "Gloria" (17' 34" = 186.205.546 Bytes): mp3pro (=> 8.445.411 Bytes) wie Original; LAME 3.89 (Alpha 8), VBR 32/64 kBps, 48 kHz Sampling (=> 8.417.304 Bytes), zeigt deutliche Verfälschungen bei den zart klingenden Geigen.
  Bisheriges Fazit: MP3Pro ist bei 64 kBps in Sprache und Musik generell dem LAME-Encoder überlegen, auch wenn dieser mit 48 kHz Sampling arbeitet; LAME liefert jedoch auch bei höheren Kompressionsraten (z.B. K=35) mehr Brillanz (was distinktiver und besonders lexikalischer Sprachanalyse zugutekommt) und klingt durchaus angenehm bei moderater Lautsprecher-Wiedergabe
MP3Pro in Vollendung
1. Seit dem 25.8.2k1 kann eine verbesserte Version (1.02) des 64-kbps-Encoders/-Players als "evaluation package" geladen werden; erstmals ist auch das langersehnte Winamp-Plugin verfügbar. Diese Kombination testete ich am selben Tage mit anspruchsvollster Musik: meiner Live-Aufnahme des ersten Satzes von Beethovens Violinkonzert D-Dur op. 61, sechs Tage zuvor himmlisch dargeboten von Elisabeth WEBER und dem Prager Dvorák-Sinfonieorchester unter Stanislav BOGUNIA in der Bad Hersfelder Stiftsruine. Die bis in die allerhöchsten Lagen jubilierende Geige stellt entsprechende Anforderungen an Hard- und Software. Das 24' 38" lange Stück wurde mit meinem P III/800 (Gericom-Webboy) in 8' 59" (mit durchgehend 2,7-facher Geschwindigkeit) zu 11.834.433 Bytes komprimiert; die Wiedergabe via Winamp-Plugin ist überragend - praktisch kein Unterschied zum Original. Leichte Probleme gab es dagegen bei einigen schnell bewegten Chor-Passagen, die mit WMA8 / 80kbps verfärbungsfrei encodiert werden konnten.
2. NEROs Wave-Editor enthält ab Version 5.5.5.1 ein MP3pro-Modul, das Raten von 32 kBps mono bis 96 kBps stereo verarbeitet. Die bereits mit 32 kBps stereo erzielbare hohe Qualität zeigte sich eindrucksvoll in meinem Ottrauer Dialektsketch, dessen Original-Länge (*.wav) von 48.620.584 Bytes ohne relevante Verluste auf nur 1.102.182 Bytes (*.mp3) reduziert wurde; das bedeutet einen K-Faktor von 44. Ein Orgelstück mit Trompeten-Register (59.837.128 Bytes) wurde mit K=35,29 zu 40 kbps/44.1 kHz komprimiert und zeigte in Winamp 2.78 mit dem neuen MP3Pro-Modul noch beachtliche Klangqualität. Mit mp3pro / 48 kb encodierte, sehr detailreiche Mundart-Beispiele finden Sie hier.

MP3-Wiedergabe-Geräte
In den letzten drei Jahren wurden zahlreiche stationäre und portable Geräte entwickelt, die auch Datenträger mit MP3-Dateien abspielen können; davon wurden getestet:
a) der Roadstar-PCD 3025 MP,
b) der Riovolt SP 50 (Abbildung hier) und
c) die Thomson Lyra Personal Jukebox PDP 2820

(a) und (b) sind flache, batterie- und akkubetriebene "Discman"-Geräte und können sowohl handelsübliche und selbsterstellte Audio-CDs wie auch solche mit MP3-Files abspielen; während (a) bei kontinuierlich rotierendem Laufwerk *.mp3 erst ab 96 kBit/s in voller Länge reproduziert, liest (b) zunächst die Datei voll ein, stoppt dann und spielt die jeweils letzten zwei Minuten aus dem Speicher (was nicht nur die Stoßfestigkeit wesentlich verbessert, sondern auch den Stromverbrauch reduziert); zudem werden alle MP3-Formate bis hin zu 24 kBps vollständig und klangrein verarbeitet.

(c) Bei einer Größe von nur ca. 13 x 7,6 x 2,8 cm und 312 g Gewicht ist die PDP 2820 (die es inzwischen auch in einer drahtlosen Version gibt) mit ihrem eingebauten Mikro-Computer und Massenspeicher ein kompaktes Wunder an feinmechanischer Präzision und performativer Vielseitigkeit. Die mit 5-VDC-Schaltnetzteil oder von internem Lithium-Ionen-Akku (max. 12 h Wiedergabezeit) betriebene Personal Jukebox (Digi-Foto re.) enthält eine mit FAT 32 formatierte, autonome 20-GB-Festplatte (4.200/min., 12 ms), interne Dateiverwaltung, einen digitalen Signalprozessor (DSP) mit Equalizer, einen mit interner Software gesteuerten Decoder für MP3 und MP3 pro (=> Bild li.; mit Update der mp3.exe = 374.657 Bytes v. 9.1.2k3) und WMA 7 (s. unten) sowie einen DA-Wandler mit Kopfhörerverstärker. Im Lieferumfang enthalten sind: USB-Kabel, (teilweise umschließende) Gürteltasche (mit Clip), Autoradio-Koppelcassette, Autoadapter für 12 V, Stereo-Hörer mit Hinterkopfbügel und eine CD mit PC-Software für Installation und MP3-Coding (MusicMatch Jukebox 6.1, im WWW Update auf 7.5; MP3Pro-Modul nur in Plus-Version aktiv). Via USB (1.1) angekoppelt, dient die Lyra als externe 20-GB-Festplatte.
Als vollwertiges (und damit auch Backup-fähiges!) Zusatzlaufwerk erkannt und ins PC-System eingebunden, verträgt sie alle entsprechenden DOS-Operationen, also nicht nur das Anlegen von Pfaden sowie das Einspielen, Überschreiben und Löschen aller Arten von Dateien, sondern auch ZIP-Exploring, das Offline-Betrachten einer komplexen Homepage (mit hunderten von Directories) und eine Defragmentierung mit dem Diskeeper^tm (re: aus dem Report vom 12.1.2k3; die Zahl von 1.178 Directories erklärt sich u.a. aus einer über 1,6 GB großen WWW-Site mit umfangreicher Datenbank, die sich problemlos von der Lyra auslesen läßt). Die eingespielten *.mp3 lassen sich entweder via USB einlesen und im PC mit einem beliebigen Player abspielen oder - ohne PC - autonom von der Lyra via Line out oder dem Kopfhörerausgang (beide regelbar) in eine beliebige Stereoanlage einspeisen; das 8 MB große interne SD-RAM (!) dient als Zwischenspeicher, was bei 128 kBps MP3 (CD-ähnl. Qualität) mindestens 8 Minuten rüttelfeste Wiedergabe ermöglicht. Nach jeder Änderung der Lyra-Datenstruktur nimmt das Gerät auf Wunsch eine interne Überprüfung (Profiling) vor; auch zahlreiche neu angeordnete Pfade und tausende von Dateien lassen sich danach mit den Pfeiltasten und dem Display ansteuern. Mit dem internen Decoder werden selbst 24-kBps-Dateien (-> Lautdenkmal) problemlos reproduziert; die im 64-kBps-Modus (20-fache Datenreduktion) mit verschiedenen Live-Aufnahmen (z.B. Zauberflöte; incl. Beifall, s.u.) getestete Wiedergabe an einer Stereoanlage und im beiliegenden Kopfhörer ist erstaunlich gut; mit 96kBps/MP3Pro encodiertes kritisches Programm-Material läßt keine Wünsche offen. Sofern das eigentlich für den kleinen RCA-64MB-Player entwickelte Programm wma.exe (81.145 Bytes, 26.5.2k) in den System-Ordner der PDP eingespielt und aktiv ist, spielt das Gerät auch WMA-7-Dateien; erfolgreich getestet wurden die Formate 8 kBps Mono (MW-Qualität, noch gut verständlich) sowie in Stereo 48 kBps (UKW-Qualität) und 96 kBps (sehr gut, wie CD-Qualität). Die Thomson Lyra Jukebox sollte zur Standardausrüstung eines jeden Musik- oder Sprachpädagogen gehören.
[7] Inzwischen (Stand: 2011) haben sich viele Vorteile der WMA-Codierung in Luft aufgelöst und ist für all jene, die im Vertrauen auf nachhaltige Anwendbarkeit solche Files encodiert haben, eine untragbare und sehr ungerechte Situationn entstanden. Ich habe seinerzeit z.B. von einer mit selbsterstellten Samples entworfenen und in Lehrveranstaltungen eingesetzten Mundart-CD wma-Dateien erstellt; bei dem Versuch, diese abzuspielen oder in einen Konverter einzulesen, werde ich ein Jahrzehnt später seitens des Softwaregiganten Microsoft mit der Meldung konfrontiert, jede diese Dateien verlangten eine besondere Lizenz, sie müsse heruntergeladen werden und die Vergabe der Lizenzen werde protokolliert. Ist die Lizenz erteilt, kann nun die *.wma zwar (mit Winamp) abgespielt, jedoch nicht z.B. mit einem Konverter oder Audio-Editor verarbeitet werden. Ich habe nichts gegen digitales Rechte-Management bei kommerziellen (Ton- und Video-) Dateien, halte diese auch privat erzeugte Dateien betreffende Zwangsregelung jedoch für unverschämt.und kann durchaus nachvollziehen, wenn sich Betroffene darum bemühen, praktibale Auswege zu finden.

**) Erfahrungsberichte folgen. ++) so jedenfalls eine griechische Quelle

Trotz aller Verbesserungen und Neuentwicklungen darf nicht unterschlagen werden, daß in besonders kritischen Programm-Materialien (akustischen Prozessen) Kompressionsgrade von 20 und mehr dem originalen Klangbild und -verlauf möglicherweise gewisse Anteile entziehen, die im einen Falle (Sprache als Kommunikation und nicht als Meßobjekt) irrelevant und daher entbehrlich scheinen, in anderen Klangformungsprozessen jedoch zweifelsfrei fehlen: so zeigten sich beim Abhören einer mittels des neuen, zum Easy CD Creator 5 gehörenden Programms Soundstream aus *.wma re-konvertierend auf CD gebrannten Live-Aufnahme (1995) deutliche Mängel beim stereophon dokumentierten Beifall, der ziemlich unnatürlich wirkte. Ich habe daraufhin anhand einer exzerpierten Beifall-*.wav (5.460.028 Bytes) untersucht, wie verschiedene Kompressionsalgorithmen mit diesem anscheinend kritischen Programm-Material umgehen; zur Wiedergabe diente WinAmp 2.75, die Ergebnisse zeigt folgende Tabelle (Änderungen und Ergänzungen vorbehalten!).
Anm.: Organische Fitness des Hörers/Beurteilers sowie Phasenverhalten und Klangeigenschaften der Wiedergabe-Anlage können den Höreindruck ebenso beeinflussen wie ggf. Unstimmigkeiten bei den geladenen Treibern; aufgrund in Abständen wiederholter Hörvergleiche wurde untenstehende Tabelle mehrmals erweitert und umgeschrieben, die Beurteilung kann nicht als endgültig gelten. Unterschiede zeigen sich deutlicher besonders bei didaktischen Präsentationen in Hörsälen, wo bei größeren Lautstärken Verfärbungen und Artefakte stark datenreduzierter Audiosignale stärker zur Geltung kommen als in kleinen Räumen.

Nr. Datei Bytes   Typ / Stereo.Modus kBit/s Samp Komp Klangbild / Durchzeichnung Note

1 appl-32.ra 124.088 Ra 5, 5 kHz 32 44 MW-Qualität, schwimmend 4-

2 appl-32.vqf 124.251 Twin-VQ 32 16 44 etwas heller als [1] 4+

3 appl-32.wma 132.122 WMA 8 32 41,3 schwimmend, metallische Spitzen 4-

4 appl-L40.mp3 154.800 Lame CBR 3.88 32 35 Mittelwellenklang 4

5 appl-20.vqf 154.952 Twin-VQ 40 22 35 etwa wie [7] 3

6 appl-40.mp3 155.160 FhIIS 40 35 etwa wie [7] 3

7 appl-40.ra 155.620 ISDN     40 35 heller als appl-40.mp3 3+

8 appl-40.wma 164.378 WMA 8 40 32 35 etwas heller als [7], metallisch 2-

9 appl-48.mp3 186.192 WMA 7 48 30 neutral 2

10 appl-48.wma 194.936 WMA 8 48 44.1 28 etw.breitbandiger, leiser als [7] 2

11 appl-mj56.mp3 217.234 MMJB 6, CBR 56 25 etwa wie [10] 2

12 appl-64.mp3 247.104 FhIIS in AAPS 2.04     64 22 neutral, kräftig 2

13 appl-64.vqf 247.510 TwinVQ 64 22 wie [12] 2

14 appl-L64.mp3 247.640 Lame CBR 3.88     64 22 bedeckt gegenüber [12] 2-

Thomson Lyra (Stream) MP3, Intern-Decoder 64 22 klar, neutral 1-2

15 appl-pro.mp3 248.605 MP3Pro (Demo-Enc.) 64 22 hell, klar, wenig verfärbt*) 1-

16 appl-64.wma 261.836 WMA 8     64 21 hell-metallisch, etwas schwimmend 2

17 appl-80.ra 310.660 2xISDN     80 17,6 hell, klar 1

18 appl-L80.mp3 309.600 Lame CBR 3.88     80 17,6 hell, klar, neutral 1

19 appl-96.mp3 371.531 FhIIS V.1 Build 63     96 14,7 klar 1

20 appl-96m.aac 372.547 AAC Main (MBSoft)°) 96 14,7 klar 1

21 appl-96.wma 391.118 WMA 8     96 14 klar 1

22 appl-112.aac 435.034 TF-AAC, PsyTel 1.24°) 112 12,6 klar, brillant, völlig neutral 1

*) kein Wiedergabe-Klangunterschied zwischen WinAmp 2.75 (in_mp3.dll) und mp3proplayer.exe (UPX=378.880 Bytes)
°) mit WinAmp-Plugin in_aac.dll (128.512 Bytes)

In diesem Beifall-Test hielten die neuen WMA-8-Algorithmen nicht immer das, was sie versprachen: 64 kBps brachte noch keine CD-Qualität, andererseits erbrachten 48 kBps bei 44.1 kHz Sampling-Frequenz ein zwar leises, doch sauber und neutral wirkendes Klangbild; MP3pro [8] bringt in unserem ersten Versuch bei 64 kBps eine deutliche Verbesserung und entspricht mit seinem 'luftigen' Klang etwa den 80kBps-Modi. In einigen Fällen hat sich mit WinAmp oft erst nach ca. 1/2 Sekunde ein stabil bleibendes Klangbild aufgebaut. Der für andere Signale (s.o.) ideale Lame-Encoder (V. 3.88) klingt hier bei 64 kBps (CBR und VBR) weniger durchsichtig als sein Fraunhofer-Pendant und entfaltet seine Stärke erst bei 80 kBps. Das in bezug auf Phasen- bzw. Korrelationsprobleme unempfindliche Real Audio produziert in sparsamen Stereo-Modi wenig oder keine Artefakte, sondern reduziert eher die Bandbreite, während WMA 7 und 8 bei 'psychedelischem' Stereo-Encoding ab K=>35 zunehmend befremdliche Verfärbungen erzeugen, jedoch bessere Resultate erzielen, wenn Stereo=>Mono encodiert wird (s. auch oben). Das noch bei 64-kBps überraschend verfärbende AAC behauptet sich im "Main"-Mode bei 96 kBps und erreicht als TF-AAC bei 112 kBps eine schon oben (für korrelationskritische Mikrofonaufnahmen) festgestellte Spitzen-Position.

Ähnlich kritisch wie beim Applaus gestaltet sich das Encoding eines angeschlagenen Hi-Hat im Schlagzeug von Jazz-Combos und Big-Bands, wo vermutlich ähnliche Spektralanteile und Schallverläufe entstehen.

Nach unseren bisherigen Erkenntnissen wird wohl immer vom jeweiligen Programm-Material (Sprache, E-/U-Musik, Klangkörper und -struktur) abhängig individuell zu entscheiden sein, zu welchem Typ (*.ra, *.mp3, *.vqf, *.wma) und mit welchem Grad das Signal zu komprimieren ist bzw. noch komprimiert werden kann. Hierzu noch folgendes zur Klarstellung:

Mein Ziel ist und bleibt, Kompressionsraten > 20 auf ihre Performanz hin zu testen.
Die Geschwindigkeit der Kompression ist kein Qualitäts-Kriterium. Besser ein gründlich (und deshalb langsamer) operierender Algorithmus mit hervorragender Klangumsetzung als ein Huschhusch-Programm mit aufgemotzter Oberfläche und nur auf den ersten Blick bestechenden Resultaten.
Akustik-Müll (z.B. Rap, Techno, Hip-Hop) und unnatürlich verfärbter Schall (elektrisch übertragene und / oder verzerrte Instrumente) sind denkbar ungeeignet als Test-Material für Kompression und sonstige Verarbeitung komplexer akustischer Vorgänge. Mit passender Hack-Musik wird nahezu jeder Codec spätestens ab 96 kBps "super" klingen.
Auch ist es primär unwichtig, welche editorischen Zusatzfunktionen ein En-/Decoder für MP3, WMA usw. aufweist, wenn dafür die entsprechenden Wandler-Algorithmen weniger gut sind. Insofern hat ein Test wie der 6/2k1 in der Computer-BILD erschienene wenig Aussagekraft.
Qualitativ wichtig ist nicht, ob und wie wieviele Musikdateien womit mehr oder weniger illegal aus dem Netz geholt und auf CD gebrannt werden können, sondern allein, wie gut komplexe natürliche Schallprozesse möglichst ökonomisch und dennoch klangtreu komprimiert und dekomprimiert werden können und wie sich entsprechende Programme zum Aufbereiten, Hören, Präsentieren und Archivieren eignen.

Direkte Kompression durch Audio Capture und CD Ripping

Wie bereits oben zu Real Audio unter 1 (b) beschrieben, können Sie bestimmte Programme als Hardware-simulierende Devices nutzen, an deren Eingang Sie entweder live generierte Audio-Datenströme einspeisen oder als digitale Konserve eine CD(R), deren Spuren eingelesen (ripped) werden. Diese Programme wandeln die eingelesenen Informationen direkt um in entsprechende Kompressionsformate:

           Programm      erzeugt
Audio-Format               durch / *nach

file
conversion constant
stream capture CD
ripping

Real Audio Encoder 3.1   *.ra (3 und 5) X           X

Real Producer G2 8.5   *.rm X           X

Real Jukebox *.ra, *.mp3 X      X

Audio Active Production Studio (AAPS) 2.04 *.mp3 X    X

Windows Media Encoder 7 + 8 *.wma 7 X           X

Sonic Foundry Sound Forge 5.0 *.rm /mp3 /wma 7 X *X

dB PowerAmp Music Converter *.ra,*.mp3pro, wma8 usw. X X

Music Match Jukebox (MMJB) 6.0 *.mp3, *.wma 7 X X      X

Wie durch eigene Versuche ermittelt, eignen sich nicht alle CD(R)- oder DVD-Laufwerke für dieses Verfahren; das im Gericom-Webboy eingebaute TORiSANDRD-U824 produzierte ohne optionale Fehlerkorrektur mit der Music Match Jukebox V. 6.0 (64-kBit-)*.wma, die vom Start weg in kritischen Höhenbereichen (z.B. Schlagzeug: Hi-Hat) immer mehr zischelten bzw. nach Leslie-Sound klangen, während der an diesem Notebook via LPT1 angeschlossene, bereits betagte HP-Brenner 7100e (2x2x6x) mit bis 3-facher Einlesegeschwindigkeit in allen entsprechenden Fällen gleichbleibend gute Resultate lieferte. Die Wandler-Qualitäten des neuen Sound Forge 5.0 sind überragend, desgleichen die mit dB PowerAmp und dem hierbei eingebundenen RCA-Player/Konverter erzeugten mp3pro-Files.
-------------------------------------------------------------------
Beim Test-Encoding verwandtes Equipment:

Modifizierter Cassettenrecorder ITT SL 700 Stereo; KENWOOD KX 9010 u.a. an Soundkarte Line in bzw. via USB-Interface U2A
[a] Cyrix 150+, 16 (bzw. 32) MB EDO-RAM, HD 2.1 GB (SCSI), MIRO-PCM 1;
[b] P II/300, 64 bzw. 192 MB S-DRAM, HD 10+ GB (3 Festplatten), Soundkarte 16-Bit
[c] IBM Thinkpad 755 C: 486/50 MHz, 20 MB RAM, HD 350 MB, Sound 16 Bit, ext. ECM mit Präsenzanhebung
[d] P 166 MMX, 32 MB RAM, HD 2.1 GB, Sound 16 Bit
[e] Gericom Webboy, P III /800 MHz, 128 MB RAM, 10 GB HD, Sound 16 Bit (alle Versuche Januar bis 25.8.2k1; Signal-Einspielung via USB-Interface U2A);
[f] ASUS L 8400 (P III /850 MHz, Audio-Line in, zusätzl. ab 9/2k1)
[g] Bullman EK4 P4 Grand (P IV/2.8 GHz, zusätzl. ab 2/2k3)
[h] IBM Thinkpad 760 XL (Pentium 1/166 MMX, 64 MB RAM, 3 GB HD, ab Mitte September 2k3)
[i] DELL Inspiron 9100 (P IV/3,4 GHz, 1 GB RAM, 100 GB HD), ab Dezember 2k5
[j] hp Compaq nx6110, Centrino 1,5 GHz, erweitert auf 1,2 GB RAM, 40 GB HD, ab Juni 2k5
[k] ACER-Handheld n35 (266 MHz, 64 MB SD-RAM, AC'97-Codec), ab Oktober 2k5
[l] OLYMPUS Voice Recorder WS-200S und WS-300M, ab Ende Oktober 2k6
[m] Marantz-Flashrecorder PMD680 (für mp2), ab 8/2k7
[n] OLYMPUS Voice-Recorder DS-40, ab Anfang 2k8
[o] Zoom-H2 SD(HC)-Flashrecorder, ab Mitte 2k8
[p] Medion Akoya (Netbook) E1212, ab März 2k9
[q] Apple Mac Book pro, ab Juni 2k10
Windows 95, 98SE, 98ME, 2k, Server 2003, XP prof., Vista Home premium, Windows 7; Cool Edit Pro 1.0, 1.2[a], 2.0 / Audition 1.5 - 3.0 (mit mp3-Codec und ab 4/2k1 Direct-X-Plugins); RA-Encoder 3.0 und 3.1 (32 Bit; für *.ra) und RM-Encoder 5.1 (für *.rm); für MP4-AAC s. Fußnote zu Tabelle 3 (oben); Fraunhofer-Codecs MP3; LAME-Encoder ab V. 288; RCA-Codecs MP3Pro; Windows Media Encoder 7, 8, 9, 9.1; Nero Wave Edit für die neuen AAC-Codecs; Real-One-Player 10; Real-One-Player 1 und 1.1 für PDA's; Easy Real Converter 1.4 (mp3 -> RA) u.a.

Wird ergänzt. Kommentare sind jederzeit willkommen.
(c) Dr. W. Näser, Marburg 12/96 ff.

[101] Stand: 9.6.2014 (zuletzt 29.9.2011)

alter Typ	Vers.	Modem	mono/ stereo	Bandbr lHz	Kompr.- Faktor	Enc kbps	Sampl kHz	kByte sec	CPU (*stream)
1	5.0	14.4	m	2.5	280	4.9		0.6	Pentium 1)
2	5.0	14.4	m	3	220	6.5		0.8	Pentium 1)
3	2.0	14.4	m	2.5	196	8	8	1	Pentium
4	5.0	28.8	m	3	196	8	8	1	Pentium
5	5.0	28.8	m	4	196	8.5		1	Pentium
6	5.0 - 9.0	28.8	m 2)	4	117,3	12	8	1.5	486/50
7	2.0	28.8	m	4	97,7	15.2	8	1.8	Pentium
8	3.0	28.8	m nar	4	88	16	8	2	Pentium
9	3.0	28.8	m med	4.7	88	16	11	2	Pentium
10	3.0 - 9	28.8	m full	5.5	88	16	11	2	Pentium
11	5.0	28.8	m wide	8	88	16	16	2	Pentium 3)
12	3.0	28.8	stereo	4	70	20	8	2.5	486/50
	9.0	Sub 56k				26
13	5.0	56.6	m	8	44	32		4	Pentium 3)
14	5.0	56.6	stereo	5.5	44	32		4	Pentium
	9.0	56k				34
15	3.0	ISDN	m	11	35	40	22	5	Pentium
16	3.0	ISDN 4)	stereo	8	35	40	16	5	P 120
	9.0	ISDN				50
17	3.0	2xISDN	m	20	17,6	80	44	10	P II /233
	3.0	2xISDN	stereo	16	17,6	80	32	10	P II/233
	9.0	150k LAN				150
	9.0	256k DSL				225
	9.0	384k DSL				350
	9.0	weitere Modi	bis			1500

Mode	Encode /Sampling	Real Audio oder mp3	Bandbr kHz	Länge Bytes	Kompr- Faktor	kByte/ sec	Stunden / CD
Mode	Encode /Sampling	Real Audio oder mp3	Bandbr kHz	Länge Bytes	Kompr- Faktor	kByte/ sec	Normal	LP (80')
1	20 kbps /11 kHz	mp3	4	638.433	70	2,5	> 86	> 93
1	20 kbps / 8 kHz	RA	4	639.460	70	2,5	> 86	> 93
2	32 kbps /16 kHz	mp3	5.5	1021.440	44	4	> 54	> 58
2	32 kbps /16 kHz	RA	5.5	1018.692	44	4	> 54	> 58
3	40 kbps /16 kHz	RA	8	1278.820	35	5	43	> 46
4	56 kbps /22 kHz	mp3	11	1786.680	25	7	> 30	> 33
5	80 kbps /32 kHz	mp3	< 15	2552.400	17,6	10	> 21	> 23
5	80 kbps /32 kHz	RA	16.0	2557.540	17,6	10	> 21	> 23

Nr.	Dateiname	Encoder*) /	Encoding Mode / Bit Rate	Länge Bytes	Kompr- Faktor	kB/ sec		Stunden / CD
Nr.	Dateiname	Mode Preset	Encoding Mode / Bit Rate	Länge Bytes	Kompr- Faktor	kB/ sec	20'	74'	80'
1	m6vq-020.vqf	vq2 / vqf	Stereo 20 kbps	660.531	70,6	2,5	23	85	92,4
2	m6wm-020.wma	wm7 /wma	Stereo 20 kbps	674.295	69	<2,6	23	85	92,3
3	m6ac-028.lqt	lqf 5 /AAC	Stereo 28 kbps	681.888	68,4	2,6	23	85,5	92,3
4	m6hq-033.mp3	ce1.2 / mp3	32 kbps /16 kHz	1.057.824	44	4	15	55	59,4
5	m6wm-032.wma	wm7 / wma	32 kbps	1.080.560	43	4	15	55	59,4
6	m6ac-b56.lqt	lqf 5 /AAC	bright St. /56 k	1.110.784	42	4,2	14	52,5	56,7
7	m6ac-s56.lqt	lqf 5 /AAC	smooth St. /56 k	1.110.820	42	4,2	14	52,5	56,7
8	m6ac-is1.lqt	lqf 5 /AAC	ISDN 1 / 56 k	1.639.856	28,4	6,2	9,6	35,5	38,3
9	m6m3-isd.lqt	lqf 5 / mp3	ISDN 1 / 56 k	1.668.640	28	6,3	9,5	35	37,8
10	m6hq-064.mp3	FhG / mp3	HQ 64 kbps	2.104.960	22	8	7,4	27,5	29,7
11	m6ac-064.lqt	lqf 5 / AAC	64 kbps	2.170.684	21,5	8,2	7,2	26,8	29
12	m6m3-064.lqt	lq f 5 / mp3	64 kbps	2.197.300	21,2	8,3	7,2	26,5	28,6
12a	m6av-096.epc	av2 / epac	96 kbps	3.134.098	14,9	11,8
13	m6wm-096.wma	wm7 /wma	"CD" / 96 kbps	3.196.166	14,6	12,1	4,8	18,2	19,8
14	m6tf-128.aac	M4S / AAC	T/f 2x64 kbps	3.350.624	14	12,7	4,7	17,5	19
15	m6tf-144.aac	M4S / AAC	T/f 2x72 kbps	3.561.863	13	13,5	4,4	16,3	17,6
16	m6cp-128.mp3	M3Cp / mp3	Quick 128 kbps	4.218.946	11	16	3,7	13,8	15
17	m6hq-128.mp3	FhG / mp3	HQ 128 kbps	4.219.623	11	16	3,7	13,8	15

Nr.	Datei	Bytes	Typ / Stereo.Modus	kBit/s	Samp	Komp	Klangbild / Durchzeichnung	Note
1	appl-32.ra	124.088	Ra 5, 5 kHz	32		44	MW-Qualität, schwimmend	4-
2	appl-32.vqf	124.251	Twin-VQ	32	16	44	etwas heller als [1]	4+
3	appl-32.wma	132.122	WMA 8	32		41,3	schwimmend, metallische Spitzen	4-
4	appl-L40.mp3	154.800	Lame CBR 3.88	32		35	Mittelwellenklang	4
5	appl-20.vqf	154.952	Twin-VQ	40	22	35	etwa wie [7]	3
6	appl-40.mp3	155.160	FhIIS	40		35	etwa wie [7]	3
7	appl-40.ra	155.620	ISDN	40		35	heller als appl-40.mp3	3+
8	appl-40.wma	164.378	WMA 8	40	32	35	etwas heller als [7], metallisch	2-
9	appl-48.mp3	186.192	WMA 7	48		30	neutral	2
10	appl-48.wma	194.936	WMA 8	48	44.1	28	etw.breitbandiger, leiser als [7]	2
11	appl-mj56.mp3	217.234	MMJB 6, CBR	56		25	etwa wie [10]	2
12	appl-64.mp3	247.104	FhIIS in AAPS 2.04	64		22	neutral, kräftig	2
13	appl-64.vqf	247.510	TwinVQ	64		22	wie [12]	2
14	appl-L64.mp3	247.640	Lame CBR 3.88	64		22	bedeckt gegenüber [12]	2-
	Thomson Lyra	(Stream)	MP3, Intern-Decoder	64		22	klar, neutral	1-2
15	appl-pro.mp3	248.605	MP3Pro (Demo-Enc.)	64		22	hell, klar, wenig verfärbt*)	1-
16	appl-64.wma	261.836	WMA 8	64		21	hell-metallisch, etwas schwimmend	2
17	appl-80.ra	310.660	2xISDN	80		17,6	hell, klar	1
18	appl-L80.mp3	309.600	Lame CBR 3.88	80		17,6	hell, klar, neutral	1
19	appl-96.mp3	371.531	FhIIS V.1 Build 63	96		14,7	klar	1
20	appl-96m.aac	372.547	AAC Main (MBSoft)°)	96		14,7	klar	1
21	appl-96.wma	391.118	WMA 8	96		14	klar	1
22	appl-112.aac	435.034	TF-AAC, PsyTel 1.24°)	112		12,6	klar, brillant, völlig neutral	1

Programm	erzeugt Audio-Format	durch / *nach
Programm	erzeugt Audio-Format	file conversion	constant stream capture	CD ripping
Real Audio Encoder 3.1	*.ra (3 und 5)	X	X
Real Producer G2 8.5	*.rm	X	X
Real Jukebox	.ra, .mp3	X		X
Audio Active Production Studio (AAPS) 2.04	*.mp3	X		X
Windows Media Encoder 7 + 8	*.wma 7	X	X
Sonic Foundry Sound Forge 5.0	*.rm /mp3 /wma 7	X		*X
dB PowerAmp Music Converter	.ra,.mp3pro, wma8 usw.	X		X
Music Match Jukebox (MMJB) 6.0	.mp3, .wma 7	X	X	X