Wie mp3 funktioniert und weshalb Du mit Verzerrungen rechnen musst


Um Deinen neusten Mix auf Deinem Telefon hören zu können wirst Du wahrscheinlich wie die restlichen 99.99% der Produzenten Deine Musik in mp3 oder AAC konvertieren. Das spart Speicherplatz und die Qualität reicht vollkommen aus um den Track im Auto oder mit Ear-Buds hören zu können.

Wahrscheinlich hast Du manchmal das Gefühl, Dein Mix verzerre und wenn Du das im Studio beheben möchtest sind die Verzerrungen nicht mehr zu hören.
So ist es jedenfalls mir ergangen und ich dachte es liege an meinen Kopfhörern oder den Digital-Analog Wandlern meines iPhones. Als mir das dann aber in verschiedenen Situationen und unterschiedlichen Räumen aufgefallen ist, war die einzige Schlussfolgerung, dass es nur an der verlustbehafteten Komprimierung des mp3 liegen kann.

Die Artefakte die ein mp3 erzeugt klangen für mich sonst aber anders. Dieses lästige Blubbern war zwar auch vorhanden, doch die Verzerrungen passten gar nicht ins Bild.

Wie funktioniert eigentlich mp3?

Mp3 ist kein Kompressionsverfahren wie du das von einer .zip Datei her kennst. Eine .zip Datei komprimiert die Datei verlustlos. Das heisst, wenn Du die Datei entpackst, werden alle Informationen die Du im Originalfile hast noch vorhanden sein.

Bei der verlustbehafteten Komprimierung sieht das anders aus. Wandelst Du eine .wav Datei in ein mp3 File bedient sich der Algorithmus eines psychoakustischen Phänomens. Dieser Effekt wird «Maskierung» genannt. Das bedeutet dass laute Töne leisere Klänge überlagern und Du diese leisen Sounds deshalb nicht hören kannst.

Jeder kennt das von Partys oder Konzerten. Dein Kollege ist keine drei Meter von Dir entfernt, doch er kann schreien wie er will, die Musik ist so laut, dass Du ihn nicht hörst. Die lauten Klänge der Lausprecher maskieren die Stimme Deines Kumpels.

Dies passiert andauernd. Auch bei leisen Geräuschen. Wir hören ja mit unserem Hirn und nicht mit den Ohren. Diese sind nur ein Schallempfänger, wie ein Mikrofon. Unser Hirn errechnet dann die Schallereignisse daraus, so wie der Computer die analogen Spannungen in digitale Bits und Bytes umwandelt. Unser Hirn filtert die wichtigen Ereignisse heraus und lässt die weniger Wichtigen links liegen. Dieser Effekt macht sich der Algorithmus des Fraunhofer Codecs (mp3) zu Nutze. Und zwar so gut, dass 10% der Ursprungsdaten ausreichen, um die Musik akkurat wiedergeben zu können.

Damit Du Dir ein Bild machen kannst, hier mal ein Ausschnitt eines Techno Tracks als Wav Datei, mp3 und die Differenz zwischen den Beiden (d.h. was effektiv dem Ursprungssignal entzogen wird).

Unkomprimiert 24 bit

 

mp3 256 kbps

 

Differenz der beiden Signale (was dem .wav File entzogen wurde)

 

 

Ist es möglich, dass die Konvertierung Verzerrungen erzeugt? Wenn ja, wie und weshalb?

Eigentlich ist das ja unlogisch. Da Daten entfernt werden, sollte die Musik ja leiser werden und deshalb nicht verzerren. Leider funktioniert das anders.

Hören und schauen wir uns mal eine Sinus Welle von 1kHz an. Diese klingt folgendermassen:

 

1kHz

 

Hier eine Sinus Welle von 3kHz:

 

Wenn wir diese beiden Frequenzen mischen, ergibt sich folgender Ton:

 

Du siehst wie sich die beiden Frequenzen teils addieren, teils subtrahieren. Obwohl die Laustärke nicht als leiser empfunden wird, hat das Signal eine geringere Amplitude als die Beiden Ausgangsfrequenzen. Bei der Masterbus-Bearbeitung wird das File nun lauter gemacht, so dass sich die Spitzen leicht unter 0 dBFS (Dezibel Full Scale, digital 0) bewegen.

Stellen wir uns mal vor, diese Frequenz von 3kHz wird wegen des Maskierungseffektes vom Algorithmus herausgefiltert. Die bleibende Frequenz sind die 1000Hz, welche aber ursprünglich eine höhere Amplitude hatte. Diese übersteigt jetzt die Null Grenze und führt deshalb zu digitalen Verzerrungen. Es ist locker möglich, dass ein mp3 File drei dB lautere Peaks hat als das originale, hochauflösende .wav File.

 

 

Deshalb ist Apple so erpicht darauf, dass nur Musik mit dem Label «MFiT» versehen wird, welche mindestens 1dB TP (True Peak, Spitzen nach der Konvertierung in AAC und der Digital-Analog Wandlung) Headroom aufweist.

Willst Du wissen, was MFiT ist? Hier geht es zum Beitrag.

 

Verlustbehaftete Komprimierung ist ein zweischneidiges Schwert

Mp3 hat das Musikhören revolutioniert. Die Erfindung dieses Mediums ist mit der Erfindung der Schellackplatte und des Hörfunks gleichzusetzten. Die Musik kann in einem Wimpernschlag kopiert und rund um die Welt geschickt werden. Trotzdem gibt es Einbussen, die Du aber mit einem gewissen Verständnis im Zaum halten kannst. Wenn Du darauf achtest, dass Du genug Spielraum für die Peaks lässt, kannst Du digitalen Verzerrungen vorbeugen. Diese «Over Sample Peaks» sind auch messbar. Viele Analyser können heutzutage die effektiven Spitzen nach der Wandlung bestimmen. Mittlerweile findest Du diese Meter schon in den aktuellen DAWs.

Schwieriger wird es, wenn Du die Pegelspitzen nach der Konvertierung in mp3, aac oder wma errechnen möchtest. Aber auch dafür gibt es Werkzeuge. Die Pluginschmiede Sonnox ist auf diesem Gebiet führend. Sie bietet zwei Programme an:

  1. Codec Toolbox, welches Dir in Echtzeit erlaubt verschiedene Komprimierungsverfahren anzuhören und die Oversample Peaks nach der Konvertierung anzeigt.
  2. Fraunhofer Pro-Codec, das in mehrere Formate gleichzeitig zu konvertieren und sogar das Cover und die Metadaten direkt ins File schreiben kann. Mit dem Plugin kannst Du Dein Gehör einem Doppel-Blindtest mit den verschiedenen Codecs unterziehen.

 

Apple bietet das «Roundtrip AAC Plugin» an. Dieses kostenlose Programm erlaubt das Abhören eines Musikstückes als MFiT (iTunes+) und zeigt die Oversamplepeaks nach der Konvertierung an. Dieses Tool ist nebst anderen Voraussetzungen Pflicht um bei Apple als zertifiziertes MFiT Studio zu gelten. In typischer Apple-Manier, ist das Plugin aber nur für OSX erhältlich. Hier die Downloadseite der Apple Audiotools.