Justo esta semana, Spotify comenzó a probar archivos de audio «sin pérdidas». Pero, ¿qué es exactamente el audio «sin pérdidas» y cómo funciona la compresión de audio digital?
¿Cómo funciona la compresión de audio?
El objetivo de la compresión de audio es reducir la cantidad de bits necesarios para reproducir con precisión un sonido analógico. El primer proceso que veremos se llama «con pérdidas». La compresión con pérdida es una técnica unidireccional que descarta datos no críticos para ahorrar espacio. Estas técnicas son los métodos más comunes utilizados para comprimir archivos de audio y aparecen en archivos MP3, AAC y WMA por igual. Hay dos lugares en los que los códecs con pérdida buscan ahorrar bits: tasa de bits y psicoacústica.
Tasa de bits
La tasa de bits mide la cantidad de bits utilizados para codificar un solo segundo de audio. Por ejemplo, si usamos una codificación de 8 kilobits por segundo (kbps) de baja calidad, nuestro algoritmo se limita a usar solo 8 kilobits de datos para describir cada segundo de audio. Eso es como tratar de describir una fotografía a todo color con solo unos pocos cientos de píxeles. Es posible que obtenga los trazos generales correctos, pero en general verá una imagen severamente degradada. Si usamos una tasa de bits de mayor calidad como 192 kbps, tenemos mucho espacio para cubrir los detalles matizados. Volviendo a nuestro ejemplo fotográfico, ahora tenemos suficientes píxeles para describir las distintas luces, sombras y colores de una imagen. Una tasa de bits alta no determina la calidad de una grabación por sí sola, pero una tasa de bits baja puede limitar severamente la calidad de salida.
Psicoacústica
La psicoacústica es la ciencia de cómo el cerebro entiende los sonidos. Mediante la manipulación de peculiaridades conocidas en la forma en que los humanos perciben el sonido, los algoritmos de compresión pueden eliminar hábilmente detalles que la mayoría de los oídos humanos no pasan por alto. El objetivo es «redondear» la información que no cambiará la calidad de audio percibida de una pista, eliminando juiciosamente solo la información sin importancia.
Por ejemplo, es posible que sepa el rango típico de audición humana está entre 20Hz y 20kHz. Obviamente, los sonidos fuera de ese rango se pueden eliminar. Además, el rango más detallado de la audición humana se encuentra entre 100Hz y 4kHz, y eliminar los sonidos bajos fuera de esos rangos de frecuencia daña mínimamente la calidad de una grabación. Podemos hacer un truco similar con sonidos muy contrastantes. Si un sonido muy fuerte y un sonido muy bajo se reproducen al mismo tiempo, el sonido bajo es mucho más difícil de percibir de lo que sería por sí solo. Los codificadores aprovechan este «enmascaramiento de sonido» para eliminar el sonido silencioso, ahorrando bits en el proceso.
La frecuencia también puede afectar qué tan bien percibimos los sonidos. Por ejemplo, un golpe de batería persistente y de baja frecuencia tiende a ahogar los armónicos más delicados y de alta frecuencia de los instrumentos melódicos. Y el enmascaramiento de sonido es especialmente efectivo por encima de 15 kHz, donde el oído humano suele ser menos sensible para empezar.
Los esquemas comunes de compresión de audio como MP3 aprovechan la gama completa de posibilidades de compresión mientras intentan permanecer lo más fieles posible a la grabación original. Por supuesto, algunas personas sienten que eliminar estas frecuencias daña seriamente la grabación. Es por eso que existen estándares de compresión sin pérdidas.
¿Qué es el audio «sin pérdidas»?
El objetivo de la compresión de audio sin pérdidas es reducir el tamaño del archivo y dejar intacto el audio original. Estos códecs no utilizan ninguna de las técnicas de compresión permanente anteriores, sino que se centran en métodos de compresión de datos totalmente reversibles. Utilizan técnicas de compresión sin pérdida prestadas de algoritmos de compresión de archivos como ZIP para eliminar datos redundantes y preservar la integridad de la información subyacente. Dos códecs de audio populares sin pérdidas, FLAC y Apple Lossless (ALAC), utilizan esquemas basados en compresión ZIP.
Centrarse en la compresión de datos solo significa preservar muchos de los detalles que MP3 y otros estándares con pérdidas borrarían. Si tiene oídos agudos y una configuración de escucha de alta calidad, la diferencia puede ser palpable.
Sin embargo, la compresión sin pérdidas no solo es buena para escuchar: también es una excelente herramienta de almacenamiento. Al igual que no querría que un JPG de 72 ppp fuera la única copia digital de las fotografías de Ansel Adam, no queremos solo MP3 de 128 kbps de «Kind of Blue». Los estándares sin pérdida como FLAC nos permiten almacenar audio de manera eficiente sin tirar datos potencialmente valiosos. También facilitan la remasterización y la redistribución de ese audio, ya que comenzar con maestros sin compromiso significa un producto terminado de mayor calidad.
Conclusión: ¿Puedes notar la diferencia?
Los formatos de audio sin pérdidas permiten grabaciones con mejor sonido. Pero a veces las diferencias entre un MP3 de alta calidad y un archivo sin pérdidas son casi imperceptibles, especialmente para el oído inexperto. Si desea ver si sus auriculares (y oídos) son lo suficientemente agudos como para notar la diferencia, NPR tiene una prueba divertida; solo tenga en cuenta que los auriculares baratos y los parlantes de las computadoras portátiles no podrán reproducir las sutiles diferencias entre el audio sin pérdidas y los MP3. Para un análisis más serio de los códecs, consulte Calificaciones del codificador de SoundExpert.