Codificación de Audio Digital: MPEG, AAC y Dolby AC-3

El procesado de cada subbanda se hace en bloques de datos que dan lugar a una trama de señal de salida.
Capa 1:
- Trama de 384 muestras PCM originales (dura 8 ms a 48 kHz).
- 12 muestras por 32 subbandas.
Capa 2:
- Trama de 1152 muestras PCM originales (dura 24 ms a 48 kHz).
- 36 muestras por 32 subbandas.
El tren de datos comprimidos es una sucesión de tramas.

fs = 32, 44.1 y 48 kHz.
Comprime a:
- Canal mono a 32-192 kb/s.
- Canal estéreo a 64-384 kb/s.
La ITU recomendó MPEG-1 capa 2 para contribución, distribución y difusión en 1993.

Aparece para permitir desde estéreo hasta multicanal 5.1.
Compatible hacia atrás con MPEG-1, de modo que los decodificadores MPEG-1 decodifican la señal estéreo MPEG-2.
Layer II está contemplado para DVB y DAB.
Permite manejar señales con fm más bajos (16, 22.05 o 24 kHz), para mejorar la calidad resultante cuando se transmite por debajo de 64 kb/s por canal, sobre todo útil en aplicaciones vocales.

El procedimiento se realiza para cada canal por separado, y sólo al final, se multiplexan todos los datos en una trama única.
Los dos canales estéreo (aplicaciones ST) o el estéreo compatible (aplicaciones 5.1) van en la parte indicada como “subband-bits” sin superar el equivalente a 384 kb/s.
Los canales adicionales van en la parte de datos auxiliares.
Resulta imprescindible trabajar con mayor Rb para que el número de bits disponibles por trama (que sigue durando 24 ms) sea suficiente para todos los canales (el máximo será de 1066 kb/s).

MPEG-1/2 Layer III es la codificación conocida simplemente como MP3. Está recogida en los mismos documentos normativos que MPEG-1/2 Layer I y II.
No es compatible con capas I y II.
Mejora la ganancia de compresión: 128 kb/s para estéreo.
La MDCT (Transformada de Coseno Discreta Modificada) adicional al banco de filtros proporciona una subdivisión de cada una de las 32 subbandas con 6 o 18 componentes cada una.
La asignación de bits se realiza mediante un doble lazo de iteraciones anidadas.
Los valores recuantificados en base a los bits asignados, se codifican con un código Huffman de VLC (Variable Length Coding).

La versión de alta eficiencia es HE-AAC y la reciente HE-AAC v2.0. Está asumido por MPEG-4 como método por defecto. Inicialmente era una opción dentro de MPEG-2.
Permite estéreo y multicanal (hasta 48 canales).
Maneja muestreos entre 8 y 96 kHz.
No es compatible con MPEG Layers I, II o III – Non Backward Compatible (NBC).
Constituye una segunda generación de algoritmos de codificación.
TNS: Temporal Noise Shaping. Mejora calidad de voz a bajo Rb.
Intensity coding and M/S coding son para Joint stereo y han mejorado respecto a MP3.
La predicción sólo se usa en el poco habitual main profile y toma datos desde la salida del cuantificador. Mejora la codificación de señales muy tonales.
Los pasos básicos siguen la filosofía del MP3:
- Análisis de alta resolución espectral: el banco de filtros obtiene 1024 líneas o valores espectrales para cuantificar, con un único MDCT y mejor tiempo de respuesta que el analizador híbrido de MP3 (una tercera parte, lo que también reduce los pre-ecos).
- La cuantificación es no uniforme y existe factor global de ganancia.
- Se usa codificación Huffman de longitud variable.

Codificación a entre 56 kb/s y 640 kb/s.
Ejemplo típico 5.1 a 384 kb/s o a 448 kb/s.
Estéreo típico a 192 kb/s.
Siempre transmite el multicanal discreto.
La decodificación tiene previsto Downmixing para equipos no multicanal.
La trama de datos AC-3 suele transportarse:
- Dentro de tramas MPEG-2, uno o varios AC-3 en un TS.
- Dentro de señal AES3.
Proceso para cada canal de la señal 5.1:
- Cada bloque de M o M/2 muestras PCM se transforma para obtener coeficientes transformados mediante MDCT. Equivale a banco de filtros, pero no hay tales filtros, sólo hay coeficientes tipo espectral.
- Cada uno de los M coeficientes espectrales reales se cuantifican en punto flotante. Se gestiona la asignación de bits en base a un modelo perceptual con cálculo de umbrales de enmascaramientos (SMR). Se codifican los exponentes (se denominan ‘envolvente espectral’). Se asignan los bits restantes a las mantisas. Mantisas y envolventes se introducen en la trama.
- Una trama AC-3 tiene la duración de 1536 muestras de audio PCM de cada canal (32 ms a 48 kHz). Esto puede restringir combinaciones fm@Rb. La trama tiene cabecera con datos para sincronización y decodificación y también lleva bits para detección de errores.