Optimizando la Calidad de Voz en Redes IP: Factores Clave y Modelos de Evaluación

Calidad de Voz en Redes IP

La VoIP enfrenta problemáticas propias de las redes de datos, que se manifiestan como degradaciones en la calidad del servicio (QoS) o la calidad de la experiencia (QoE) percibida por los usuarios. Estas degradaciones pueden deberse, por ejemplo, a retardos, jitter (diferencia de retardos) y pérdida de paquetes, entre otros factores. Para que la tecnología de VoIP pueda ser utilizada tanto a nivel corporativo como a nivel de operadores telefónicos, es esencial garantizar una calidad de voz aceptable. A continuación, se presenta un análisis acerca de la medida de la calidad de voz.

Se analizarán a continuación los factores específicos que afectan la calidad de voz percibida sobre redes de paquetes.

Factores que Afectan la Calidad de la Voz sobre Redes de Paquetes

Realizaremos una pequeña discusión acerca de los parámetros que influyen en la calidad de la voz transmitida a través de la red de datos:

Factor de Compresión y Codificación

Para poder transmitir la voz a través de una red de datos, es necesario realizar previamente un proceso de digitalización y codificación, el que puede degradar la señal de voz original, debido a la utilización de técnicas de compresión (Ver 2.1).

Pérdida de Paquetes

A diferencia de las redes telefónicas, donde para cada conversación se establece un vínculo “estable y seguro”, las redes de datos admiten la pérdida de paquetes. Esto está previsto en los protocolos “seguros” de alto nivel, y en caso de que ocurra, los paquetes son reenviados. En los protocolos diseñados para tráfico de tiempo real generalmente no se reciben confirmaciones de recepción de paquetes, ya que si el canal es suficientemente seguro, estas confirmaciones cargan inútilmente al mismo.

En aplicaciones de voz y video, el audio es “encapsulado” en paquetes y enviado, sin confirmación de recepción de cada paquete.

Si el porcentaje de pérdida es pequeño, la degradación de la voz también lo es. Los porcentajes de pérdida admisibles dependen de otros factores, como por ejemplo la demora de transmisión y el factor de compresión de la voz.

Existen técnicas para hacer menos sensible la degradación de calidad en la voz frente a la pérdida de paquetes. La más sencilla consiste en simplemente repetir el último paquete recibido.

También cuentan como “perdidos” los paquetes que llegan a destiempo o fuera de orden.

Existen métodos para mitigar el efecto de la pérdida de paquetes. Un ejemplo se describe en el Anexo I de la Recomendación ITU-T G.711 [31], donde se detalla un método de cancelación de paquetes perdidos (PLC, Packet Loss Concealment). Este método propone regenerar la forma de onda del paquete perdido en base a información extraída de la señal previa a la pérdida del paquete.

Demora

Un factor importante en la percepción de la calidad de la voz es la demora. La demora total está determinada por varios factores, entre los que se encuentran:

Demora debida a los algoritmos de codificación
En forma genérica, cuanto mayor es la compresión, más demora hay en el proceso (los codecs requieren más tiempo para codificar cada muestra).
Algoritmos de muestreos/ compresión: G. 711 (64kb/s), G.728 (16kb/s), G.729 (8kb/s)
Demoras de procesamiento
Es el tiempo involucrado en el procesamiento de la voz para la implementación de los protocolos. Generalmente puede ser despreciado.
Demoras propias de la red (latencia)
Las demoras propias de la red están dadas por la velocidad de transmisión de la misma, la congestión, y las demoras de los equipos de red (routers, switches, etc.)

Un efecto secundario, generado por las demoras elevadas, es el eco. El eco se debe a que parte de la energía de audio enviada es devuelta por el receptor. En los sistemas telefónicos este efecto no tiene mayor importancia, ya que los retardos o demoras son despreciables, y por lo tanto, el “eco” no es percibido como tal.

Cuando la demora de punta a punta comienza a aumentar, el efecto del eco comienza a percibirse.

Eco

Si el tiempo transcurrido desde que se habla hasta que se percibe el retorno de la propia voz es menor a 30 ms, el efecto del eco no es percibido. Asimismo, si el nivel del retorno está por debajo de los –25 dB, el efecto del eco tampoco es percibido. En las conversaciones telefónicas habituales, generalmente existe un retorno de la propia voz en niveles audibles (mayores a –25 dB), pero la demora es mínima, por lo que este retorno no es percibido como eco.

El retorno que produce el eco se produce en diferentes elementos de la red, varios de los cuales se esquematizan en la siguiente figura.

Los teléfonos analógicos pueden generar retorno en sus “híbridas”. Las “híbridas” de las tarjetas de abonado también pueden generar retorno. Los teléfonos celulares tienen el micrófono muy cerca del auricular, y pueden generar retorno acústico. Los teléfonos IP de hardware pueden generar retorno acústico, si se utilizan en “manos libres”. Los teléfonos IP de software pueden generar retorno en la tarjeta de sonido del PC, o en las diademas.

Todos estos retornos pueden ser percibidos como eco, si las demoras entre su generación y su escucha es apreciable. Como las redes IP tienen retardos de punta a punta muy superiores a los existentes en las redes TDM, todos estos retornos se pueden percibir como eco, y deben ser evitados o cancelados.

La mayoría de los sistemas que utilizan VoIP disponen de canceladores de eco en algún punto del camino de audio.

Variaciones en la Demora (Jitter)

El “jitter” es la variación en las demoras (latencias). Por ejemplo, si dos puntos comunicados reciben un paquete cada 20 ms en promedio, pero en determinado momento, un paquete llega a los 30 ms y luego otro a los 10 ms, el sistema tiene un “jitter” de 10 ms.

El receptor debe recibir los paquetes a intervalos constantes, para poder regenerar de forma adecuada la señal original. Dado que el “jitter” es inevitable, los receptores disponen de un “buffer” de entrada, con el objetivo de “suavizar” el efecto de la variación de las demoras. Este buffer recibe los paquetes a intervalos variables, y los entrega a intervalos constantes.

Es de hacer notar que este “buffer” agrega una demora adicional al sistema, ya que debe “retener” paquetes para poder entregarlos a intervalos constantes. Cuánto más variación de demoras (“jitter”) exista, más grande deberá ser el buffer, y por lo tanto, mayor demora será introducida al sistema. Típicamente los jitter-buffers introducen una demora de entre 10 ms a 30 ms.

Tamaño de los Paquetes

El “tamaño” de los paquetes influye en dos aspectos fundamentales en la transmisión de la voz sobre redes de datos: La demora y el “ancho de banda” requerido.

Para poder transmitir las muestras codificadas de voz sobre una red de datos, es necesario armar “paquetes”, según los protocolos de datos utilizados (por ejemplo, IP). Un paquete de datos puede contener varias muestras de voz. Por ello, es necesario esperar a recibir varias muestras para poder armar y enviar el paquete. Esto introduce un retardo o demora en la transmisión. Desde éste punto de vista, parece conveniente armar paquetes con la mínima cantidad de muestras de voz (por ejemplo, un paquete por cada muestra). Sin embargo, hay que tener en cuenta que cada paquete tiene una cantidad mínima de información (bytes) de control (cabezal del paquete, origen, destino, etc.). Esta información (“sobrecarga” u “overhead”), no aporta a la información real que se quiere transmitir, pero afecta al tamaño total del paquete, y por tanto al ancho de banda.

La duración de las “ventanas” de voz se encuentran entre 10 a 30 ms, valor que aporta a la demora total.

Evaluación de la Calidad de Voz en Redes de Paquetes: ITU-T G.107 (E-Model)

La industria de las telecomunicaciones ha aceptado una representación numérica de la calidad de la voz, llamada “MOS” (Mean Opinion Score), y estandarizada en la recomendación ITU-T P.800. La calidad de la voz es calificada con un número, entre 1 y 5. El valor numérico de MOS es proporcional a la calidad de la voz. 1 significa muy mala calidad y 5 significa excelente. Los valores son obtenidos mediante el promedio de las opiniones de un gran grupo de usuarios.

La ITU-T ha creado un “modelo” en la recomendación ITU-T G.107, llamado “E-Model” [32], para estimar o predecir la calidad de la voz en redes IP (VoIP) percibida por un usuario típico, en base a parámetros medibles de la red. El resultado del E-Model es un factor escalar, llamado “R” (“Transmission Rating Factor”), que puede tomar valores entre 0 y 100.

El “E-model” toma en cuenta una gran cantidad de factores que pueden deteriorar la calidad de la voz percibida, como por ejemplo, el uso de compresión, los retardos de la red, así como también los factores “típicos” en telefonía como ser pérdida, ruido y eco. Puede ser aplicado para estimar la calidad de la voz en redes de paquetes, tanto fijas como inalámbricas [33].

El E-Model puede ser utilizado para evaluar como se verá afectada la calidad de la voz en una red en base a parámetros mensurables. El modelo parte de un puntaje “perfecto” (100) y resta diversos factores que degradan la calidad.