La codificación de las imágenes y secuencias de vídeo viene motivada por la misma necesidad que presentan otras fuentes de información, como el audio o los datos de carácter genérico. Sin embargo su carácter tridimensional, que abarca el dominio espacial y temporal, lo diferencia de modo sustancial con respecto a otras fuentes de información, requiriendo la aplicación de unas técnicas y estrategias de compresión de mayor complejidad y coste computacional.

Uno de los principales factores que caracterizan la codificación de vídeo es su relación de compresión, que depende del volumen de información inicial de la fuente de vídeo y de la capacidad del canal de transmisión o espacio de almacenamiento disponible. La cantidad de información de la secuencia de vídeo viene determinada por la resolución espacial de la imagen, el número de píxeles en cada una de sus dimensiones horizontal y vertical, así como su resolución temporal definida por su frame rate o tasa de refresco temporal.

La evolución de los formatos de vídeo a lo largo de los años se ha caracterizado por un fuerte incremento de ambas resoluciones, que han pasando desde el formato denominado QCIF, con 176×144 píxeles y tasas temporales de 15 frames por segundo, hasta los formatos emergentes de Ultra Alta Definición o UHDTV, denominados 4K y 8K, que comprende resoluciones de hasta 7680×4320 píxeles con elevadas tasas temporales o HFR (High Frame Rates) que pueden alcanzar los 120 frames/s.

La siguiente figura muestra los formatos de vídeo más destacados y utilizados comúnmente en el ámbito profesional, donde se puede apreciar como su volumen de datos oscila entre los 165MBytes/s correspondientes a los formatos de TV para definición estándar, a los casi 80GB/s correspondientes al formato 8K. Esto requiere de unas capacidades de almacenamiento y de transmisión sin compresión impracticables técnica y económicamente a día de hoy. De igual modo, los canales de transmisión han incrementado sustancialmente su capacidad, las redes de difusión terrestres y satelitales pueden disponer de anchos de banda entre 20Mbps y 60Mbps utilizando tecnologías de modulación como DVB-T/T2 y DVB-S/S2.

Por otro lado, las redes móviles han pasado de disponer de pocos cientos de Kb a superar velocidades por encima de los 10Mbps, gracias a tecnologías como el 3G y 4G/LTE. Pero sin lugar a dudas, la banda ancha es la que ha experimentado un mayor crecimiento con la evolución de tecnologías como el ADSL+, y principalmente con las redes de fibra óptica que pueden superar anchos de banda por encima de los 100Mb.

Estos avances simultáneos tanto de los formatos de vídeo como de las capacidades de las redes, han provocado que siempre exista la necesidad de aplicar elevados ratios de compresión de vídeo superiores a 10:1 para la mayoría de los escenarios planteados, ratio de compresión muy por encima de los obtenidos con las técnicas de compresión estadística, típicamente próximos a 2:1.

Por ello, la mayoría de los estándares de compresión de vídeo se ven obligados a aplicar técnicas de codificación con pérdidas, enmascarando éstas perceptualmente de modo que no sean percibidas de modo subjetivo por el usuario. Si bien las primeras técnicas de compresión de imágenes son conocidas desde 1950, con técnicas de codificación diferencial o DPCM, ha sido en la década de los noventa con la aparición de los estándares de la familia H.26x del ITU y los estándares conocidos como MPEG aprobados por el ISO, cuando estos avances se han materializado en dispositivos de consumo, gracias a la disponibilidad de hardware en un principio, y software posteriormente, con las suficiente capacidad de cómputo.

A pesar de las más de dos décadas transcurridas desde la aparición de los primeros codificadores de vídeo en tiempo real, la totalidad de estándares de compresión de vídeo utilizados en los entornos profesionales y doméstico, como el MPEG-2 , H.264 (MPEG-4 AVC), y el emergente HEVC (H.265), han mantenido todos ellos el mismo esquema de codificación híbrido que explota tanto la elevada redundancia espacial de las imágenes entre un pixel y sus vecinos, como la elevada redundancia temporal entre los frames consecutivos.

La codificación espacial es una de las primeras técnicas aplicadas a la compresión de imágenes que tiene sus inicios en la década de los 80 con la demostración de la alta compactación energética aportada por la transformada discreta del coseno o DCT, sobre bloques regulares de 8×8 píxeles. Esta transformación facilita la cuantificación en el dominio frecuencial de modo más eficiente que en el dominio espacial, y favorece la codificación entrópica posterior de sus coeficientes transformados.

Este esquema que encadena una codificación transformacional con una codificación entrópica es conocido como codificación intra-frame, y sus imágenes se denominan frames “I”, que si bien no explota la fuerte correlación temporal que presenta una secuencia de vídeo, presenta ciertas ventajas como su bajo retardo y complejidad, y ha sido utilizada en distintos estándares para la prestación de servicios de videocomunicaciones personales. Pero sin lugar a dudas la introducción de técnicas de predicción temporal basadas en la estimación y compensación del movimiento, denominadas ME-MC (Motion Estimation – Motion Compensation), entre las imágenes de una secuencia de vídeo son las que han permitido alcanzar unos ratios de compresión elevados.

El estándar que introdujo esta técnica por primera vez fue MPEG-1, con un esquema de ME-MC exclusivamente unidireccional basado en la estimación entre 2 imágenes consecutivas, a los que se les denominan frames tipo “P”, y que fue utilizado mayoritariamente por el mercado del vídeo en soporte óptico, con tasas binarias en torno a los 1.5Mbps. En 1992, la aprobación del estándar conocido como MPEG-2 introdujo un salto cuantitativo enorme en la eficiencia de los codificadores, gracias a la incorporación de la predicción temporal bidireccional en el mismo esquema de ME-MC, permitiendo la estimación entre frames previos y posteriores al actual, a cuyas imágenes se les denominan frames tipo “B”.

La utilización de una estructura de codificación combinando los tres tipos de de imágenes “I”, “P” y “B” permitieron alcanzar unas elevadas ganancias de compresión, utilizándose para la codificación de formatos de vídeo con resoluciones estándar o SD, en tasas binarias por debajo de los 5Mbps, e incluso de alta definición o HD, por debajo de los 20Mbps, siendo de uso masivo en los servicios de radiodifusión de TV.

Una década después de la aparición de MPEG-2, la optimización de las distintas herramientas de codificación en nexo con la introducción de otras herramientas nuevas como la predicción intra-frame y el filtro anti-Blocking dentro del bucle de codificación, convergió en un nuevo estándar de compresión denominado H.264 ó MPEG-4 AVC, estándar tan exitoso como su predecesor MPEG-2 al permitir reducir la tasa binaria a la mitad con la misma calidad perceptual. MPEG-4 AVC ha sido el impulsor de servicios de streaming y modelos de OTT sobre redes fijas y móviles, al facilitar la distribución de contenidos de HD con requisitos de anchos de banda por debajo de los 6Mbps y de SD en 1Mbps.

Recientemente, 2013, una nueva evolución de MPEG-4 AVC se ha concretado con la aprobación del nuevo estándar de codificación conocido como HEVC (H.265), que mejora nuevamente la eficiencia de compresión de su predecesor en más de un 50%, pero que hace más hincapié en la mejora de la calidad perceptual de las imágenes, más que en la mejora de las perdidas objetivas de codificación.

Nuevamente, HEVC mantiene el esquema de codificación híbrido espacio-temporal, con mejoras en la precisión de la ME-MC, la transformada discreta del coseno y la predicción intra-frame, y tan solo introduce un nuevo particionado de la imagen más flexible al permitir tamaños de bloques adaptados al contenido de la imagen, y un segundo post-filtrado en el dominio espacial denominado SAO (Sample Adaptive Offset), que suaviza los artefactos que pueden aparecer cuando se aplican altos rangos de compresión.

Una de las principales ventajas de HEVC es la capacidad de codificar de modo muy eficiente los formatos de muy alta resolución como son los de UHDTV, y con precisiones por encima de los 10 bit/pixel gracias a su nueva estructura de bloques, y a la capacidad de utilizar transformadas de gran tamaño hasta de 32×32 pixeles. Los servicios de 4K pueden ser codificados con tasas binarias entre 10Mbps y los 15Mbps, lo que implica unos rangos de compresión próximos a 500:1. En la actualidad la industria está centrada en la codificación eficiente de las nuevas mejoras que introducen estos formatos de UHDTV, como el rango dinámico extendido o HDR (High Dynamic Range),y la mejora de la representación colorimétrica de la imagen o WCG (Wide Color Gamut).