La transmission d’un signal vidéo (même noir et blanc) est déjà une tâche complexe en soit. L’arrivée des programmes TV en couleurs a évidemment complexifié la manière de transmettre ces informations surtout une fois que l’on a découvert qu’il était possible de compresser ces données de couleurs et donc d’économiser de la bande passante sans perdre en qualité. Bref, si vous avez déjà vu des 4:2:0 ou des 4:4:4 sans jamais savoir ce que ça voulait dire, alors il est tant de découvrir le chroma subsampling ou sous-échantillonnage de la chrominance en français !
RGB la base du signal couleur
Grâce aux 3 couleurs primaires (rouge, vert et bleu) il est possible de “fabriquer” toutes les autres couleurs. Le système RGB (Red, Green Blue ou RVB en français) propose donc de répartir l’information d’un pixel en 3 valeurs : une pour le rouge, une pour le vert et une pour le bleu. Chaque image d’un flux vidéo RGB est donc la somme de 3 images : une rouge, une verte et une bleue.
Concrètement, chaque pixel d’une TV ou d’un écran est composé de 3 sous-pixels (un rouge, un vert et un bleu qui sont côte à côte). La dalle affiche donc simultanément l’image rouge, la verte et la bleue que nos yeux interprètent comme une image pleine de couleurs. En jouant avec l’intensité de chacun des sous-pixels il est ainsi possible de reproduire une grande palette de couleurs RGB.
YUV – YCbCr le signal qui sépare luminance et chrominance
Avec l’arrivée de la TV couleurs, on aurait pu s’attendre à une transmission du signal vidéo en RGB à la place du signal historique de luminance utilisé pour le noir et blanc. Le problème de cette solution RGB est que les anciennes TV noir et blanc auraient été incapables de recevoir les chaînes de télévision qui émettaient leur signal en couleurs. Il a donc été décidé d’ajouter une information de chrominance (couleurs) au signal historique de luminance (noir et blanc) dans un seul et unique signal : le YUV.
Ce signal pouvait être utilisé aussi bien par les anciennes TV noir et blanc qui exploitaient uniquement la luminance (Y) mais également par les nouvelles TV couleurs qui elles exploitaient à la fois la luminance (Y) et la chrominance (UV). Historiquement, le YUV (plus précisément Y’UV) fait référence à un signal analogique (téléviseurs / moniteurs cathodiques PAL / SECAM) alors que le terme YCbCr (Y’CbCr ou encore YPbPr/Y’PbPr) est utilisé pour les signaux numériques (TV / moniteurs HD) mais ils font tous les deux référence au même découpage en 3 images :
- Y = image noir et blanc (luminance)
- U / Cb = image bleue / verte (chrominance obtenue par Y – Bleu)
- V / Cr = image jaune / rouge (chrominance obtenue par Y – Rouge)
Il faut garder à l’esprit que le seul signal interne qu’une TV / écran (cathodique ou LCD) est capable de comprendre est le signal RGB. Les images RGB captées par les caméras / appareils photos sont transformées format YUV / YCbCr pour être transmises (antenne, satellite…) à un téléviseur qui finit toujours par les retransformer à son tour au format RGB ! Mais alors, pourquoi continue-t-on d’utiliser le YUV / YCbCr ?
Chroma subsampling pour alléger la bande passante
La majorité des signaux vidéo circulants dans les airs ou dans les câbles séparent la luminance de la chrominance (YCbCr / YUV). Par chance, nos yeux sont beaucoup plus sensibles au noir et blanc (luminance) qu’à la couleur (chrominance), alors pourquoi ne pas réduire la bande passante des informations liées à la couleur ?
Chaque pixel de l’image finale est en réalité reconstitué à partir des 3 composantes : Y, Cb et Cr (ou Y, U et V). Le sous-échantillonnage de la chrominance ou chroma subsampling consiste à “compresser” ou plutôt diminuer la résolution (le nombre d’échantillons) des composantes de couleurs Cb et Cr (ou U et V). L’oeil humain étant beaucoup plus sensibles à la luminance (Y), le résultat obtenu est impresionnant et il est souvent impossible de faire la différence avec l’image source à condition d’utiliser un format de sous-échantillonnage adapté.
La structure d’échantillonnage est définie à partir de 3 nombres sur une matrice de 8 pixels (4 x 2). Le premier désigne le nombre d’échantillons de luminance (Y) par ligne, le second représente le nombre d’échantillons de chrominance (Cb / Cr) sur la première ligne de pixels et le troisième le nombre d’échantillons de chrominance (Cb / Cr) sur la deuxième ligne de pixels. Vous avez tout compris ? Pas de panique on vous explique tout ça 😉
4:4:4 – RGB 444 / YUV 444 / YCbCr 444
Le format 4:4:4 correspond à un format brut, sans “compression” ou sans sous-échantillonnage avec aucune perte de qualité. Chaque pixel de l’image finale est généré à partir d’un pixel de luminance, un pixel de chrominance Cb et un pixel de chrominance Cr ou bien à partir d’un pixel rouge, un pixel vert et un pixel bleu dans le cas du RGB. Dans cette configuration il n’y a aucune différence entre un signal RGB ou YCbCr.
Cette configuration est utilisée à la fois dans le monde de l’informatique (ordinateurs, consoles dernières générations) mais également dans le monde professionnel du cinéma dont l’objectif est de retravailler des images avec la meilleure qualité possible en amont pour y incruster des effets spéciaux. La bande passante très élevée représente un coût important.
4:2:2 – YUV 422 / YCbCr 422
Avec le format 4:2:2, la résolution horizontale de la chrominance est divisée par deux, autrement dit c’est la même couleur Cb qui sera utilisée pour le rendu final de deux pixels (même chose pour la couleur Cr). Avec un débit réduit de 33% et une différence non visible à l’oeil nu, ce format est toujours destiné à des professionnels.
4:2:0 – YUV 420 / YCbCr 420
Le format 4:2:0 est le sous échantillonnage utilisé pour le grand public : programmes TV, films, DVD, Blu-ray, Blu-ray 4K UHD HDR, jeux vidéo, fichiers vidéo (mp4, divx, avi)…. Cette fois-ci les images couleurs (Cb et Cr) voient leurs résolutions horizontales et verticales divisées par deux. Vous avez bien lu, pour la quasi totalité des vidéos que nous regardons, il n’y a en réalité qu’un seul et unique “pixel” de couleur (un Cb et un Cr) pour 4 pixels !
Avec des images couleurs (Cb et Cr) quatre fois moins volumineuses, la bande passante est réduite de 50% par rapport à du 4:4:4. L’oeil humain étant davantage sensible à la lumière qu’à la couleur, voilà pourquoi la qualité reste excellente à nos yeux même en 4:2:0 (image noir et blanc non compressée + les 2 images couleurs sous-échantillonnées). La différence est à peine visible pour la majorité d’entre nous !
Il existe encore de nombreux formats de sous-échantillonnage comme le 4:1:1, le 4:2:1, le 3:1,5:1,5, le 3:1,5:0 ou encore le 3:1:1 mais qui sont nettement moins communs.