Question 1

Quelle est la différence entre un point de code Unicode, un caractère et un glyphe ?

Accepted Answer

Point de code : un numéro attribué par Unicode. Caractère : la signification abstraite. Glyphe : la représentation visuelle dessinée par une police. Un point de code = un caractère (généralement). Un glyphe peut combiner plusieurs points de code.

Question 2

Quelle est la différence entre UTF-8, UTF-16 et UTF-32 ?

Accepted Answer

Les trois encodent les mêmes points de code Unicode. UTF-32 utilise exactement 4 octets par point de code. UTF-16 utilise 2 octets pour BMP et 4 octets pour les caractères supérieurs. UTF-8 utilise 1 à 4 octets. UTF-8 est l'encodage web dominant.

Question 3

Que sont les catégories Unicode ?

Accepted Answer

Unicode attribue à chaque point de code une catégorie générale : L (Lettre), M (Marque), N (Nombre), P (Ponctuation), S (Symbole), Z (Séparateur), C (Autre). La regex `\p{L}` correspond à toute lettre Unicode.

Question 4

Que sont les formes de normalisation Unicode ?

Accepted Answer

Le même caractère visuel peut avoir plusieurs représentations Unicode : "é" peut être U+00E9 (précomposé) ou U+0065 + U+0301 (décomposé). Formes de normalisation : NFC (la plus compacte, utilisée sur le web), NFD, NFKC, NFKD.

Inspecteur Unicode

Qu'est-ce que c'est et comment ça marche ?

Cas d'usage

Questions fréquentes

Quelle est la différence entre un point de code Unicode, un caractère et un glyphe ?

Quelle est la différence entre UTF-8, UTF-16 et UTF-32 ?

Que sont les catégories Unicode ?

Que sont les formes de normalisation Unicode ?

Texte