Inspecteur Unicode

Inspecter chaque caractère dans le texte pour voir son point de code Unicode et entité HTML

Qu'est-ce que c'est et comment ça marche ?

Unicode est une norme universelle d'encodage de caractères qui attribue un point de code unique à chaque caractère dans tous les systèmes d'écriture — plus de 149 000 caractères à partir d'Unicode 15.1. Un point de code Unicode s'écrit U+ suivi de 4 à 6 chiffres hexadécimaux.

Cet outil inspecte le texte au niveau Unicode : en affichant le point de code, le nom officiel, la catégorie Unicode, l'attribution de script, le bloc et les séquences d'octets UTF-8/UTF-16 pour chaque caractère.

Cas d'usage

Questions fréquentes

Quelle est la différence entre un point de code Unicode, un caractère et un glyphe ?

Point de code : un numéro attribué par Unicode. Caractère : la signification abstraite. Glyphe : la représentation visuelle dessinée par une police. Un point de code = un caractère (généralement). Un glyphe peut combiner plusieurs points de code.

Quelle est la différence entre UTF-8, UTF-16 et UTF-32 ?

Les trois encodent les mêmes points de code Unicode. UTF-32 utilise exactement 4 octets par point de code. UTF-16 utilise 2 octets pour BMP et 4 octets pour les caractères supérieurs. UTF-8 utilise 1 à 4 octets. UTF-8 est l'encodage web dominant.

Que sont les catégories Unicode ?

Unicode attribue à chaque point de code une catégorie générale : L (Lettre), M (Marque), N (Nombre), P (Ponctuation), S (Symbole), Z (Séparateur), C (Autre). La regex `\p{L}` correspond à toute lettre Unicode.

Que sont les formes de normalisation Unicode ?

Le même caractère visuel peut avoir plusieurs représentations Unicode : "é" peut être U+00E9 (précomposé) ou U+0065 + U+0301 (décomposé). Formes de normalisation : NFC (la plus compacte, utilisée sur le web), NFD, NFKC, NFKD.

Texte

Majuscules / Minuscules · Compteur de mots · Compteur de caractères · Générateur Lorem Ipsum · Supprimer les espaces · Trier les lignes de texte