Question 1

Qu'est-ce que le BOM Unicode et est-il toujours sûr de le supprimer ?

Accepted Answer

Le BOM (U+FEFF) en début d'un fichier UTF-8 est techniquement un caractère invisible. En UTF-8, le BOM est inutile et cause des problèmes. Il peut être supprimé en toute sécurité des fichiers UTF-8.

Question 2

À quoi servent légitimement les joncteurs de largeur zéro ?

Accepted Answer

ZWJ (U+200D) est utilisé légitimement dans les séquences d'emoji : 👨‍👩‍👧‍👦 est en réalité quatre emoji séparés reliés par U+200D. Supprimer ZWJ des séquences d'emoji les sépare.

Question 3

Pourquoi des espaces de largeur zéro apparaissent-ils dans le texte de sites web ?

Accepted Answer

L'espace de largeur zéro (U+200B) est utilisé en typographie web comme "opportunité de coupure de ligne". Ils sont visuellement invisibles mais brisent la correspondance de chaînes.

Question 4

Comment puis-je détecter les caractères invisibles par programmation ?

Accepted Answer

Regex : `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` pour les plus courants. En Python : `import unicodedata; unicodedata.category(c)` pour les catégories Cf, Cc et Zs.

Supprimeur de caractères invisibles

Qu'est-ce que c'est et comment ça marche ?

Cas d'usage

Questions fréquentes

Qu'est-ce que le BOM Unicode et est-il toujours sûr de le supprimer ?

À quoi servent légitimement les joncteurs de largeur zéro ?

Pourquoi des espaces de largeur zéro apparaissent-ils dans le texte de sites web ?

Comment puis-je détecter les caractères invisibles par programmation ?

Texte