Détecter et supprimer les caractères Unicode invisibles : espace de largeur nulle, trait d'union conditionnel
Les caractères invisibles sont des points de code Unicode qui n'occupent pas d'espace visible mais peuvent causer des problèmes significatifs dans le traitement du texte, les bases de données, les API et les interfaces utilisateur. Les plus courants : Espace de largeur zéro (U+200B), Marque d'ordre d'octet (U+FEFF, le BOM), Joncteur de largeur zéro (U+200D).
Cet outil détecte et supprime les caractères invisibles du texte, en mettant en évidence exactement où ils se trouvent et quel point de code Unicode est chacun d'eux.
Le BOM (U+FEFF) en début d'un fichier UTF-8 est techniquement un caractère invisible. En UTF-8, le BOM est inutile et cause des problèmes. Il peut être supprimé en toute sécurité des fichiers UTF-8.
ZWJ (U+200D) est utilisé légitimement dans les séquences d'emoji : 👨👩👧👦 est en réalité quatre emoji séparés reliés par U+200D. Supprimer ZWJ des séquences d'emoji les sépare.
L'espace de largeur zéro (U+200B) est utilisé en typographie web comme "opportunité de coupure de ligne". Ils sont visuellement invisibles mais brisent la correspondance de chaînes.
Regex : `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` pour les plus courants. En Python : `import unicodedata; unicodedata.category(c)` pour les catégories Cf, Cc et Zs.
Majuscules / Minuscules · Compteur de mots · Compteur de caractères · Générateur Lorem Ipsum · Supprimer les espaces · Trier les lignes de texte