Rimozione caratteri invisibili

Rileva e rimuovi caratteri Unicode invisibili: spazio a larghezza zero, trattino condizionale e altro

Che cos'è e come funziona?

I caratteri invisibili sono punti di codice Unicode che non occupano spazio visibile ma possono causare problemi significativi nell'elaborazione del testo, nei database, nelle API e nelle interfacce utente. I più comuni: Spazio a larghezza zero (U+200B), Marcatore dell'ordine dei byte (U+FEFF, il BOM), Unificatore a larghezza zero (U+200D).

Questo strumento rileva e rimuove i caratteri invisibili dal testo, evidenziando esattamente dove si trovano e quale punto di codice Unicode è ciascuno di essi.

Casi d'uso

Domande frequenti

Cos'è il BOM Unicode e è sempre sicuro rimuoverlo?

Il BOM (U+FEFF) all'inizio di un file UTF-8 è tecnicamente un carattere invisibile. In UTF-8, il BOM è inutile e causa problemi. Può essere rimosso in modo sicuro dai file UTF-8.

Per cosa vengono usati legittimamente gli Unificatori a larghezza zero?

ZWJ (U+200D) viene usato legittimamente nelle sequenze di emoji: 👨‍👩‍👧‍👦 è in realtà quattro emoji separati uniti da U+200D. Rimuovere ZWJ dalle sequenze di emoji le separa.

Perché gli spazi a larghezza zero appaiono nel testo dei siti web?

Lo Spazio a larghezza zero (U+200B) viene usato nella tipografia web come "opportunità di interruzione di riga". Sono visivamente invisibili ma rompono la corrispondenza delle stringhe.

Come posso rilevare i caratteri invisibili a livello di programmazione?

Regex: `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` per i più comuni. In Python: `import unicodedata; unicodedata.category(c)` per le categorie Cf, Cc e Zs.

Testo

Maiuscolo / Minuscolo · Contatore di parole · Contatore di caratteri · Generatore Lorem Ipsum · Rimuovi spazi extra · Ordina righe di testo