Ispettore Unicode

Ispeziona ogni carattere nel testo per vedere il suo codepoint Unicode ed entità HTML

Che cos'è e come funziona?

Unicode è uno standard universale di codifica dei caratteri che assegna un punto di codice univoco a ogni carattere in tutti i sistemi di scrittura — oltre 149.000 caratteri a partire da Unicode 15.1. Un punto di codice Unicode viene scritto come U+ seguito da 4-6 cifre esadecimali.

Questo strumento ispeziona il testo a livello Unicode: mostrando il punto di codice, il nome ufficiale, la categoria Unicode, l'assegnazione dello script, il blocco e le sequenze di byte UTF-8/UTF-16 per ogni carattere.

Casi d'uso

Domande frequenti

Qual è la differenza tra un punto di codice Unicode, un carattere e un glifo?

Punto di codice: un numero assegnato da Unicode. Carattere: il significato astratto. Glifo: la rappresentazione visuale disegnata da un font. Un punto di codice = un carattere (di solito). Un glifo può combinare più punti di codice.

Qual è la differenza tra UTF-8, UTF-16 e UTF-32?

Tutti e tre codificano gli stessi punti di codice Unicode. UTF-32 usa esattamente 4 byte per punto di codice. UTF-16 usa 2 byte per BMP e 4 byte per caratteri superiori. UTF-8 usa 1-4 byte. UTF-8 è la codifica web dominante.

Cosa sono le categorie Unicode?

Unicode assegna a ogni punto di codice una categoria generale: L (Lettera), M (Segno), N (Numero), P (Punteggiatura), S (Simbolo), Z (Separatore), C (Altro). La regex `\p{L}` corrisponde a qualsiasi lettera Unicode.

Cosa sono le forme di normalizzazione Unicode?

Lo stesso carattere visuale può avere multiple rappresentazioni Unicode: "é" può essere U+00E9 (precomposto) o U+0065 + U+0301 (decomposto). Forme di normalizzazione: NFC (la più compatta, usata sul web), NFD, NFKC, NFKD.

Testo

Maiuscolo / Minuscolo · Contatore di parole · Contatore di caratteri · Generatore Lorem Ipsum · Rimuovi spazi extra · Ordina righe di testo