Unicode-Inspektor

Jeden Zeichen im Text auf seinen Unicode-Codepunkt und seine HTML-Entität untersuchen

Was ist das und wie funktioniert es?

Unicode ist ein universeller Zeichenkodierungsstandard, der jedem Zeichen in allen Schriftsystemen einen eindeutigen Codepunkt zuweist — über 149.000 Zeichen ab Unicode 15.1. Ein Unicode-Codepunkt wird als U+ gefolgt von 4-6 Hexadezimalziffern geschrieben.

Dieses Tool inspiziert Text auf Unicode-Ebene: zeigt Codepunkt, offiziellen Namen, Unicode-Kategorie, Skript-Zuweisung, Block und UTF-8/UTF-16-Byte-Sequenzen für jedes Zeichen.

Anwendungsfälle

Häufige Fragen

Was ist der Unterschied zwischen einem Unicode-Codepunkt, einem Zeichen und einer Glyphe?

Codepunkt: eine von Unicode zugewiesene Nummer. Zeichen: die abstrakte Bedeutung. Glyphe: die visuelle Darstellung durch eine Schriftart. Ein Codepunkt = ein Zeichen (normalerweise). Eine Glyphe kann mehrere Codepunkte kombinieren.

Was ist der Unterschied zwischen UTF-8, UTF-16 und UTF-32?

Alle drei kodieren dieselben Unicode-Codepunkte. UTF-32 verwendet genau 4 Bytes pro Codepunkt. UTF-16 verwendet 2 Bytes für BMP und 4 Bytes für höhere Zeichen. UTF-8 verwendet 1-4 Bytes. UTF-8 ist die dominierende Web-Kodierung.

Was sind Unicode-Kategorien?

Unicode weist jedem Codepunkt eine allgemeine Kategorie zu: L (Buchstabe), M (Markierung), N (Zahl), P (Interpunktion), S (Symbol), Z (Trennzeichen), C (Sonstiges). Regex `\p{L}` stimmt mit jedem Unicode-Buchstaben überein.

Was sind Unicode-Normalisierungsformen?

Dasselbe visuelle Zeichen kann mehrere Unicode-Darstellungen haben: "é" kann U+00E9 (vorkombiniert) oder U+0065 + U+0301 (dekombiniert) sein. Normalisierungsformen: NFC (kompakteste, im Web verwendet), NFD, NFKC, NFKD.

Text

Groß-/Kleinschreibung · Wortzähler · Zeichenzähler · Lorem-Ipsum-Generator · Leerzeichen entfernen · Textzeilen sortieren