Jeden Zeichen im Text auf seinen Unicode-Codepunkt und seine HTML-Entität untersuchen
Unicode ist ein universeller Zeichenkodierungsstandard, der jedem Zeichen in allen Schriftsystemen einen eindeutigen Codepunkt zuweist — über 149.000 Zeichen ab Unicode 15.1. Ein Unicode-Codepunkt wird als U+ gefolgt von 4-6 Hexadezimalziffern geschrieben.
Dieses Tool inspiziert Text auf Unicode-Ebene: zeigt Codepunkt, offiziellen Namen, Unicode-Kategorie, Skript-Zuweisung, Block und UTF-8/UTF-16-Byte-Sequenzen für jedes Zeichen.
Codepunkt: eine von Unicode zugewiesene Nummer. Zeichen: die abstrakte Bedeutung. Glyphe: die visuelle Darstellung durch eine Schriftart. Ein Codepunkt = ein Zeichen (normalerweise). Eine Glyphe kann mehrere Codepunkte kombinieren.
Alle drei kodieren dieselben Unicode-Codepunkte. UTF-32 verwendet genau 4 Bytes pro Codepunkt. UTF-16 verwendet 2 Bytes für BMP und 4 Bytes für höhere Zeichen. UTF-8 verwendet 1-4 Bytes. UTF-8 ist die dominierende Web-Kodierung.
Unicode weist jedem Codepunkt eine allgemeine Kategorie zu: L (Buchstabe), M (Markierung), N (Zahl), P (Interpunktion), S (Symbol), Z (Trennzeichen), C (Sonstiges). Regex `\p{L}` stimmt mit jedem Unicode-Buchstaben überein.
Dasselbe visuelle Zeichen kann mehrere Unicode-Darstellungen haben: "é" kann U+00E9 (vorkombiniert) oder U+0065 + U+0301 (dekombiniert) sein. Normalisierungsformen: NFC (kompakteste, im Web verwendet), NFD, NFKC, NFKD.
Groß-/Kleinschreibung · Wortzähler · Zeichenzähler · Lorem-Ipsum-Generator · Leerzeichen entfernen · Textzeilen sortieren