Question 1

Was ist der Unterschied zwischen einem Unicode-Codepunkt, einem Zeichen und einer Glyphe?

Accepted Answer

Codepunkt: eine von Unicode zugewiesene Nummer. Zeichen: die abstrakte Bedeutung. Glyphe: die visuelle Darstellung durch eine Schriftart. Ein Codepunkt = ein Zeichen (normalerweise). Eine Glyphe kann mehrere Codepunkte kombinieren.

Question 2

Was ist der Unterschied zwischen UTF-8, UTF-16 und UTF-32?

Accepted Answer

Alle drei kodieren dieselben Unicode-Codepunkte. UTF-32 verwendet genau 4 Bytes pro Codepunkt. UTF-16 verwendet 2 Bytes für BMP und 4 Bytes für höhere Zeichen. UTF-8 verwendet 1-4 Bytes. UTF-8 ist die dominierende Web-Kodierung.

Question 3

Was sind Unicode-Kategorien?

Accepted Answer

Unicode weist jedem Codepunkt eine allgemeine Kategorie zu: L (Buchstabe), M (Markierung), N (Zahl), P (Interpunktion), S (Symbol), Z (Trennzeichen), C (Sonstiges). Regex `\p{L}` stimmt mit jedem Unicode-Buchstaben überein.

Question 4

Was sind Unicode-Normalisierungsformen?

Accepted Answer

Dasselbe visuelle Zeichen kann mehrere Unicode-Darstellungen haben: "é" kann U+00E9 (vorkombiniert) oder U+0065 + U+0301 (dekombiniert) sein. Normalisierungsformen: NFC (kompakteste, im Web verwendet), NFD, NFKC, NFKD.

Unicode-Inspektor

Was ist das und wie funktioniert es?

Anwendungsfälle

Häufige Fragen

Was ist der Unterschied zwischen einem Unicode-Codepunkt, einem Zeichen und einer Glyphe?

Was ist der Unterschied zwischen UTF-8, UTF-16 und UTF-32?

Was sind Unicode-Kategorien?

Was sind Unicode-Normalisierungsformen?

Text