Zeichen-, Wort- oder Bigramm-Häufigkeiten in beliebigem Text analysieren
Häufigkeitsanalyse von Zeichen und Wörtern zählt, wie oft jedes Zeichen oder Wort in einem Text vorkommt. Es ist die grundlegende Technik der klassischen Kryptoanalyse: Im Englischen ist E der häufigste Buchstabe (~13%), gefolgt von T (9,1%), A (8,2%). Häufigkeitsanalyse hat alle monoalphabetischen Chiffren der Geschichte gebrochen.
Moderne Anwendungen gehen über Kryptografie hinaus: Wortfrequenzanalyse identifiziert häufigste Begriffe für Keyword-Recherche, NLP-Vorverarbeitung, Inhaltsanalyse und stylometrische Analyse.
Nach Häufigkeit: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Das Merkwort "ETAOIN SHRDLU" umfasst die 12 häufigsten.
Zeichenfrequenz zählt einzelne Buchstaben. Wortfrequenz zählt ganze Wörter als Token. Für Kryptoanalyse ist Zeichenfrequenz entscheidend; für NLP die Wortfrequenz.
Besagt, dass im natürlicher Sprache die Häufigkeit eines Wortes umgekehrt proportional zu seinem Rang ist: das 2.-häufigste Wort erscheint etwa halb so oft wie das 1.
Der Koinzidenzindex (IC) misst die Wahrscheinlichkeit, dass zwei zufällig gewählte Zeichen gleich sind. Englisch: IC ≈ 0,065; Zufallstext: IC ≈ 0,038.
CSV-Betrachter · Testdaten-Generator · Listen-Sortierer · Zahlenlistenstatistik · Array-/Mengenoperationen · Duplikatzeilen-Finder