Analyser les fréquences de caractères, mots ou bigrammes dans n'importe quel texte
L'analyse de fréquence des caractères et des mots compte combien de fois chaque caractère ou mot apparaît dans un texte. C'est la technique fondamentale derrière la cryptanalyse classique : en anglais, la lettre E est la plus commune (~13%), suivie de T (9,1%), A (8,2%). L'analyse de fréquence a brisé tous les chiffrements monoalphabétiques de l'histoire.
Les usages modernes vont au-delà de la cryptographie : l'analyse de fréquence des mots identifie les termes les plus courants pour la recherche de mots-clés, le prétraitement NLP, l'analyse de contenu et l'analyse stylométrique.
Par ordre de fréquence : E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Le moyen mnémotechnique "ETAOIN SHRDLU" couvre les 12 plus courantes.
La fréquence de caractères compte les lettres individuelles. La fréquence de mots compte les mots entiers. Pour la cryptanalyse, la fréquence de caractères est clé ; pour le NLP, la fréquence de mots.
La loi de Zipf stipule que dans le langage naturel, la fréquence d'un mot est inversement proportionnelle à son rang : le 2ème mot le plus fréquent apparaît environ moitié moins souvent que le 1er.
L'indice de coïncidence (IC) mesure la probabilité que deux caractères aléatoirement choisis soient identiques. Anglais : IC ≈ 0,065 ; texte aléatoire : IC ≈ 0,038.
Visionneuse CSV · Générateur de fausses données · Trieur de listes · Statistiques de liste numérique · Opérations de tableaux / ensembles · Chercheur de lignes dupliquées