Analizzatore di frequenza

Analizza le frequenze di caratteri, parole o bigrammi in qualsiasi testo

Che cos'è e come funziona?

L'analisi della frequenza di caratteri e parole conta quante volte ogni carattere o parola appare in un testo. È la tecnica fondamentale alla base della crittoanalisi classica: in inglese, la lettera E è la più comune (~13%), seguita da T (9,1%), A (8,2%). L'analisi delle frequenze ha violato tutti i cifrari monoalfabetici della storia.

Gli usi moderni vanno oltre la crittografia: l'analisi della frequenza delle parole identifica i termini più comuni in un corpus per la ricerca di parole chiave, il preprocessing NLP, l'analisi del contenuto e l'analisi stilometrica.

Casi d'uso

Domande frequenti

Quali sono le lettere più comuni in inglese?

In ordine di frequenza: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Il mnemonico "ETAOIN SHRDLU" copre le 12 più comuni.

Qual è la differenza tra frequenza di caratteri e frequenza di parole?

La frequenza di caratteri conta le singole lettere. La frequenza di parole conta le parole intere come token. Per la crittoanalisi è chiave la frequenza di caratteri; per l'NLP quella delle parole.

Cos'è la Legge di Zipf nella frequenza delle parole?

La Legge di Zipf afferma che nel linguaggio naturale la frequenza di una parola è inversamente proporzionale al suo rango: la 2ª parola più comune appare circa la metà delle volte rispetto alla 1ª.

Come differisce l'Indice di Coincidenza dalla semplice analisi delle frequenze?

L'Indice di Coincidenza (IC) misura la probabilità che due caratteri scelti casualmente siano uguali. Inglese: IC ≈ 0,065; testo casuale: IC ≈ 0,038.

Dati

Visualizzatore CSV · Generatore dati fittizi · Ordinatore di liste · Statistiche lista numerica · Operazioni array / insiemi · Cercatore righe duplicate