Analizador de frecuencia

Analiza frecuencias de caracteres, palabras o bigramas en cualquier texto

¿Qué es y cómo funciona?

El análisis de frecuencia de caracteres y palabras cuenta cuántas veces aparece cada carácter o palabra en un texto. Es la técnica fundamental detrás del criptoanálisis clásico: en inglés, la letra E es la más común (~13%), seguida de T (9,1%), A (8,2%). El análisis de frecuencias rompió todos los cifrados monoalfabéticos de la historia.

Los usos modernos van más allá de la criptografía: el análisis de frecuencia de palabras identifica los términos más comunes en un corpus para investigación de palabras clave, preprocesamiento NLP, análisis de contenido y análisis estilométrico.

Casos de uso

Preguntas frecuentes

¿Cuáles son las letras más comunes en inglés?

En orden de frecuencia: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). El mnemónico "ETAOIN SHRDLU" cubre las 12 más comunes.

¿Cuál es la diferencia entre frecuencia de caracteres y frecuencia de palabras?

La frecuencia de caracteres cuenta letras individuales. La frecuencia de palabras cuenta palabras completas como tokens. Para criptoanálisis, la frecuencia de caracteres es clave; para NLP, la frecuencia de palabras.

¿Qué es la Ley de Zipf en la frecuencia de palabras?

La Ley de Zipf establece que en el lenguaje natural, la frecuencia de una palabra es inversamente proporcional a su rango: la 2ª palabra más común aparece aproximadamente la mitad de veces que la 1ª.

¿Cómo difiere el Índice de Coincidencia del análisis de frecuencia simple?

El Índice de Coincidencia (IC) mide la probabilidad de que dos caracteres elegidos al azar sean iguales. El inglés tiene IC ≈ 0,065; el texto aleatorio IC ≈ 0,038.

Datos

Visor de CSV · Generador de datos falsos · Ordenador de listas · Estadísticas de lista numérica · Operaciones de arrays / conjuntos · Buscador de líneas duplicadas