Similitud de texto

Compara dos textos y calcula el porcentaje de similitud

¿Qué es y cómo funciona?

Un comprobador de similitud de texto compara dos textos y da un porcentaje que muestra lo parecidos que son, usando la distancia de Levenshtein — una medida de cuántas ediciones de un solo carácter (inserciones, eliminaciones o sustituciones) hacen falta para convertir una cadena en la otra. Cuantas menos ediciones se necesiten, más similares son los textos, y la herramienta convierte ese conteo de ediciones en una puntuación de similitud fácil de leer. Responde a preguntas como "¿cómo de cerca están estas dos versiones?" con un número en vez de una impresión vaga.

Esto es útil siempre que importen las coincidencias aproximadas: detectar entradas casi duplicadas en una lista, medir cuánto cambió un borrador entre revisiones, hacer coincidencias difusas de nombres o títulos de producto escritos algo distinto, o comprobar cómo de cerca está un texto de otro. A diferencia de una comparación exacta que solo dice "igual o distinto", la distancia de Levenshtein gradúa el grado de diferencia, que es lo que hace significativo un porcentaje. Esta herramienta calcula la comparación en tu navegador, así que ninguno de los textos se sube.

Casos de uso

Preguntas frecuentes

¿Qué es la distancia de Levenshtein?

Es el número mínimo de ediciones de un solo carácter — inserciones, eliminaciones o sustituciones — necesarias para convertir una cadena en otra. De "gato" a "gabo" es una distancia de 1 (una sustitución). Una distancia menor significa texto más similar; la herramienta convierte este conteo en un porcentaje.

¿Cómo se calcula el porcentaje?

La distancia de edición se compara con la longitud del texto, así que el conteo de cambios se escala a una puntuación de similitud de 0 a 100%. Dos textos idénticos puntúan 100%, y el porcentaje baja a medida que se necesitan más ediciones, dando una medida intuitiva en vez de un conteo de ediciones en bruto.

¿Entiende el significado o solo los caracteres?

Solo los caracteres. Levenshtein mide la distancia de edición a nivel superficial, así que "grande" y "enorme" puntúan como muy distintos pese a significar lo mismo. Es ideal para cazar erratas y casi duplicados, pero no captura la similitud semántica como lo haría una comparación basada en el significado.

¿Distingue mayúsculas y minúsculas?

Por defecto las comparaciones de caracteres tratan mayúsculas y minúsculas como distintas, así que "Gato" y "gato" registran una pequeña diferencia. Muchos comprobadores te dejan normalizar las mayúsculas primero si quieres ignorarlas, lo cual es útil cuando la capitalización no debería contar como una diferencia real.

Texto

Mayúsculas / Minúsculas · Contador de palabras · Contador de caracteres · Generador Lorem Ipsum · Eliminar espacios extra · Ordenar líneas de texto