Question 1

Qu'est-ce que la distance de Levenshtein ?

Accepted Answer

C'est le nombre minimum de modifications d'un seul caractère — insertions, suppressions ou substitutions — nécessaires pour transformer une chaîne en une autre. « cat » vers « cot » est une distance de 1 (une substitution). Une distance plus petite signifie un texte plus similaire ; l'outil convertit ce nombre en pourcentage.

Question 2

Comment le pourcentage est-il calculé ?

Accepted Answer

La distance d'édition est comparée à la longueur du texte, le nombre de changements est donc ramené à un score de similarité de 0 à 100%. Deux textes identiques marquent 100%, et le pourcentage baisse à mesure que plus de modifications sont nécessaires, donnant une mesure intuitive plutôt qu'un nombre brut de modifications.

Question 3

Comprend-il le sens, ou juste les caractères ?

Accepted Answer

Juste les caractères. Levenshtein mesure la distance d'édition en surface, donc « big » et « large » marquent comme très différents malgré le même sens. C'est idéal pour attraper les fautes de frappe et quasi-doublons, mais cela ne capture pas la similarité sémantique comme le ferait une comparaison basée sur le sens.

Question 4

Est-il sensible à la casse ?

Accepted Answer

Par défaut les comparaisons de caractères traitent majuscules et minuscules comme différentes, donc « Cat » et « cat » enregistrent une petite différence. Beaucoup de vérificateurs vous laissent normaliser la casse d'abord si vous voulez l'ignorer, ce qui est utile quand la casse ne devrait pas compter comme une vraie différence.

Similarité de texte

Qu'est-ce que c'est et comment ça marche ?

Cas d'usage

Questions fréquentes

Qu'est-ce que la distance de Levenshtein ?

Comment le pourcentage est-il calculé ?

Comprend-il le sens, ou juste les caractères ?

Est-il sensible à la casse ?

Texte