Comparer deux textes et calculer le pourcentage de similarité
Un vérificateur de similarité de texte compare deux textes et donne un pourcentage montrant à quel point ils se ressemblent, en utilisant la distance de Levenshtein — une mesure du nombre de modifications d'un seul caractère (insertions, suppressions ou substitutions) nécessaires pour transformer une chaîne en l'autre. Moins de modifications sont nécessaires, plus les textes sont similaires, et l'outil convertit ce nombre de modifications en un score de similarité facile à lire. Il répond à des questions comme « à quel point ces deux versions sont-elles proches ? » par un nombre plutôt qu'une impression vague.
C'est utile partout où les correspondances approchées comptent : repérer des entrées quasi dupliquées dans une liste, mesurer combien un brouillon a changé entre révisions, faire des correspondances floues de noms ou de titres de produits orthographiés un peu différemment, ou vérifier à quel point un texte est proche d'un autre. Contrairement à une comparaison exacte qui ne dit que « identique ou différent », la distance de Levenshtein gradue le degré de différence, ce qui rend un pourcentage significatif. Cet outil calcule la comparaison dans votre navigateur, aucun des textes n'est donc téléversé.
C'est le nombre minimum de modifications d'un seul caractère — insertions, suppressions ou substitutions — nécessaires pour transformer une chaîne en une autre. « cat » vers « cot » est une distance de 1 (une substitution). Une distance plus petite signifie un texte plus similaire ; l'outil convertit ce nombre en pourcentage.
La distance d'édition est comparée à la longueur du texte, le nombre de changements est donc ramené à un score de similarité de 0 à 100%. Deux textes identiques marquent 100%, et le pourcentage baisse à mesure que plus de modifications sont nécessaires, donnant une mesure intuitive plutôt qu'un nombre brut de modifications.
Juste les caractères. Levenshtein mesure la distance d'édition en surface, donc « big » et « large » marquent comme très différents malgré le même sens. C'est idéal pour attraper les fautes de frappe et quasi-doublons, mais cela ne capture pas la similarité sémantique comme le ferait une comparaison basée sur le sens.
Par défaut les comparaisons de caractères traitent majuscules et minuscules comme différentes, donc « Cat » et « cat » enregistrent une petite différence. Beaucoup de vérificateurs vous laissent normaliser la casse d'abord si vous voulez l'ignorer, ce qui est utile quand la casse ne devrait pas compter comme une vraie différence.
Majuscules / Minuscules · Compteur de mots · Compteur de caractères · Générateur Lorem Ipsum · Supprimer les espaces · Trier les lignes de texte