sql >> Base de Datos >  >> RDS >> Mysql

Función de Jaro-winkler:¿por qué la misma puntuación coincide con palabras muy similares y muy diferentes?

La fórmula de distancia de Jaro-Winkler está sesgada hacia cadenas con un comienzo común. Por ejemplo, Valentina y Valentiria .

También tiene algunas "reglas" no tan intuitivas (ver wikipedia ).

Probablemente primero debería determinar qué tipo de diferencia espera y luego buscar una fórmula de distancia adecuada. Por ejemplo, al escribir, "gusano angular" y "gusano ángel" es un error muy probable, por lo que la distancia entre las dos cadenas debe ser baja. Si bien la falta de coincidencia de "allí" y "tres" es menos probable y "éter" aún más. Con anagramas más largos, la distancia de Jaro podría ser exactamente la misma, e incluso la corrección de Winkler podría no activarse.

Como puedes leer en esta página (énfasis mío)