sql >> Base de Datos >  >> RDS >> Mysql

Obtenga los campos similares más repetidos en la base de datos MySQL

De lo que estás hablando es de un proceso de agrupación de texto. Estás tratando de encontrar fragmentos de texto similares y eligiendo arbitrariamente uno de ellos. No estoy familiarizado con ninguna base de datos que haga esta forma de minería de texto.

Por lo que describe, una técnica de minería de texto bastante básica probablemente funcionaría. Cree una matriz de término-documento con todas las palabras excepto los nombres de usuario. Luego use la descomposición de valores singulares para obtener el mayor valor singular y el vector (este es el primer componente principal de la matriz de correlación). Las actividades similares deberían agruparse a lo largo de esta línea.

Si tiene un vocabulario limitado y tiene los términos en una tabla, podría medir la distancia entre dos acciones por la proporción de palabras que se superponen. ¿Tienes una lista de todas las palabras en las acciones?