sql >> Base de Datos >  >> RDS >> Database

5 errores comunes que debe evitar al desduplicar sus datos

Los datos son poder y con ese poder viene una gran responsabilidad. Uno de los mayores obstáculos en los datos es identificar duplicados y eliminar duplicados.

El objetivo de la deduplicación de datos es eliminar cualquier dato redundante en su negocio. Los duplicados se crean en todas las áreas de su negocio, como el representante de ventas que ingresa un nuevo registro sin verificar primero la base de datos, un vendedor que carga una lista de compradores potenciales sin verificar si el registro existe y un cliente que ingresa su información nuevamente porque se olvidó Ya tengo una cuenta contigo.

La deduplicación de datos garantiza una gestión adecuada de dichos registros, un almacenamiento de datos reducido, comunicaciones de marketing más eficaces y un mejor análisis predictivo. Los registros duplicados en realidad pueden tener un gran impacto en el aprendizaje automático y los registros de ciencia de datos al brindar teóricamente a los clientes el doble de poder predictivo y, por lo tanto, crear un sesgo en los resultados.

Sin embargo, con cada gran idea vienen los riesgos y dentro de una estrategia de eliminación de duplicados en la que los datos se eliminan la mayor parte del tiempo, puede haber errores inherentes.

Procesamiento posterior o en línea

Los procesos de deduplicación en línea eliminan los datos duplicados a medida que se procesan. Esto significa que reduce la cantidad de datos de inmediato, lo cual es excelente, pero a menudo tiene problemas de rendimiento con la cantidad de recursos necesarios para ejecutar una estrategia. Sin embargo, significa que necesita mucho menos espacio en disco sin procesar, ya que los datos nunca se envían en primer lugar, ya que la deduplicación se lleva a cabo en el front-end.

Es importante que se asegure de tener la potencia de procesamiento para la deduplicación en línea y que no afecte el rendimiento. El otro error es asumir que no hay casos para tener duplicados. Hay necesidades legítimas para tener duplicados en su sistema. Los motivos pueden ser motivos de facturación, servicio al cliente, ventas y marketing; por lo tanto, es una buena idea consultar a todos los departamentos que tocan los datos antes de implementar el procesamiento en línea.

Algoritmos

La deduplicación es tan buena como los algoritmos con los que se alimenta, es decir, ¿cómo se descubren los registros duplicados en primer lugar? Supongamos que tenemos 100 copias de un archivo en nuestros sistemas porque cada empleado tenía su propia versión. En lugar de almacenar múltiples copias, la buena práctica le dice que solo almacene una y que todos los empleados la señalen. ¿Qué pasa si uno de los empleados hace un cambio en su propio archivo, lo que significa que es ligeramente diferente de los demás? Corre el riesgo de perder datos. Es importante asegurarse de que las reglas que establezca tengan sentido y no comiencen a eliminar conjuntos de datos únicos por error.

Existen algunos algoritmos comunes que se utilizan para la deduplicación de datos, como SHA-1 o MD5 y estructuras de árbol de búsqueda binaria, que vale la pena revisar para encontrar el más apropiado para usted.

Mientras que la desduplicación de conjuntos de datos en el ejemplo anterior puede ser abordada fácilmente por científicos de datos. Para registros de ventas y marketing, es un poco más difícil. Considere que diferentes empresas definen los duplicados de manera diferente, ya no es una tarea para el científico de datos sino para los jefes de diferentes departamentos. Por lo tanto, el primer paso es identificar qué hace un duplicado. Por ejemplo, tome un gigante minorista como Walmart. Para la empresa de distribución, cada ubicación de Walmart se consideraría un registro único; sin embargo, para una empresa de software que venda a Walmart, consideraría todas las ubicaciones como duplicados, ya que solo quiere vender a la oficina central. Lo mismo puede decirse de la venta en P&G, donde algunas empresas venden individualmente en cada marca. Por lo tanto, quieren mantenerlos a todos separados y aplicar la vinculación principal/secundaria en lugar de la eliminación de duplicados para identificar las diferentes marcas. Por lo tanto, antes de desduplicar, asegúrese de tener todas las reglas definidas antes de descubrir el algoritmo que se usará para desduplicar los datos.

Cifrado

Con la protección de datos, a menudo sucede que los equipos de seguridad tienen datos encriptados cuando ingresan al negocio, lo que significa que es imposible deduplicarlos, ya que todo es único en este contexto. Si está utilizando productos de replicación y cifrado en línea con el software de deduplicación, existe una gran posibilidad de que los archivos se repliquen, ya que simplemente no puede seleccionarlos como bloques de almacenamiento únicos.

Los productos de protección de datos a veces son conscientes de la deduplicación, pero es fundamental que tenga en cuenta cómo se integra todo.

Deduplicación manual

La mayoría de las empresas intentarán deduplicar su base de datos manualmente, lo que consumirá una gran cantidad de recursos y tiempo, con un gran riesgo de error humano. Más allá de eso, con grandes conjuntos de datos, es prácticamente imposible que los procesos manuales se den cuenta de todo.

Por ejemplo, ¿qué pasa si John Smith compra un par de zapatos en su sitio web hoy? Vuelve mañana pero se registra como J Smith porque olvidó sus datos de inicio de sesión. La próxima semana, se registra nuevamente pero con una dirección de correo electrónico diferente. Solo mencioné tres campos de datos aquí, pero ya comienza a complicarse, así que imagina si tienes 200 campos de datos de clientes, ¿cómo te aseguras de que se mantengan únicos?

Es importante construir algoritmos completos usted mismo si realiza un proceso manual o adquiere herramientas de limpieza de datos para que lo hagan por usted, ahorrando todo ese tiempo y esfuerzo.

Copias de seguridad

¡La deduplicación puede salir mal! Antes de eliminar los duplicados, es importante que se haga una copia de seguridad de todo y que pueda resolver cualquier problema rápidamente. Volviendo a nuestro ejemplo anterior, ¿qué sucede si descubrimos que John Smith y J Smith son, de hecho, personas diferentes y necesitamos recuperar la cuenta? Necesita un proceso que pueda hacer precisamente eso, que es un requisito legal ahora en la UE (GDPR).

Una estrategia de deduplicación de datos es importante a medida que las empresas aumentan su huella digital. Con tantos canales de comunicación, un solo registro duplicado tiene la capacidad de crear sesgos y conducir potencialmente a decisiones equivocadas. Dicho esto, debe hacerse correctamente para evitar las consecuencias de eliminar los registros incorrectos o alimentar incorrectamente los algoritmos y reducir la velocidad del negocio. Asegúrese de que la deduplicación de datos esté completamente integrada en su estrategia de gobierno de datos.