sql >> Base de Datos >  >> RDS >> Database

Perfilado de datos:descubrimiento de detalles de datos

La elaboración de perfiles de datos, o el descubrimiento de datos, se refiere al proceso de obtener información y estadísticas descriptivas sobre diversas fuentes de datos. El propósito de la elaboración de perfiles de datos es comprender mejor el contenido de los datos, así como su estructura, relaciones y niveles actuales de precisión e integridad.

La elaboración de perfiles de datos puede revelar errores o conclusiones falsas sobre los metadatos (datos sobre datos). La detección temprana de estos problemas ayuda a mejorar la calidad de los datos de origen antes de integrarlos o almacenarlos en un almacén de datos. Comprender los atributos de los datos en una tabla de base de datos o un archivo extraído e inspeccionar los valores de los datos ayuda a validar que el contenido de los datos realmente coincida con su definición de metadatos. Ver los datos y los metadatos también ayuda a identificar qué elementos son confidenciales o contienen información de identificación personal (PII), de modo que ciertas columnas se pueden marcar para medidas de protección. Por lo tanto, la creación de perfiles de datos descubre las características de los datos de origen necesarios para la identificación, el uso y el linaje de los datos en la integración, la seguridad, la generación de informes y otros procesos posteriores.

Aunque los datos recopilados a menudo pueden parecer benignos o inútiles, especialmente cuando se recopilan de múltiples fuentes, tenga en cuenta que todos los datos pueden ser útiles con la aplicación o el algoritmo adecuados. Por lo tanto, la creación de perfiles de datos también es un primer paso para determinar esa utilidad (al mejorar la comprensión de los datos en sí).

Dado que, en última instancia, muchas empresas dependen de las fuentes de datos sin procesar para obtener información sobre cosas como los inventarios de productos, la demografía de los clientes, los hábitos de compra y las proyecciones de ventas, la capacidad de una empresa para beneficiarse competitivamente de los volúmenes de datos cada vez mayores puede ser directamente proporcional a su capacidad para aprovechar esos datos. activos. Ganar/perder clientes y tener éxito/fracaso como negocio bien podría estar determinado por el conocimiento específico que imparten los datos recopilados de una organización. Por lo tanto, identificar los datos correctos, establecer su utilidad en el nivel correcto y determinar cómo administrar las anomalías son esenciales en el diseño de operaciones de almacenamiento de datos y aplicaciones de inteligencia empresarial.

Según Doug Vucevic y Wayne Yaddow, autores de Testing the Data Warehouse Practicum, “... el propósito de la creación de perfiles de datos es validar los metadatos cuando están disponibles y descubrir metadatos cuando no lo están. El resultado del análisis se usa tanto estratégicamente, para determinar la idoneidad de los sistemas fuente candidatos y proporcionar la base para una decisión temprana de si o no, como tácticamente, para identificar problemas para el diseño de soluciones posteriores y nivelar las expectativas de los patrocinadores.

Las autoridades de datos recomiendan realizar perfiles de datos de forma aleatoria y repetitiva en cantidades limitadas de datos, en lugar de tratar de abordar volúmenes grandes y complejos a la vez. De esa forma los descubrimientos pueden ser determinantes para lo que debe perfilarse a continuación. La identificación de reglas de datos, restricciones y requisitos previos garantiza la integridad de los metadatos sobre los que se realiza la creación de perfiles en el futuro. Saber lo que se supone estar en ciertos archivos de datos y lo que es realmente puede que no sea lo mismo. Por lo tanto, siempre que se desconozca la calidad o las características de una nueva fuente, los expertos sugieren primero la elaboración de perfiles de datos, antes de cualquier integración en un sistema existente.

Los pasos en el proceso de generación de perfiles de datos incluyen: importar todos los objetos, crear parámetros de configuración, realizar la generación de perfiles real y analizar los resultados; ¡Ninguno de los cuales es tan fácil como parece! Luego, en función de los hallazgos, se pueden implementar correcciones de datos y esquemas, así como otros ajustes finos para la mejora posterior del rendimiento del perfilado de datos.

Herramientas de creación de perfiles IRI

A mediados de 2015, IRI lanzó una serie de bases de datos gratuitas, herramientas de descubrimiento de datos estructurados y no estructurados (oscuros) en su Eclipse GUI, IRI Workbench. Se resumen en http://www.iri.com/products/workbench/discover-data y tienen un enlace a otros artículos de este blog que ofrecen más detalles.