Clasificación de datos en IRI Workbench

Los usuarios de herramientas de enmascaramiento de PII como FieldShield, DarkShield y CellShield EE en IRI Data Protector Suite o la plataforma Voracity pueden catalogar y buscar sus datos, y aplicar funciones de transformación y protección de datos como reglas, usando datos clasificación infraestructura en su IDE front-end común, IRI Workbench, construido en Eclipse™.

Las funciones de descubrimiento (búsqueda) de datos de múltiples fuentes en IRI Workbench pueden hacer uso de las clases de datos que ha definido, o pueden ayudarlo a asignar clases de datos o grupos de clases de datos a sus datos en función de sus resultados de búsqueda, reglas comerciales y/o ontologías de dominio.

Puede usar su biblioteca de clases de datos en reglas de campos reutilizables (por ejemplo, enmascaramiento de datos). Y también puede asignar esas reglas a medida que clasifica automáticamente los datos.

Estas características brindan funcionalidades de conveniencia, consistencia y cumplimiento a los arquitectos de datos y equipos de gobierno. Consulte este artículo para ver un ejemplo completo de usar clases de datos para encontrar y enmascarar datos consistentemente a través de múltiples tablas en esquemas RDB.

En este artículo se describe cómo puede definir estas clases. Hay artículos relacionados sobre validadores de clases de datos que se pueden usar para distinguir y verificar datos basados en búsquedas de patrones.

Varios otros artículos en el blog de IRI cubren la aplicación de clases de datos en varios contextos (principalmente enmascaramiento de datos). Para obtener un índice completo de estos artículos, consulte esta sección de la página de autoaprendizaje del software IRI.

Crear clases de datos

La clasificación comienza configurando clases de datos en Workbench Preferencias pantalla, que le permite usar clases globalmente, en múltiples proyectos en su espacio de trabajo. Workbench tiene algunas clases precargadas, incluidas las clases FIRST_NAME, LAST_NAME y PIN_US utilizadas en este ejemplo.

Las clases de datos funcionan haciendo coincidir (1) el nombre de la clase con el nombre del campo, (2) un patrón con los datos del campo o (3) establecer el contenido del archivo con los datos del campo. El primer elemento se realiza automáticamente en el proceso de clasificación, si se elige esa opción. Puede agregar tantos patrones y establecer coincidencias de archivos como necesite para que cada clase devuelva los resultados esperados.

Ingresar una expresión regular como el nombre de la clase de datos es una forma adicional de hacer coincidir el nombre de la columna. Por ejemplo, puede haber una columna llamada LNAME o LASTNAME. Entonces, puedo usar L(AST)?[_-]?NAME (guión bajo y guión entre paréntesis) para capturar algunas variaciones del APELLIDO.

También puede desactivar sus clases y grupos de datos. Si tiene muchas clases pero desea filtrar los elementos que no se utilizan en su proyecto en particular, puede desactivarlos. Esto le permite conservar una copia de ellos, pero no saturar la lista desplegable que utiliza estas clases.

Grupos de clases de datos

También puede tener grupos de clases de datos. Por ejemplo, el grupo incluido "NOMBRES" contiene las clases de datos FIRST_NAME, LAST_NAME y FULL_NAME. Si desea aplicar una regla a varias clases, puede usar un grupo en lugar de seleccionar clases de datos individualmente.

Para este ejemplo, eliminé el guión bajo de la clase de datos FIRST_NAME para demostrar la opción de clasificación de coincidencia de nombres.

Asistente de fuente de clasificación de datos

Una vez que se hayan agregado los comparadores a las clases necesarias, puede ejecutar el Asistente de fuente de clasificación de datos. El asistente acepta los siguientes formatos de datos:CSV, Delimitado, LDIF, ODBC o XML. Este asistente proporciona los medios para seleccionar fuentes para su biblioteca de clases de datos para su clasificación posterior.

En la página de configuración, comience seleccionando la ubicación de su nueva “iriLibrary.dataclass ”, que es el resultado de este asistente. El nombre del archivo es de solo lectura porque solo puede haber uno de estos tipos de archivo en cada proyecto. También puede seleccionar la casilla de verificación si todas sus fuentes son tablas en un perfil de conexión.

Al seleccionar este cuadro, se abre una página de entrada como la siguiente, donde puede elegir las tablas que se incluirán:

Si la casilla de verificación no está seleccionada, puede agregar archivos o fuentes ODBC en la misma pantalla de entrada. En este tipo de página de entrada, también deberá agregar los metadatos para cada fuente. En este ejemplo, he incluido un archivo CSV y dos tablas de Oracle.

Si necesita buscar y clasificar datos en uno o más esquemas de bases de datos completos a la vez, use la búsqueda de patrón de esquema y los asistentes de búsqueda de patrón de esquema para asociación de clases de datos.

Al hacer clic en Finalizar, se creará una biblioteca de clases de datos con las fuentes seleccionadas incluidas. El editor de formularios de clases de datos que se abre le permitirá clasificar los datos en esas fuentes.

Clasificación de los datos en las fuentes seleccionadas

Comienza el proceso de clasificación haciendo clic en una de las fuentes de datos para mostrar los detalles sobre esa fuente. La parte superior de la pantalla tiene una sección expandible que muestra los detalles del archivo o tabla.

La sección de clasificación comienza con una casilla de verificación para incluir la coincidencia a través del nombre del campo con el nombre de la clase de datos. Por ejemplo, tengo una clase de datos llamada FIRSTNAME y un campo llamado FIRSTNAME (la coincidencia no distingue entre mayúsculas y minúsculas).

En este caso, el proceso de clasificación seleccionará esa clase de datos para ese campo sin leer el contenido de los datos.

La siguiente sección muestra una tabla que contiene nombres de campo con casillas de verificación, una columna para la clase de datos y una columna para los resultados coincidentes. La tabla inferior es una vista previa de los datos en la fuente. Las clases de datos necesarias deberían haberse creado antes de usar este editor de formularios, pero puede agregarlas o editarlas aquí.

Puede seleccionar manualmente la clase de datos haciendo clic en el cuadro desplegable en la columna de clase de datos del campo que desea clasificar. También puede hacer clic en Clasificar automáticamente y seleccionar los campos que desea clasificar. Al hacer clic en Aceptar, se iniciará el proceso de clasificación automática, que puede llevar mucho tiempo según la cantidad de datos que tenga en su fuente.

El proceso puede ejecutarse en segundo plano si selecciona esa opción en el cuadro de diálogo estándar de Eclipse que se muestra. Además, puede ver el estado del proceso en la Vista de progreso.

Al finalizar, la clase de datos y el mapa de clases de datos se crearán en la biblioteca para los campos seleccionados. En este ejemplo, el proceso de clasificación encontró una coincidencia del 87 % en el campo SSN, un 11 % en APELLIDO y una coincidencia de nombre en FIRSTNAME. Los porcentajes indican la cantidad de datos coincidentes en su fuente a través de los comparadores para esa clase de datos.

Si aparece "nombre" en la columna de coincidencia, entonces la clase de datos coincidió en función del nombre. Si seleccionó manualmente una clase de datos, se mostrará "usuario" en la columna correspondiente.

El contenido final de la biblioteca se muestra a continuación. Así como puede ver los detalles de las fuentes, también puede hacer clic en las clases de datos y mapas para mostrar sus detalles.

Los mapas de clases de datos utilizan referencias a las clases y campos de datos, razón por la cual la biblioteca almacena las fuentes y las clases de datos, además del mapa en sí. Eliminar una fuente o clase de datos también eliminará cualquier mapa de clase de datos asociado que haga referencia a ese elemento eliminado.

Al hacer clic en Eliminar, se muestra una advertencia para recordárselo. El proceso se puede repetir en las otras fuentes incluidas y se pueden agregar fuentes adicionales en cualquier momento.

Los resultados de la clasificación de esta biblioteca ahora se pueden usar para aplicar reglas de campo a esas fuentes de datos. El proceso se explica en mi próximo artículo sobre la aplicación de reglas de campo mediante la clasificación.