sql >> Base de Datos >  >> RDS >> Database

Creación de perfiles de base de datos en IRI Workbench

Actualización:segundo trimestre de 2016 :además del asistente de creación de perfiles de base de datos en el grupo de menú de descubrimiento de datos en IRI Workbench que se describe a continuación, IRI ha introducido una clasificación de datos robusta que permite la aplicación de reglas de campo para la transformación y protección de datos de múltiples fuentes a través de bibliotecas de clases de datos. Actualización del segundo trimestre de 2018 :IRI también ha introducido un asistente de búsqueda de patrones en todo el esquema para encontrar PII que coincida con RegEx o valores literales en varias tablas a la vez. Actualización Q2'19 :IRI ahora también proporciona búsqueda de clases de datos entre/dentro del esquema y enmascaramiento para usuarios IRI FieldShield o Voracity. Y, IRI acaba de publicar este artículo para mostrar cómo se muestran en Splunk los resultados de la creación de perfiles de base de datos a continuación.

Con la selección de más datos de más aspectos de los negocios hoy en día, el fácil conocimiento de su contenido y naturaleza es vital para garantizar la calidad, la cantidad y la seguridad de estas colecciones. La creación de perfiles de datos es el proceso de descubrimiento esencial que lo ayuda a analizar, clasificar, limpiar, integrar, enmascarar e informar sobre los datos en sus repositorios.

Además de los asistentes de descubrimiento de datos oscuros y estructurados (y definición de metadatos), junto con la creación de diagramas E-R de base de datos cruzada en Eclipse, la nueva herramienta de creación de perfiles de base de datos cruzada en IRI Workbench permite a los usuarios examinar la estructura y la integridad de los datos de la base de datos, y validar que los datos adecuados se almacenan en los lugares correctos. En este artículo, examinaremos esta herramienta y mostraremos cómo ofrece resultados de búsqueda de valores de tabla y metadatos estadísticos.

Para acceder al Perfilador de base de datos, vaya a la tabla a la que desea acceder en el Explorador de fuentes de datos. Haga clic con el botón derecho en la tabla y coloque el mouse sobre la opción IRI. En el menú que aparece, seleccione Nuevo perfil de base de datos .

En la primera página del asistente, configure la ubicación y el destino del trabajo y seleccione la salida del informe de perfil, como un archivo .csv o .txt, o ambos.

  • el formato .csv es útil para importar a nuevas tablas y bases de datos, mientras que
  • el formato .txt es un informe preformateado, útil para revisar los resultados rápidamente.

Información de perfiles estadísticos

La siguiente parte del asistente aparecerá con dos tablas:

  1. La tabla superior es una lista de todas las tablas de la base de datos, con la tabla que inició el asistente resaltada de forma predeterminada.
  2. Esta casilla de verificación le permite una opción de un solo clic para escanear cada tabla y fila en su base de datos.
  3. La tabla inferior muestra las opciones de creación de perfiles, seguidas de las columnas de la tabla resaltada en la que elige realizar las opciones.

Haga clic en cualquier tabla de la lista que desee ver y perfilar. La matriz de opciones cambiará automáticamente para representar las columnas de la tabla seleccionada. Hay varias formas de gestionar las opciones de visualización:

  • Para ver todas las opciones, haga clic en la casilla de verificación superior de la tabla, etiquetada Todo, y se informarán todos los metadatos.
  • Solo para las opciones básicas (recuento y valores), seleccione la casilla de verificación denominada Básicos.
  • Solo para las opciones de longitud (longitudes de valor), seleccione la casilla de verificación denominada Longitudes.

Si tiene muchas columnas en su tabla y desea seleccionar la misma opción para todas ellas, haga clic en el nombre de la opción y todas las columnas tendrán esa opción seleccionada. Puede anular la selección de columnas dentro de la opción.

Una vez que todo esté configurado, haga clic en Finalizar y luego se generará el perfil para usted.

Búsqueda de expresiones

Una opción única en la tabla de opciones es la -Búsqueda de expresión-. Esta opción le permite buscar columnas frente a una variedad de opciones de búsqueda. Estas opciones son:

  • Expresiones regulares (búsqueda de patrones). Esto localiza y cuenta el número de veces que un valor coincide con el formato de un patrón de búsqueda.
  • Cadena difusa. Esta opción le permite buscar cadenas similares a las que ingresa y seleccionar o especificar condiciones de búsqueda.
  • Archivo de valores. Esta opción le permite comparar una cadena con cada cadena en un archivo de conjunto y contar cada cadena que tiene una coincidencia.

La página de búsqueda de expresiones tiene 6 secciones importantes

  1. Un cuadro combinado Tipo de búsqueda para seleccionar el tipo de búsqueda a realizar.
  2. El grupo de opciones que cambia según el tipo de búsqueda seleccionado
    • Expresión regular:tiene dos botones; navegar, que explora las expresiones regulares existentes, y Crear..., que permite la creación de nuevas expresiones regulares.
    • Cadena aproximada:tiene un cuadro de conteo que especifica el umbral de la búsqueda aproximada (qué tan cerca deben estar las cadenas para que se considere una coincidencia) y un cuadro combinado para seleccionar el algoritmo de búsqueda aproximada que se utilizará.
    • Archivo de valores:tiene un botón Examinar... que le permite buscar el archivo establecido para usar en la búsqueda de valores.
  3. Un cuadro de texto donde ingresará los datos para su búsqueda.
  4. Una lista desplegable de las tablas a las que puede aplicar la búsqueda de expresión.
  5. Una lista desplegable de las columnas a las que puede aplicar la búsqueda de expresión.
  6. Una tabla que enumera las búsquedas que ha creado y que realizará el generador de perfiles.

Para crear un filtro de expresión regular:

  1. Desde el combo Tipo de búsqueda, seleccione Expresión regular .
  2. Haga clic en Examinar a (su biblioteca de expresiones guardadas) o haga clic en Crear  para especificar una expresión regular para usar en la búsqueda de valores de columnas.
  3. En el menú Tabla, seleccione la tabla que contiene la columna para filtrar.
  4. En el menú Columna, seleccione la columna a la que se debe aplicar la expresión regular.
  5. Haga clic en Agregar a la tabla y aparecerá un elemento en la siguiente tabla que contiene el nombre del archivo, el nombre de la columna, la fuente de búsqueda, el umbral y la etiqueta de la expresión regular que componen el filtro.
  6. Repita este proceso para cada columna a la que desee agregar un filtro. Si tiene demasiadas columnas para que este proceso sea práctico, aún puede escanear varias columnas y tablas automáticamente, en busca de datos que coincidan con sus patrones en un esquema de base de datos completo, utilizando este asistente en su lugar.

Para crear una búsqueda de cadena aproximada:

  1. Desde el combo Tipo de búsqueda, seleccione Cadena aproximada .
  2. Escriba la cadena a utilizar para la búsqueda.
  3. Seleccione el número de resultados que se devolverán (esta opción aparecerá cuando se seleccione Búsqueda aproximada).
  4. Seleccione el Tipo de búsqueda aproximada a usar (esta opción aparecerá cuando se seleccione Cadena aproximada ).
  5. En el menú Tabla , seleccione el archivo que contiene la columna para la búsqueda aproximada.
  6. En el menú Columna, seleccione la columna en la que se debe realizar la búsqueda aproximada.
  7. Haga clic en Agregar a la tabla y aparecerá un elemento en la siguiente tabla que contiene el nombre del archivo, el nombre de la columna, la fuente de búsqueda, el umbral y el tipo de búsqueda de la búsqueda aproximada que se realizará.
  8. Repita este proceso para cada columna en la que desee realizar una búsqueda de cadenas aproximadas.

Para crear una búsqueda de archivo de valores:

  1. Desde el combo Tipo de búsqueda, seleccione Archivo de valores .
  2. Haga clic en Examinar para seleccionar un archivo conjunto con el que se comparará la columna.
  3. En el menú Tabla, seleccione la tabla que contiene la columna para filtrar.
  4. En el menú Columna, seleccione la columna a la que se debe aplicar la expresión regular.
  5. Haga clic en Agregar a la tabla y aparecerá un elemento en la siguiente tabla que contiene el nombre del archivo, el nombre de la columna, la fuente de búsqueda, el umbral y la etiqueta de búsqueda de la lista de valores que componen el filtro.

Comprobación de integridad referencial

Otra opción en la tabla de opciones es -Comprobar la integridad referencial-. Esta opción le permite al generador de perfiles comparar una o más columnas con otra columna y determinar si las columnas tienen integridad referencial. Para usar esta función, marque las casillas -Comprobar integridad referencial- en las columnas para comparar la integridad referencial. El botón Siguiente se activará y le permitirá especificar los parámetros para la verificación de integridad referencial (consulte los detalles a continuación).

Si seleccionó la opción Verificar integridad referencial para cualquiera de sus columnas, haga clic en Siguiente para ir a la página Verificación de integridad referencial. Esta página tiene las siguientes características:

  1. Dos cuadros combinados, uno para seleccionar la tabla en la que se encuentra la clave principal y el otro para especificar la columna de la clave principal.
  2. Dos cuadros combinados, uno para seleccionar la tabla en la que se encuentra la clave externa y el otro para especificar la columna de la clave externa. También hay un botón para agregar la clave externa a una lista de claves externas para compararla con la clave principal.
  3. Un botón Crear verificación de integridad para agregar las columnas principal y externa a la lista a continuación.
  4. Una lista que almacena todas las comprobaciones de integridad referencial que realizará el generador de perfiles.


Para crear una verificación de integridad referencial:

  1. En el cuadro combinado de tabla debajo de Columna de clave principal, seleccione la tabla en la que se encuentra la clave principal.
  2. En el cuadro combinado de columna debajo de Columna de clave principal, seleccione la clave principal.
  3. En el cuadro combinado de la tabla en Columna de clave externa, seleccione la tabla en la que se encuentra la clave externa.
  4. En el cuadro combinado de la columna en Columna de clave externa, seleccione la clave externa.
  5. Haga clic en el botón Agregar a la lista de claves foráneas...
  6. Repita los pasos 3 a 5 para que cada clave externa se compare con la clave principal
  7. Haga clic en el botón Crear verificación de integridad...
  8. Repita los procesos anteriores para cada verificación de integridad referencial a realizar.

Resultados de perfil de muestra

 .csv mostrado en LibreOffice / .txt mostrado en EditPad Lite