Cómo generar datos de prueba de base de datos

Los usuarios de IRI RowGen pueden generar datos de prueba sintéticos estructural y referencialmente correctos para una base de datos completa en una sola operación. Los datos de prueba reflejan las características de producción (como rangos de valores y frecuencias) que normalmente se encuentran en la base de datos o en las operaciones de ETL, pero no requieren el acceso ni el enmascaramiento de datos reales.

Los asistentes de trabajo de usuario final para RowGen en la GUI de IRI Workbench (basado en Eclipse™) ayudan en la generación de datos de prueba. Uno de los más útiles es el Nuevo trabajo de datos de prueba de la base de datos RowGen asistente, que crea un proyecto RowGen completo para autocompletar varias tablas a la vez con valores clave preordenados y la oportunidad de personalización. Aunque se basa en metadatos existentes para cada tabla de prueba, también puede personalizar, y generalizar a través de reglas, la generación de valores de columna.

En este artículo, demostraré cómo puede usar IRI Workbench para crear tablas de destino en Oracle y diagramar su esquema, y luego usar uno de sus asistentes RowGen para generar y cargar datos de prueba en esas tablas.

Aparte, también quiero que RowGen inserte valores reales seleccionados al azar en ciertas columnas de los datos del archivo establecido. Un archivo de conjunto es un archivo de texto con una o más filas, que puede tener varias columnas delimitadas por tabulaciones que usted proporciona o extrae automáticamente en otro asistente de Workbench, Establecer archivo de columna. En mi caso, sin embargo, creé mis archivos de conjuntos manualmente:conjunto de emp., conjunto de elementos, conjunto de proyectos, conjunto de cantidades, conjunto de salarios, conjunto de departamentos y conjunto de categorías.

Estos son los pasos que seguí, teniendo en cuenta que tenía la información de mi tabla de destino y que necesitará la misma:

Paso 1. Crear tablas de destino vacías

Establezca la conexión de la base de datos (Oracle en este caso) a través de JDBC en el Data Source Explorer (DSE) de IRI Workbench
Especifique Dept, Emp, Project, Category, Item, Item_Use, Sale escribiendo sus instrucciones CREATE TABLE y ALTER TABLE en un archivo .sql editado en el álbum de recortes SQL de DSE
Guárdelo en una carpeta de Proyecto y haga clic derecho sobre él para Ejecutar el archivo SQL para construir las tablas

Paso 2. Crear y mostrar su diagrama ER

Desde arriba de la barra de herramientas, seleccione Nuevo, Proyecto IRI y cree una nueva carpeta
Haga clic en esa carpeta, luego resalte las 7 nuevas tablas arriba en el DSE
Haga clic derecho en IRI, luego seleccione Nuevo modelo de diagrama ER
Esto crea un nuevo modelo de esquema y archivo, schema.sqlschema, en la carpeta de su proyecto

Tenga en cuenta que la DSE y la herramienta de diagramación ER de IRI son independientes de la base de datos.

Paso 3. Produzca datos de prueba con el asistente de datos de prueba de la base de datos RowGen

CTRL-clic para seleccionar esas 7 tablas en el DSE nuevamente
Haga clic con el botón derecho y seleccione IRI, Nuevo trabajo de datos de prueba de base de datos
Haga clic en Siguiente cuando se abra el asistente, ya que ya seleccionó previamente las tablas para completar:

Haga clic en Siguiente y, en la pantalla Opciones, seleccione SQL*Loader como método de llenado

Especifique el número estándar de filas en 1000 por tabla, teniendo en cuenta que también podría variar este recuento:

Haga clic en Siguiente para avanzar al cuadro de diálogo Configuración de reglas, donde puede agregar o modificar varias reglas de generación a nivel de campo generadas gráficamente en cuadros de diálogo desde el Selector de reglas:

Como aquí es donde insertaré condicionalmente datos reales seleccionados al azar (de mis archivos establecidos), en columnas similares en varias tablas, aplicaré la generación como regla siempre que el nombre de la columna se ajuste a un patrón que especifique.

Estoy comenzando mi aplicación de establecer datos con 'elemento' de ese archivo, por lo que ahora agrego el campo de patrón, agregue Item_Name* y haga clic en probar coincidencias para verificar si (y dónde) existe ese nombre de columna
A continuación, seleccione un campo del menú Opciones de regla y seleccione Establecer archivo. Busco mi archivo item.set para especificar su uso en cualquier columna nombrada como Item_Name o similar.
Repito estos pasos para aplicar datos de mis archivos establecidos para las columnas denominadas Category_Name, Dept_Num, Emp_Name, Item_Name para mejorar el realismo de los datos de prueba:

Haga clic en Siguiente para llegar a esta pantalla de resumen del trabajo:

Haga clic en Finalizar para completar el asistente.

El asistente de RowGen creó automáticamente los scripts de lenguaje de control de texto sin formato (.rcl) que especifican la generación de datos de prueba para cada tabla, así como archivos de conjuntos dependientes (para integridad referencial), archivos de control de SQL*Loader y un archivo por lotes para ejecute todo a la vez, dentro o fuera del IRI Workbench.

Al ejecutar el archivo por lotes que produjo RowGen, se crean todos los datos de prueba necesarios en archivos sin formato y se llenan todas las tablas de destino con esos datos según lo elegido en el asistente (a través de ODBC o la utilidad de carga de la base de datos), en el orden necesario para preservar la información primaria. Relaciones de clave externa. Las tablas de carga masiva se clasificaron previamente según la clave de índice de cada tabla y los valores de los archivos establecidos se insertaron aleatoriamente en las columnas de la derecha.

Esta captura de pantalla de IRI Workbench muestra uno de los scripts de trabajo de RowGen y una tabla de destino:

Todos los scripts de trabajo de RowGen se guardaron en la carpeta que seleccioné al principio y están disponibles para su modificación, reutilización, uso compartido en equipo, control de versiones, etc. El modelo de flujo de trabajo creado para la generación de datos de prueba también se puede diagramar en el editor de flujo de trabajo visual, con ETL y otros proyectos de gestión de datos IRI.

Póngase en contacto con [email protected] si necesita ayuda para planificar o utilizar este asistente.