Replicación de datos en IRI Workbench

La replicación de datos significa copiar datos de un lugar a otro y generalmente se realiza entre usuarios de diferentes bases de datos que necesitan compartir el mismo nivel de información. La replicación también puede involucrar otras fuentes y destinos de datos, y volverse más compleja en términos temporales y de transformación.

Este es el primero de dos artículos que cubren la replicación de bases de datos en la GUI de IRI Workbench. IRI Workbench es el IDE gratuito basado en Eclipse™ que admite todos los productos de IRI, incluidos IRI NextForm (para migración de datos y bases de datos) e IRI Voracity (una plataforma de gestión de datos total que incluye NextForm y otros). IRI Workbench crea y ejecuta trabajos de replicación de datos a través de asistentes, scripts y diagramas de flujo de trabajo.

Estas son algunas de las formas en que se producen las replicaciones:

Los datos de una base de datos se copian en otra base de datos en el mismo servidor o en otro.
Los datos de dos o más bases de datos se combinan en una sola base de datos.
Los usuarios obtienen copias iniciales completas de la base de datos y luego actualizaciones periódicas a medida que cambian los datos.
Los datos se extraen selectivamente de una base de datos y se replican en un archivo externo.

La replicación de datos le permite replicar solo una parte de la base de datos; es decir, tablas, columnas y/o filas seleccionadas. La replicación de todas las tablas es parte de la creación de reflejo de la base de datos. Sin embargo, los cambios en los esquemas, las restricciones, los procedimientos y las autorizaciones de acceso no son tan fáciles de replicar y pueden implicar procesos separados.

Ejemplo básico en IRI Workbench

Usaremos un asistente de creación de trabajos del menú NextForm en la barra de herramientas de IRI Workbench para este primer ejemplo de replicación de datos. Copiaremos datos de una tabla de Oracle tanto en una tabla de MySQL como en un archivo plano modificado. Este segundo artículo demuestra la replicación de solo datos actualizados en una tabla mediante la evaluación de valores de columna de marca de tiempo.

El menú NextForm contiene tres asistentes de creación de trabajos:

Nuevo trabajo de reformateo
Nuevo trabajo de migración de origen único
Nuevo trabajo de migración de tablas múltiples

Usaremos el asistente Nuevo trabajo de reformateo para realizar esta replicación. Para un trabajo más complejo, usaríamos un asistente NextForm diferente o un asistente de trabajo ETL en el menú Voracity (o crearíamos manualmente un nuevo flujo de trabajo).

Aquí está la estructura de las tablas de origen y destino:

Paso 1:especificar el nombre y las opciones de trabajo

En el menú NextForm de la barra de herramientas superior, seleccione el asistente Nuevo reformateo de trabajo. Para este ejemplo, ingrese el nombre del archivo de trabajo replicación de datos . NextForm agrega la extensión .ncl. También puede agregar cualquier información relevante sobre este trabajo que aparecerá como comentarios en el script.

De la lista de botones de radio, deje la selección predeterminada de Crear script porque este es un trabajo independiente y no forma parte de un flujo o proyecto por lotes más grande.

Paso 2:Identifique la fuente

En la siguiente pantalla, Fuentes de datos, haga clic en Añadir fuente de datos . La fuente en este ejemplo es una base de datos conectada a ODBC, así que seleccione ODBC, y luego haga clic en Examinar para seleccionar el nombre de la fuente de datos (DSN) y la tabla.

Paso 3:especificar los metadatos de origen

Para que el software IRI mueva y manipule los datos en su motor (en este caso, replicar en NextForm), necesita metadatos para el origen y los destinos definidos en el script de trabajo, en formato de archivo de definición de datos (DDF) de IRI.

Puede crear los DDF para cualquier fuente (o destino) automáticamente en IRI Workbench. Esa funcionalidad está integrada aquí, donde puede elegir entre Descubrir metadatos o Añadir metadatos existentes . En este caso, agregaremos los metadatos existentes, que se crearon de manera diferente. Esa elección y sus resultados se muestran en el siguiente cuadro de diálogo:

Haga clic en Diseño del campo de origen para ver el diseño de los datos.

Haga clic en Aceptar para cerrar el diseño del campo de origen. Luego haga clic en Siguiente en la página Fuentes de datos para abrir la página Destino de datos.

Paso 4:Definir los objetivos

Enviamos los datos de Oracle replicados a dos destinos:una tabla de MySQL a la que llamamos customers_out y un archivo llamado personout.csv .

Añadir una tabla de destino

Haga clic en Añadir destino de datos . Seleccione ODBC y haga clic en Examinar . A continuación, seleccione el Nombre de la fuente de datos (DSN) Oracle y la tabla CUSTOMERS_REP . Haga clic en Aceptar para cerrar el diálogo.

En la página Destinos de datos, resalte el nombre de la tabla y haga clic en Agregar metadatos existentes . Seleccione cliente.ddf (que se creó anteriormente) y haga clic en Aceptar .

Queremos limitar el número de registros en este archivo a 100. Haga clic en Editar opciones de destino para abrir el editor, y en Outcollect campo, ingrese 100 y haga clic en Aceptar .

Añadir un archivo de destino

Nuevamente, haga clic en Agregar objetivo de datos . Seleccione Archivo e ingrese personout.csv y haga clic en Aceptar . Queremos limitar la cantidad de registros en el archivo a no más de 50, y también necesitamos cambiar el formato a CSV. Para hacer ambas cosas, haga clic en Editar opciones de destino para abrir el editor. Cambiar el Formato campo a CSV , y en el Outcollect campo, ingrese 50 y haga clic en Aceptar .

Agregar una función de cadena al archivo de destino

También agregaremos una función de cadena para mostrar solo los últimos cuatro dígitos del campo SSN. Para hacer esto, haga clic en Diseño de campo de destino, y haz clic en la pestaña personout.csv.

Seleccione el campo SSN, haga clic con el botón derecho y seleccione Aplicar regla > Crear regla . En la página Selección del Asistente para regla de campo nuevo, seleccione Funciones de manipulación de cadenas . En la página siguiente, Funciones de manipulación de cadenas, seleccione sub_cadena . En el Desplazamiento campo, introduzca 6 para el número de caracteres desde la izquierda del campo, y en Longitud campo, ingrese 4 para la longitud de la subcadena y luego haga clic en Finalizar .

Añadir un filtro de inclusión

Para continuar modificando el archivo CSV, agregaremos un filtro para limitar los datos para incluir solo aquellos registros de CA. Haga clic en Filtro de registro para crear el filtro. Seleccione Incluir para la acción de filtrado y seleccione Nueva condición para el tipo. Abra el Generador de expresiones haciendo clic en el icono de función. En el Generador de expresiones, seleccione la categoría Operadores relacionales y el elemento EQ . En la Expresión en la parte superior, ingrese STATE EQ "CA" usando las herramientas en la barra de herramientas y haga clic en Finalizar .

Volviendo a la página Destinos de datos, decidimos volver a colocar los campos de apellido y nombre después del campo zip. Seleccione APELLIDO y haga clic en Abajo hasta que el campo esté al final de la lista, luego seleccione FIRSTNAME y haz lo mismo.

Cuando terminamos de agregar ambos destinos, los campos y las modificaciones se muestran en la página Destinos de datos.

Haga clic en Finalizar para completar la creación de la secuencia de comandos, que se muestra a continuación en la vista del editor con reconocimiento de sintaxis codificada por colores de IRI Workbench:

Resultados

Ejecute la secuencia de comandos del trabajo haciendo clic con el botón derecho en la secuencia de comandos y seleccionando Ejecutar como> Trabajo IRI . Los datos de destino se muestran en las pestañas abiertas a continuación:

Si tiene alguna pregunta sobre la replicación de datos en NextForm o Voracity, comuníquese con su representante de IRI.

Desde el Explorador de fuentes de datos, haga clic derecho en la tabla, seleccione IRI > Generar DDF . Esto crea el DDF para la tabla en la carpeta del proyecto activo y será referenciado por el motor de manipulación de datos de IRI en tiempo de ejecución.