sql >> Base de Datos >  >> RDS >> Database

Arquitectura y nomenclatura de productos IRI

Los nombres de los productos de software de IRI y cómo se ejecutan a veces han sido una fuente de misterio, o incluso confusión, para los no iniciados. Este artículo detalla las piezas y aclara su interacción, brindando una introducción rápida para posibles usuarios, socios y nuevos análisis de la industria. pts.

Donde empezó todo

Comenzó con IRI CoSort en 1978, la utilidad de generación de informes, transformación y clasificación de big data para Unix y Windows que todavía se usa ampliamente en la actualidad. Antes de CoSort, este primer producto IRI se llamaba CO-SORT, COSORT y CoSORT, en ese orden.

En 1992, IRI agregó el programa de manipulación y sintaxis de definición de datos Sort Control Language (SortCL) a las otras utilidades y API en el paquete CoSort. Hoy en día, SortCL es la interfaz de usuario más utilizada y repleta de funciones en el paquete CoSort.

Los scripts de SortCL definen, y el programa sortcl ejecuta, los trabajos que realizan y combinan muchas tareas comunes de mapeo y movimiento de datos que los usuarios de CoSort necesitan ejecutar. SortCL no solo es un 4GL simple para aprender, leer y modificar, sino que también es compatible a través de una API (llamada sortcl_routine) y gráficamente en el IDE IRI Workbench gratuito, construido en Eclipse.

A medida que la funcionalidad de SortCL se expandió, superó el mercado tradicional de CoSort para migraciones de clasificación y aceleración de BI/DW. Hoy en día, el ejecutable SortCL no solo es el motor que ejecuta la mayoría de los trabajos de CoSort, sino que es el corazón palpitante de varios productos derivados, ilustrados aquí:

Productos derivados de CoSort/SortCL

Específicamente, el mismo motor SortCL y scripts de trabajo compatibles, generalmente diseñados y administrados desde IRI Workbench, procesan fuentes de datos estructurados en:

  1. IRI FieldShield e IRI DarkShield para enmascaramiento de datos
  2. IRI RowGen para síntesis de datos de prueba y creación de subconjuntos de bases de datos
  3. IRI NextForm para conversión y replicación de datos y bases de datos y, el
  4. Trabajos de la plataforma de administración de datos IRI Voracity, que incluyen aquellos en CoSort y los productos vinculados anteriormente, más Capacidades frontales adicionales a través de la GUI común de Workbench, como:
  • Descubrimiento de datos (perfiles, clasificación y búsqueda)
  • Almacén de datos ETL, CDC y SDC
  • Migración y creación de prototipos de Data Vault 2.0
  • Calidad de los datos (validación, limpieza, homogeneización)
  • Análisis o análisis de datos para Splunk y KNIME, y otras herramientas de BI mediante transferencia

Otra forma de ver la jerarquía de productos es esta:

donde Workbench IDE es donde se diseñan todos los trabajos de productos IRI, incluidas las funciones adicionales admitidas en Voracity.

Preguntas frecuentes

Dado que SortCL comenzó con CoSort, y es común a todos estos productos, ¿significa esto que puedo usar CoSort u otro producto anterior para hacer lo que hacen los otros productos también?

La respuesta es sí y no. Sí, tiene SortCL y, en teoría, puede realizar parte del mismo trabajo que otro producto IRI compatible con SortCL debe realizar. Pero sería más difícil y representa un riesgo de producción. IRI solo proporciona documentación y soporte para las tareas mejor asociadas con sus productos IRI con licencia.

Por lo tanto, la capacidad de cruce es limitada en la práctica. Sin embargo, la funcionalidad combinatoria es común en muchos casos (como un subconjunto de base de datos ordenado), y en Voracity, los casos de uso de múltiples tareas y múltiples pasos (como mapeo incremental, enmascaramiento, limpieza y reformateo) son altamente eficientes y totalmente compatibles.

SortCL es el motor predeterminado en todos los IRI Voracity CDC, ETL, CDC, limpieza, reconciliación, creación de subconjuntos ,
Trabajos de enmascaramiento de PII, síntesis de datos de prueba, conversión, reformateo, disputa, análisis e informes.

Arquitectura de tiempo de ejecución

Ahora que conoce los nombres de los productos, veamos cómo se interrelacionan e implementan.

El software IRI generalmente opera en un modelo cliente/servidor, donde los trabajos compatibles con SortCL se definen en un entorno de edición frontal como IRI Workbench u otro editor de texto, o mediante la API de IRI. Esos trabajos generalmente se ejecutan en el programa de back-end SortCL en máquinas Linux, Unix o Windows (físicas o virtuales), en las instalaciones o en la nube:

Algunos trabajos con secuencias de comandos en la sintaxis de SortCL también se pueden ejecutar sin modificaciones directamente en Map Reduce 2, Spark, Spark Stream, Story o Tez para los licenciatarios de la edición Voracity Grid (VGrid) para Hadoop.

Sin embargo, tenga en cuenta que, a diferencia de muchos otros programas ETL y de enmascaramiento de datos, no hay un servidor CoSort en el que SortCL deba ejecutarse o gestionarse de forma centralizada. El ejecutable ligero de SortCL puede ejecutarse en cualquier lugar, desde una Raspberry Pi hasta un mainframe z/Linux.

Por lo tanto, según el diagrama anterior, es común que los sitios tengan instancias SortCL de prueba y control de calidad instaladas en las computadoras portátiles de los desarrolladores que ejecutan IRI Workbench, así como en servidores de bases de datos o archivos centralizados para optimizar el rendimiento. Esta pregunta frecuente cubre la cuestión de dónde licenciar SortCL en el contexto de los productos de enmascaramiento de datos IRI, por ejemplo, y cómo factorizar sus costos en consecuencia.

Si tiene alguna pregunta sobre qué producto de IRI necesita o cómo implementarlo mejor en el hardware que tiene (o planea aprovisionar), comuníquese con su representante de IRI.