sql >> Base de Datos >  >> RDS >> Database

Introducción a las dimensiones que cambian lentamente (SCD)

Una dimensión es una estructura que categoriza una colección de información para que se puedan obtener respuestas significativas a las preguntas relacionadas con esa información. Las dimensiones en la gestión de datos y los almacenes de datos contienen datos relativamente estáticos; sin embargo, estos datos dimensionales pueden cambiar lentamente con el tiempo y en intervalos impredecibles. Estos tipos de datos dimensionales se conocen como dimensiones que cambian lentamente (SCD).

En un entorno de almacenamiento de datos, una tabla de dimensiones tiene una clave principal que identifica de forma única cada registro y otras piezas de información que se conocen como datos dimensionales. La clave principal se vinculará a una tabla de hechos utilizando esta clave. Por lo tanto, es importante contar con un modelo para actualizar y manejar los datos actuales y los datos históricos. Hay modelos reconocidos que se conocen por sus tipos:

  • Tipo 1:este modelo consiste en sobrescribir el antiguo valor actual con el nuevo valor actual. No se mantiene ningún historial.
  • Tipo 2:los registros actuales e históricos se mantienen en el mismo archivo o tabla.
  • Tipo 3:los datos actuales y los datos históricos se mantienen en el mismo registro. El usuario decide cuánto historial se guarda en el registro.
  • Tipo 4:en este modelo, los datos actuales se mantienen en dos tablas diferentes; uno para los datos actuales y otro que contiene todos los datos históricos.
  • Tipo 6:este modelo es un híbrido de Tipo 1, Tipo 2 y Tipo 3.

Todos los métodos de actualización para los diferentes modelos de SCD se pueden realizar mediante el programa SortCL en IRI CoSort o IRI Voracity. Voracity ahora también proporciona un único asistente de creación de trabajos de extremo a extremo para crear estos programas automáticamente; vea abajo. La mayoría de los tipos utilizan una unión externa completa para hacer coincidir los registros del origen de datos maestros con los registros del origen de actualización en función de la equiparación de una clave única de cada uno. Los registros con coincidencias deben actualizarse en el maestro. Los registros en la fuente de actualización que no tienen una coincidencia deben agregarse al maestro.

Mis artículos sobre los diferentes tipos de SCD muestran la fuente o los datos de entrada en los archivos y muestran las secuencias de comandos de SortCL que se utilizan para actualizar los archivos maestros. Las tablas también pueden ser una fuente con estos scripts.

En cada ejemplo, cubro los pasos para actualizar una fuente dimensional que mantiene costos de productos que cambian a intervalos irregulares. El campo o columna clave es ProductCode. Todos los archivos maestros de origen contendrán los siguientes datos:

La fuente master1.dat contiene:

ProductCode Coste Fecha de inicio
C123 125,50 20110228
F112 2365.00 20120101
G101 19,25 20110930
J245 450,50 20110430
S022 98,75 20110515

Todos los datos de actualización tendrán la misma fecha de inicio. La fuente de actualización contiene los siguientes datos:

ProductCode Coste Fecha de inicio
F112 2425.00 20120701
J245 550,50 20120701
M447 101,75 20120701
S022 101,75 20120701

Los informes de SCD también se analizan en el sitio web del IRI aquí. Consulte estos artículos específicos de SCD: Tipo 1, Tipo 2, Tipo 3, Tipo 4 y Tipo 6.

Nuevo asistente gráfico SCD

Los usuarios de Voracity ahora también pueden usar un asistente de creación de trabajos especialmente diseñado para informar sobre los tipos de SCD 1, 2, 3, 4 y 6 en la GUI de IRI Workbench, construida en Eclipse. El asistente también admite la integración de clasificación, evaluación de expresiones, agregación, formato nuevo, cifrado y más.

Después de configurar el trabajo y seleccionar el tipo de SCD en el asistente, especifique los datos maestros y la información de actualización. Después de eso, especifique las asignaciones para el destino, colocando los campos en línea con los campos de origen coincidentes y utilizando los cuadros combinados según sea necesario, trabaje con conjuntos de campos actuales e históricos. Después de unir la información especificada en la página Unir fuentes, se crea el script apropiado y está listo para diagramar, ejecutar, modificar o compartir.

Los artículos asociados con los tipos anteriores se actualizarán para reflejar cómo el nuevo asistente SCD en Voracity puede crear automáticamente estos trabajos para usted.