Descargar bases de datos muy grandes

Una de las principales preocupaciones de los DBA que necesitan descargar big data de tablas de bases de datos muy grandes (VLDB) es la velocidad. La descarga más rápida hace que los datos sean accesibles en diferentes formas para diferentes propósitos y plataformas. Cuanto más rápido se adquieren los datos, más rápido se pueden procesar y entregar. El resultado final es un tiempo de solución más rápido y, por lo tanto, la productividad y competitividad de las empresas que ganan dinero con la información.

La mayoría de las herramientas y métodos disponibles que se utilizan actualmente para extraer datos de grandes tablas de hechos son simplemente demasiado lentos. Aquellos que pretenden ser más rápidos son complicados, patentados o requieren la compra de un paquete ETL costoso. Un cambio a un paradigma ELT o Hadoop implica gastos importantes de hardware (o dispositivo de base de datos), grava la base de datos subyacente que ahora se está transformando e impone curvas de aprendizaje pronunciadas y cargas de mantenimiento.

¿No existen otras opciones para la descarga y los procesos posteriores que sean más rápidas, sencillas y asequibles?

¿Por qué descargar tablas VLDB?

Hay muchas razones por las que descargaría datos de forma masiva de estas tablas en primer lugar:

Migración de base de datos :cuanto más rápido pueda obtener datos de las bases de datos heredadas, más rápido podrá asignar y mover los datos a las nuevas bases de datos. El movimiento masivo de datos sería beneficioso si los volúmenes de datos son masivos, existe un beneficio para la transformación, la protección o el análisis fuera de línea (que es posible a la vez en IRI CoSort), y cuando las cargas masivas clasificadas previamente son la única forma de satisfacer Plazos de SLA.

Reorganización de la base de datos :Descargue, clasifique, vuelva a cargar para mantener la base de datos funcionando de manera eficiente y optimice las consultas comunes al mantener las tablas en orden de unión. La descarga se realiza fuera de línea o reorganizaciones externas. Vea esta comparación de métodos de reorganización fuera de línea y en línea.

Integración de datos :Las operaciones de extracción, transformación y carga (ETL) de DW a gran escala comienzan con la extracción de tablas en el área de preparación de datos. Los datos descargados de tablas y combinados con conjuntos de datos de mainframe, registros web y otros archivos planos pueden integrarse y procesarse de manera más eficiente en el sistema de archivos. Las transformaciones externas a través de no solo son más eficientes porque se pueden organizar varias acciones en un solo paso de E/S, sino porque la sobrecarga computacional de todo este trabajo se elimina de la base de datos (consulte ETL frente a ELT).

Replicación/archivo de datos :Al descargar las tablas de hechos, los datos operativos de fuente dorada se pueden duplicar y almacenar en un formato portátil. Los datos en archivos planos se pueden consultar, manipular y reformatear con herramientas como IRI NextForm o CoSort, y se pueden usar para llenar otras bases de datos y aplicaciones. Del mismo modo, un depósito accesible de estos datos también se puede almacenar fuera de línea para la restauración y recuperación de copias de seguridad, o distribución a partes que requieren acceso a los datos en un entorno diferente.

Inteligencia empresarial :Puede ser más rápido y más fácil importar datos operativos a Excel y otras herramientas de BI en formatos de archivo sin formato como CSV y XML en lugar de tratar de establecer un puente entre la tabla y una hoja de cálculo o un cubo de BI. Por lo tanto, descargar tablas en archivos planos es un paso inicial y eficiente en la concesión de datos:la preparación de datos para operaciones de BI.

Una mirada a los métodos de descarga

Los métodos de extracción de VLDB varían en rendimiento y funcionalidad. Una buena utilidad para descargar big data de Oracle y otras bases de datos importantes debe ser eficiente, fácil de usar y admitir ciertas funciones de reformateo que no dificultarían el proceso.

El comando SQL SPOOL puede volcar datos en un archivo plano, pero normalmente es lento en volumen. Las utilidades nativas como la exportación o el bombeo de datos de Oracle son más rápidas, pero producen extractos patentados que solo se pueden volver a importar a la misma base de datos y no se pueden analizar como lo haría un archivo plano.

Si necesita descargar rápidamente tablas grandes en archivos planos portátiles, considere IRI FACT (Fast Extract) para Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, etc. FACT utiliza paralelismo y protocolos de conexión de base de datos nativos (como Oracle OCI ) para optimizar el rendimiento de la extracción. La GUI (asistente) de FACT gratuita que forma parte de IRI Workbench, basada en Eclipse™, presenta tablas y columnas disponibles para extraer y utiliza la sintaxis SQL SELECT.

Otro beneficio de usar FACT es su integración de metadatos con el programa SortCL en IRI Voracity para transformar, proteger, orientar e incluso informar sobre los extractos de archivos sin formato. FACT también crea el archivo de control de la utilidad de carga masiva de la base de datos en previsión de repoblaciones de la misma tabla utilizando archivos planos preclasificados en operaciones de reorganización o ETL a gran escala.