Accesibilidad de la base de datos operativa

Esta publicación de blog es parte de una serie sobre la base de datos operativa (OpDB) de Cloudera en CDP. Cada publicación entra en más detalles sobre las nuevas características y capacidades. Comience desde el principio de la serie con Operational Database en CDP.

OpDB de Cloudera proporciona un amplio conjunto de capacidades para almacenar y acceder a datos. En esta publicación de blog, veremos las capacidades de accesibilidad de OpDB y cómo puede hacer uso de estas capacidades para acceder a sus datos.

Distribución y fragmentación

La base de datos operativa de Cloudera (OpDB) es un sistema de gestión de base de datos (DBMS) escalable que está diseñado para escalar linealmente a petabytes de datos. Como todos los DBMS, el escalamiento horizontal se implementa mediante fragmentación. Se admiten dos políticas de fragmentación diferentes:

Partición automática
Fragmentación predefinida

Independientemente del enfoque, existen API para habilitar la fragmentación en función del hash, el rango de valores y la combinación de ambos.

Partición automática

Cuando la fragmentación automática está habilitada, las tablas se distribuyen dinámicamente en el clúster y cuando el tamaño de un fragmento supera el límite configurable, se divide automáticamente y se mueve entre los servidores de un clúster.

Un segmento de mesa se divide en dos en la tecla del medio, creando dos mitades aproximadamente iguales y esas dos mitades pueden ser atendidas por diferentes servidores.

La fragmentación automatizada se aplica independientemente de la red que se utilice con OpDB (WAN o local). Los clústeres se pueden configurar para abarcar una WAN, en cuyo caso se produciría fragmentación y movimiento de datos a través de la WAN sin pérdida de datos.

El sistema se puede configurar para saber qué nodos se encuentran en qué centros de datos, lo que proporciona resiliencia adicional para los fragmentos, ya que las copias de los fragmentos se pueden distribuir en varios centros de datos.

Fragmentación predefinida

Los fragmentos se pueden limitar a subconjuntos específicos de nodos en un clúster en función de la política, generalmente de manera específica para el arrendatario. Eso permite la implementación de políticas basadas en la geografía. Luego, las tablas pueden replicarse entre clústeres y establecerse mediante políticas para garantizar que la replicación de tablas y los fragmentos asociados se limiten a las geografías deseadas.

OpDB de Cloudera proporciona soporte nativo para la soberanía de datos. Si un clúster abarca varios países, los grupos de servidores regionales se pueden usar para anclar datos en países específicos junto con la configuración de aislamiento de HDFS Rack.

Consultas

Cloudera proporciona tres motores de consulta optimizados para diferentes tipos de casos de uso, tanto operativos como analíticos, e interfaces NoSQL para permitir un rendimiento optimizado que abarca una amplia gama de cargas de trabajo operativas y de almacenamiento de datos. Esto permite la ejecución de consultas y combinaciones de datos en múltiples fragmentos.

OpDB de Cloudera proporciona un motor SQL OLTP nativo que admite la consulta de múltiples datos y modelos de objetos, incluidas la consulta y la unión entre ellos. Dos de nuestros motores de consulta OLAP se pueden usar para mapear tablas externas que residen dentro de nuestra OpDB (o en otras ubicaciones) y pueden consultarlas o unirse para realizar consultas analíticas más complejas típicas del almacenamiento de datos.

Herramientas de integración de datos

Cloudera proporciona varias herramientas para permitir la integración con el almacenamiento de datos y el procesamiento de consultas federadas.

Por ejemplo:

Flink, Spark, Hive y MapReduce proporcionan la exportación masiva a un almacén de datos
Nifi proporciona la exportación de transmisión a un almacén de datos
Phoenix, Impala y Hive proporcionan consultas de datos in situ dentro de nuestra OpDB
Hive proporciona el procesamiento de consultas federadas en nuestra OpDB, la solución de almacenamiento de datos y las soluciones de almacenamiento de datos de terceros

Soporte de datos externos

OpDB de Cloudera incluye muchas herramientas de Hadoop y se integra con la mayor parte del ecosistema de Hadoop.

Nuestra OpDB proporciona interfaces NoSQL y SQL. No hay restricciones en esta interfaz y es muy compatible con la comunidad de Hadoop.

OpDB móvil

MiNiFi se puede usar en dispositivos portátiles en el borde y proporciona conectividad de datos con OpDB.

El editor de consultas HUE puede ejecutarse en un dispositivo móvil o portátil.

Conectividad basada en estándares

Cloudera proporciona controladores JDBC y ODBC proporcionados a través de nuestros motores SQL, además de acceso API directo a nuestros almacenes de datos y herramientas.

En esta publicación de blog, analizamos algunas de las capacidades de accesibilidad de OpDB, como la consulta de datos, la integración de datos y la conectividad. En el próximo artículo, cubriremos cómo puede hacer uso de las capacidades de administración en OpDB, encuéntrelo aquí.

Para obtener más información, vaya a:Introducción a la base de datos operativa.