sql >> Base de Datos >  >> NoSQL >> HBase

Administración de base de datos operativa

Nota del editor, agosto de 2020:CDP Data Center ahora se llama CDP Private Cloud Base. Puede obtener más información al respecto aquí.

Introducción

Esta publicación de blog es parte de una serie sobre la base de datos operativa (OpDB) de Cloudera en CDP. Cada publicación entra en más detalles sobre las nuevas características y capacidades. Comience desde el principio de la serie con Operational Database en CDP.

Esta publicación de blog le brinda una descripción general de las funciones y las herramientas de administración de la base de datos operativa (OpDB) en Cloudera Data Platform. Actualmente está disponible en dos factores de forma:como una oferta totalmente segura y semigestionada en CDP Public Cloud – Data Hub y como una oferta totalmente personalizable en CDP Data Center (similar a lo que está disponible en CDH y HDP). Para obtener más información sobre Data Hub, consulte Cloudera Data Hub.

Fig. 1:Clúster de OpDB Data Hub.

Puede usar los enlaces de este artículo para obtener más información e instrucciones para usar estas funciones.

Creación y control de bases de datos

Los espacios de nombres de Apache HBase son grupos lógicos de tablas que son similares a una base de datos en un sistema de base de datos relacional tradicional. Los espacios de nombres se pueden crear o administrar a través de Apache HBase Shell. Para obtener más información sobre el uso del shell de Apache HBase, consulte Descripción general del shell de Apache HBase.

Con el administrador de replicación y Ranger en la imagen con CDP, solo puede crear el espacio de nombres y administrarlo en el shell de HBase. Pero los permisos son a través de Ranger y la replicación es a través de Replication Manager.

Al igual que en una base de datos relacional, los espacios de nombres contienen colecciones de tablas y permisos, configuraciones de replicación y aislamiento de recursos. Puede establecer estas configuraciones en el nivel del espacio de nombres. En CDP, puede crear un espacio de nombres y administrarlo mediante el shell de HBase. Puede usar Apache Ranger para auditorías y políticas de autorización detalladas. Para obtener más información sobre cómo configurar la seguridad en CDP, consulte Seguridad con Ranger.

Replication Manager lo ayuda a crear políticas de replicación de HBase. Puede usar Replication Manager para configurar la replicación entre CDH/HDP o Apache HBase a CDP Data Center.

Fig. 2:Creación de la interfaz de usuario de la política de replicación

Funcionalidad gráfica DDL y DCL

Se proporcionan varias herramientas para esto, incluidos complementos para:

  • Cloudera Machine Learning (CML):CML lo ayuda a consultar datos mediante el cliente HBase y Phoenix, y lo ayuda en la exploración, visualización, uso compartido y colaboración de datos interactivos. OpDB se puede usar para almacenar resultados de predicción de sesión/trabajo/modelo para consultas posteriores por parte de varios usuarios diferentes.

Fig. 3:Interfaz de usuario de Cloudera Machine Learning

  • Hue:Hue es un editor de consultas interactivo basado en la web que le permite interactuar con almacenes de datos. Puede usar la aplicación HBase Browser en Hue para crear y explorar tablas HBase.

Fig. 4:la interfaz Hue admite búsqueda, inserción, actualización, eliminación, DDL para HBase

Puede usar la interfaz SQL con Impala o Hive para el procesamiento de consultas en Hue.

Fig. 5:Interfaz SQL usando Impala

Aquí hay un tutorial para crear tablas de ejemplo en HBase usando Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:el formato de código HBase para Eclipse es útil cuando se edita código HBase en Eclipse. Para obtener más información, consulte Compilación y desarrollo de Apache HBase.

Las herramientas como Zeppelin y Hue junto con sus complementos se proporcionan listas para usar. Pero también puede usar utilidades SQL de terceros como Toad.

Herramientas para la actualización de la versión de la base de datos operativa

Puede utilizar Cloudera Manager para automatizar el proceso de actualización de la base de datos operativa en su Cloudera Data Platform-Data Center (CDP-DC). Las actualizaciones se proporcionan a través de versiones o parches de mantenimiento. Cloudera Manager instala las versiones y/o parches y administra la configuración, así como el proceso de reinicio.

Si está utilizando CDP en una nube pública como Amazon AWS, debe crear un nuevo clúster de centro de datos para actualizar a las nuevas versiones de varios componentes. Para obtener más información sobre cómo crear un nuevo clúster de base de datos operativa, consulte Introducción a la base de datos operativa en CDP.

La oferta de Cloudera es una oferta basada en clústeres; las actualizaciones y los parches abarcan múltiples nodos (servidores) y la instalación, la configuración y el reinicio están automatizados, incluidos los reinicios continuos cuando corresponde.

Herramientas de gestión de parches en varios servidores

En el centro de datos de CDP, Cloudera Manager instala las versiones y gestiona la configuración. Cloudera Manager también realiza el proceso de reinicio para cada uno de los componentes afectados.

Aplicación de parches sin tiempo de inactividad

En el centro de datos de CDP, Cloudera Manager le permite aplicar parches sin tiempo de inactividad.

Gestión de cambios en varios servidores

Puede realizar la gestión de cambios en esquemas de base de datos en varias instancias. Por ejemplo, puede hacer esto en su entorno de prueba/desarrollo, ensayo o producción.

Puede crear una secuencia de comandos de los cambios necesarios mediante el shell de HBase y, a continuación, propagarlos a otras instancias.

Para obtener más información sobre el uso del shell HBase, consulte Shell HBase de Apache.

División de la carga de trabajo

Puede realizar particiones de cargas de trabajo/aplicaciones dentro de OpDB usando varias herramientas según la naturaleza del conjunto de cargas de trabajo y sus necesidades de datos.

Si todas las aplicaciones acceden a tablas separadas, se pueden usar grupos de servidores regionales para dedicar un conjunto de nodos para un conjunto definido de tablas o espacios de nombres creando un enfoque de partición de hardware. Para obtener más información acerca de los grupos de servidores regionales, consulte Uso de la agrupación de RegionServer.

Para las aplicaciones que utilizan el mismo conjunto de tablas, puede utilizar la limitación de RPC, las cuotas de usuario y las cuotas de espacio para gestionar el problema del vecino ruidoso. Consulte la gestión de cotizaciones de HBase para obtener más detalles técnicos.

También puede combinar estos dos conjuntos de opciones para tener un esquema de partición más sofisticado. Use Cloudera Manager para asegurarse de que los servicios específicos se particionen adecuadamente entre los diferentes nodos del clúster; por ejemplo, puede decidir qué nodos se deben usar para la búsqueda SOLR, etc.  

Particionamiento de hardware

Cloudera Manager e YARN aprovechan los cgroups de Linux y la gestión de memoria activa para la partición estática y dinámica de los recursos de hardware.

En primer lugar, todos los procesos que se ejecutan en todos los hosts se pueden particionar de forma rígida con cgroups, establecidos por Cloudera Manager. En segundo lugar, un asistente permite a los usuarios definir el diseño de las particiones estáticas para los servicios mediante el establecimiento de porcentajes, la traducción automática de la CPU basada en cgroup y el aislamiento de E/S, y establece límites de memoria mediante la configuración de los propios servicios.

Finalmente, el administrador de recursos nativo proporciona un modelo de contenedor para cargas de trabajo que coloca cada unidad de trabajo discreta en un contenedor, utilizando cgroups y administración de memoria activa (establecer, monitorear y eliminar) para el aislamiento de aplicaciones.

Hipervisores de software

Se admiten los siguientes hipervisores de software

  • VMware es compatible con entornos locales
  • Entornos virtuales de Microsoft Azure (pila de Azure)
  • Amazon Web Services, la virtualización de Google Compute Platform y Microsoft Azure son compatibles con la nube.

Soporte de contenedores y orquestación

Cloudera proporciona una imagen de Docker que tiene instalados Apache HBase, Apache ZooKeeper y Cloudera Manager. Puede configurar YARN para administrar sus contenedores Docker y enviar trabajos de Apache HBase a YARN en el mismo contenedor o enviar trabajos a YARN desde otro contenedor.

Para obtener más información, consulte Administrar contenedores de Docker en YARN.

Reversión de parches o actualizaciones de versiones

Cloudera Manager proporciona automatización para algunos de los procesos de reversión. Las actualizaciones a veces pueden implicar cambios en los formatos de datos. Las herramientas para deshacer los cambios de formato no son compatibles y debe desencadenar una restauración de los datos de las copias de seguridad para que la reversión pueda usar los datos antiguos.

Migración multiplataforma

Las herramientas estándar de respaldo/restauración/recuperación de datos de Cloudera están disponibles para respaldar la migración de OpDB entre diferentes sistemas operativos.

Las estrategias de respaldo y recuperación ante desastres de HBase garantizan que sus datos estén respaldados para protegerlo de la pérdida de datos. La instantánea de HBase le permite tomar una instantánea de una tabla sin mucho impacto en RegionServers. También porque las operaciones de instantánea, clonación y restauración no implican la copia de datos.

Para obtener más información acerca de la copia de seguridad y desastres de HBase, consulte Estrategias de recuperación de desastres y copia de seguridad de HBase.

Herramientas de administrador de base de datos (DBA)

Hay muchas herramientas incluidas para apoyar la gestión de la base de datos, incluyendo:

  • Administrador de Cloudera
  • Concha HBase
  • Tono
  • HBCK2 
  • hbtop
  • Guardabosques 
  • Atlas
  • IPA libre
  • navencrypt 
  • herramientas HDFS
  • HILO

Estas herramientas brindan métricas y monitoreo, reinicio de clúster, adición de ingesta, administración del ciclo de vida, actualizaciones, seguridad, configuración de Kerberos y otras características.

Figura 6:interfaz HBase de Cloudera Manager

Fig. 7:Métricas y monitorización en Cloudera Manager:

Fig. 8:Reinicio del clúster en Cloudera Manager

Además de estas herramientas, también puede utilizar las siguientes herramientas de administración de código abierto y de terceros:

  • jinete
  • HADMIN

Interfaces documentadas abiertas para herramientas de gestión de terceros

También proporcionamos API abiertas para habilitar el uso de otras herramientas para administrar OpDB. Por ejemplo, la interfaz JMX se puede usar para integrarse con herramientas de monitoreo de terceros como Grafana.

Conclusión

En esta publicación de blog, analizamos cómo puede utilizar las diversas herramientas y capacidades administrativas proporcionadas por OpDB en CDP. En el próximo artículo, cubriremos cómo puede hacer uso de las capacidades de administración en OpDB, échale un vistazo aquí.