sql >> Base de Datos >  >> NoSQL >> HBase

Versión CDH 6.2:Novedades en HBase

Cloudera lanzó recientemente CDH 6.2 que incluye dos nuevas funciones clave en Apache HBase:

  1. Replicación en serie
  2. El caché de depósito ahora es compatible con la memoria Optane de Intel

Replicación en serie

HBase tiene un sofisticado mecanismo de replicación asincrónica que admite topologías complejas en la actualidad que incluyen topologías de turno global, bidireccional, de expansión y de expansión.

Esta capacidad de replicación, hasta la fecha, brinda consistencia eventual, lo que significa que el orden en que se replican las actualizaciones no es necesariamente el mismo que el orden en que se aplicaron a la base de datos. Si bien esto funcionó para muchos clientes, el orden de las actualizaciones en el extremo de replicación fue importante para muchos casos de uso.

La función de replicación en serie proporciona consistencia en la línea de tiempo para la replicación. En otras palabras, el orden de las actualizaciones se conserva mediante la replicación en el clúster de destino. Hay un pequeño costo por esta consistencia y, en algunos casos, los usuarios pueden encontrar que la replicación es un poco más lenta que el enfoque de replicación predeterminado.

La configuración de esta opción es bastante simple (establezca el indicador SERIAL en verdadero) y se puede aplicar en el momento de la configuración de la replicación o en cualquier momento posterior a nivel de tabla, nivel de espacio de nombres o para un par que replique todas las tablas en HBase.

Caché de depósito de HBase

El caché de cubo de HBase es un caché de 2 capas que está diseñado para mejorar el rendimiento listo en una variedad de casos de uso. La primera capa está en el montón de Java y la segunda capa de la memoria caché puede residir en varias ubicaciones diferentes, que incluyen:memoria fuera del montón, memoria Intel Optane, SSD o HDD.

La configuración recomendada para la segunda capa de la memoria caché del depósito para la mayoría de los clientes ha sido fuera del montón. Las implementaciones en esta configuración pueden escalar a tamaños de memoria mucho mayores de lo que es posible con la memoria caché integrada en el montón, ya que el motor fuera del montón evita la presión de recolección de elementos no utilizados de JVM. El tamaño de caché más grande proporciona un rendimiento de lectura de HBase significativamente mejorado.

A partir de CDH 6.2, Cloudera ahora incluye la capacidad de usar la memoria Optane recién lanzada de Intel como un destino alternativo para el segundo nivel de la caché del depósito. Esta configuración de implementación le permite tener ~3 veces el tamaño de la memoria caché por un costo constante (en comparación con la memoria caché fuera del montón en DRAM). Incurre en una latencia adicional en comparación con la configuración tradicional fuera del montón, pero nuestras pruebas indican que al permitir que más (si no todo) el conjunto de trabajo de los datos quepa en el caché, la configuración da como resultado una mejora neta del rendimiento cuando los datos finalmente se almacena en HDFS (usando HDD).

Cuando se implementa en la nube o se usa el almacenamiento de objetos en las instalaciones, la mejora del rendimiento será aún mejor, ya que el almacenamiento de objetos tiende a ser muy costoso para lecturas aleatorias de pequeñas cantidades de datos. La siguiente tabla da una idea del costo, el tamaño y la latencia necesarios para planificar cómo configurar el segundo nivel de la caché del depósito.

Almacenamiento Coste en $/GB Tamaño (coste constante) Latencia
DRAM fuera del montón 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233,3 GB 10-100 µs
HDD² 0,027 1,3 TB 4-10ms
Almacenamiento de objetos³ 0,006 5,8 TB 10-100ms

Lea este blog para obtener más información sobre la colaboración entre Intel y Cloudera para aprovechar la memoria persistente Optane DC para mejorar el rendimiento.

Referencias:

  1. Descripción general del rendimiento de la memoria persistente Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM), minuto 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-precio-rendimiento,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ productos/unidades-de-centro-de-datos#disco-duro-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf