sql >> Base de Datos >  >> NoSQL >> HBase

¡Feliz cumpleaños Apache HBase! 10 años de resiliencia, estabilidad y rendimiento

Apache HBase se convirtió en un proyecto de primer nivel con Apache hace 10 años y Cloudera comenzó a contribuir al mismo tiempo (2010). Durante este tiempo, se ha convertido en una de las herramientas de código abierto más grandes y populares en big data y una de las bases de datos NoSQL más populares.

La Apache Software Foundation anuncia el décimo aniversario de Apache HBase

HBase es compatible con la base de datos NoSQL de columna ancha y valor clave y es utilizado por empresas de todo el mundo. Cloudera tiene más de 500 clientes en producción que lo utilizan para casos de uso que van desde aplicaciones transaccionales de misión crítica, almacenamiento de datos, aprendizaje automático e ingeniería de datos. Nuestros clientes eligen HBase debido a su resiliencia (algunos clientes pueden obtener un tiempo de actividad de la aplicación del 100 % durante muchos años), estabilidad, rendimiento y bajo costo operativo. Los clientes de Cloudera lo implementan de forma independiente, junto con Phoenix, que es una base de datos basada en SQL creada en HBase y, a veces, con Apache Impala y/o Apache Hive, lo que les permite ejecutar consultas OLAP basadas en SQL en HBase.

He sido gerente de producto de la oferta de base de datos operativa de Cloudera desde 2018 y tuve la oportunidad de reunirme con muchos de nuestros clientes. Estoy continuamente impresionado por la amplia gama de formas en que los clientes usan HBase. La amplitud de los casos de uso es tan grande y variada que desafía la segmentación. Después de mucho análisis, terminé con un enfoque simple para clasificar los casos de uso:clientes que lo usan para respaldar aplicaciones de misión crítica y aquellos que no. Las aplicaciones de misión crítica tienden a ser de naturaleza transaccional y ayudan a nuestros clientes a impulsar sus ingresos de primera línea y/o impulsar la eficiencia operativa. Para ellos, si HBase baja, la línea superior y/o la línea inferior se ven afectadas y, en el peor de los casos, las personas pueden morir.

Ejemplos de casos de uso de misión crítica:

  • Un proveedor de software para el cuidado de la salud utiliza HBase para potenciar cientos de aplicaciones. Si estas aplicaciones fallan, por cualquier motivo, las personas pueden morir y los costos de atención médica aumentan. Este cliente ha implementado HBase en más de 7000 nodos con más de 70 PB de datos.
  • Un fabricante de teléfonos móviles usa HBase para habilitar un asistente de voz y muchos otros casos de uso en más de 6000 nodos
  • Una casa de medios financieros utiliza HBase para potenciar partes de la plataforma y permite a los comerciantes y otros comprender el contexto relevante en torno a los movimientos de precios de acciones, tendencias, etc. en más de 1200 nodos
  • Una plataforma de marketing por correo electrónico líder en el mercado ejecuta HBase en ~1000 nodos
  • Un proveedor de seguros usa HBase en ~1000 nodos para almacenar toda la información de reclamos y la usa para administrar esos reclamos a lo largo de su ciclo de vida
  • Un proveedor de servicios bibliotecarios utiliza HBase en más de 400 nodos para respaldar los préstamos interbibliotecarios en todo el mundo 
  • Una empresa global de distribución de energía utiliza HBase en más de 400 nodos para incorporar lecturas de más de 7 millones de medidores inteligentes y realizar la implementación automatizada de equipos de reparación para la red de distribución eléctrica, aplicaciones de facturación de energía e impulsar la formación continua de modelos de aprendizaje automático 
  • La empresa de telecomunicaciones más grande de Indonesia, Telkomsel, con más de 170 millones de clientes, migró toda su aplicación de CRM de la base de datos MPP heredada a HBase e Impala y pudo lograr un tiempo de respuesta de menos de un segundo en todas las consultas de CRM para registros de llamadas de usuarios individuales, perfiles, recargas, uso de datos, etc. El beneficio de tener Impala para consultar HBase fue garantizar la interfaz compatible con ANSI SQL accesible a través de JDBC para minimizar los cambios de CRM.

Ejemplos de casos de uso no críticos para la misión:

  • Un fabricante de productos para el cuidado personal utiliza HBase para gestionar todos los materiales de marketing y la marca de sus productos
  • Un fabricante de semiconductores utiliza HBase para almacenar archivos de registro de sus productos y los extrae a otros sistemas para análisis 
  • Un proveedor de telecomunicaciones usa HBase para almacenar sus tablas de dimensiones para Hive

Lo que distingue a HBase de otras ofertas de NoSQL es su integración en el ecosistema de Big Data de código abierto que permite a los clientes tener una experiencia de extremo a extremo. Pueden usarlo para aplicaciones que necesitan datos desde el borde o aplicaciones que necesitan entregar modelos AI/ML a escala o cualquier combinación de los mismos.

Uno de los tickets de soporte más interesantes que he visto en Cloudera es cuando un cliente de HBase presentó un ticket de alta prioridad que indicaba que su implementación de misión crítica no funcionaba. No habían interactuado con nosotros durante más de un año y ni siquiera sabía que eran un cliente importante. Solo en este caso me enteré de que habían implementado 1000 nodos para impulsar una plataforma de marketing omnicanal en HBase. La raíz del problema era que habían realizado algunos cambios problemáticos en sus ajustes de configuración 9 meses antes del incidente. Cuando finalmente se reiniciaron, los ajustes de configuración problemáticos surtieron efecto, lo que hizo que pidieran ayuda a Cloudera.

Cloudera se preocupa profundamente por HBase y cuenta con 15 miembros de PMC y miembros del comité de proyectos en el proyecto. También estamos invirtiendo para que esté disponible en la nube pública, con factores de forma similares a PaaS y dbPaaS.

Experiencias de HBase a lo largo de los años

Dado nuestro compromiso de larga data y nuestra historia con este proyecto, queríamos compartir un par de experiencias e historias asociadas con este proyecto de todo el equipo de Cloudera.

“Hace años, asistía a una conferencia técnica centrada en Apache Hadoop. Una noche, estaba caminando de regreso a mi habitación y vi a un grupo de personas que reconocí como clientes de mucho tiempo acurrucados alrededor de una mesa. Ahora, este es un grupo muy competente de personas con las que ya había trabajado durante muchos años. Deambulé, con la intención de saludar brevemente y seguir mi camino después de un largo día. Resultó que estaban teniendo un corte de producción en uno de sus sistemas y estaban tratando de resolverlo. Me senté, saqué mi computadora portátil y estuve con ellos durante las siguientes horas mientras analizábamos el problema y solucionábamos los problemas que encontramos. El soporte de aplicaciones de misión crítica a veces requiere heroísmo, pero a veces también encuentras algunos pájaros de una pluma en el camino”.

— Ingeniero sénior

“En la naturaleza de muchas empresas, es absolutamente vital poder escalar y seguir cumpliendo con los requisitos de baja latencia de su sistema de misión crítica. Si mira hacia atrás en los archivos, nuestros clientes tuvieron momentos difíciles para cumplir con estándares tan difíciles. HBase tiene los elementos que hicieron que pareciera fácil cumplir con esas expectativas, especialmente al minimizar el tiempo para desencadenar la siguiente mejor acción”.

— Arquitecto principal de soluciones 

“Hace tres años, era un nuevo gerente de ingeniería de carpintería en Cloudera. Solía ​​conocer la actividad de código abierto de la empresa y he sido usuario de GNU Linux desde la escuela secundaria, pero usar código abierto y ser parte de él es completamente diferente.

Como nuevo en la empresa, tenía que entender lo que hace el equipo, así que me asignaron algunos tickets de soporte y comencé a trabajar en ellos. Solo sabía dos cosas, fui desarrollador de Java durante muchos años, así que debo poder hacerlo y Hortonworks es nuestro competidor más desafiante, lo que significa que podría ser interesante trabajar con ellos.

Y luego sucedió, con mi primer ticket Apache HBase me encontré con Josh Elser, líder del equipo HBase de Hortonworks, quien me mostró que implementar una tarea newby puede ser más difícil de lo esperado (con las barras de calidad que tiene el equipo HBase) y que su competidor puede ser su mejor socio en la comunidad de código abierto. Al final, confirmó mis cambios.

En los últimos tres años, muchas cosas han cambiado. Cloudera y Hortonworks se fusionaron, ahora trabajamos en la misma empresa, pero Apache y HBase son lo mismo. Tengo un tiempo limitado para trabajar en el código, pero veo su poder, veo cómo se usa para servicios que no sabía que existían y veo cómo hace que personas de todo el mundo trabajen juntas. Conecta a las personas a través de empresas, continentes, culturas”.

— Gerente de Ingeniería

“HBase y Phoenix han sido fáciles de aprender. Data Hub facilita el inicio y ahora espera que Cloudera Operational Database lleve a HBase a la próxima década”.

— Gerente técnico de éxito del cliente

“Durante los últimos 9 años, he estado al frente del desarrollo de HBase y he visto la evolución de cómo nuestros clientes usan HBase desde un POC hasta plataformas de misión crítica a gran escala. El momento más notable de este tiempo fue antes de la fusión de Cloudera y Hortonworks, cuando los equipos de ambas empresas trabajaron juntos para mejorar la funcionalidad de una característica crítica del producto. Finalmente, el trabajo se presentó en HBaseCon y recibió un gran reconocimiento por parte de dos de los usuarios más importantes de HBase. Esta característica potencia una funcionalidad crítica utilizada por más de 2000 millones de dispositivos móviles en todo el mundo”.

– Ingeniero sénior 

"Otro gran momento de los últimos 10 años de HBase fue en HBaseCon 2015 cuando Carter Page de Google reconoció públicamente cómo HBase se convirtió en un proyecto muy sólido".

– Ingeniero superior

“He tenido el placer de asistir a casi todas las HBaseCons (y de hablar en algunas de ellas). Estos son tres de mis recuerdos favoritos de HBaseCon:(1) la diversidad de HBase:el anuncio de HBase 2.0 destacó no solo la cantidad de JIRA enviadas, sino también la cantidad de miembros de HBase y miembros de PMC fuera de los EE. UU. Además, una mujer lideró HBase PMC , (2) el impulso de HBase:el anuncio de Facebook de que iban a dejar su bifurcación personalizada para ir 100 % hacia arriba en Apache HBase, y (3) los peldaños de HBase:en una HBaseCon, un desarrollador de Bloomberg dio una charla de réplicas de lectura y luego dos HBaseCon más tarde , un desarrollador de Apple dio un discurso de apertura de HBaseCon sobre el uso de réplicas de lectura en producción”.

– Ingeniero Superior de Sistemas

En Cloudera, seguimos viendo un futuro brillante para este proyecto y esperamos que evolucione para potenciar las aplicaciones de próxima generación que se crean en la nube en factores de forma similares a PaaS y dbPaaS, así como en centros de datos con nube privada.

Para obtener una vista previa de lo que está por venir, consulte Plantilla de base de datos operativa de CDP Public Cloud .