sql >> Base de Datos >  >> NoSQL >> HBase

Creación de un proceso escalable con NiFi, Kafka y HBase en CDP

Navistar es un fabricante líder mundial de camiones comerciales. Con una flota de 350 000 vehículos, el mantenimiento no programado y las averías de los vehículos crearon una interrupción continua en su negocio. Navistar requería una plataforma de diagnóstico que los ayudara a predecir cuándo un vehículo necesitaba mantenimiento para minimizar el tiempo de inactividad. Esta plataforma necesitaba poder recopilar, analizar y servir datos de más de 70 fuentes de datos telemáticos y de sensores de cada vehículo de su flota, incluidos datos que miden el rendimiento del motor, la temperatura del refrigerante, la velocidad del camión y el desgaste de los frenos. Navistar recurrió a Cloudera para ayudar a construir una plataforma de diagnóstico remoto habilitada para IoT, llamada OnCommand® Connection, para monitorear el estado de sus vehículos y aumentar el tiempo de actividad del vehículo.

Este blog demuestra el uso de tecnologías similares para abordar problemas de mucho menor alcance pero con paralelismos con los que enfrentó Navistar. Los datos se extrajeron de un Corvette altamente modificado y de alto rendimiento (ver Fig. 1) para mostrar los pasos para cargar datos desde una fuente externa, formatearlos usando Apache NiFi, enviarlos a una fuente de flujo a través de Apache Kafka y almacenarlos usando Apache HBase para análisis adicional.

Fig. 1. Corvette 2008 con motor de 6.8 L modificado

Para este ejemplo específico, al Corvette en cuestión se le reemplazaron todos los componentes originales del motor de fábrica por piezas de mayor rendimiento. Se desmontó el motor hasta su carcasa, se perforaron los cilindros, se reemplazaron el cigüeñal y el árbol de levas, y se instalaron nuevos pistones y bielas, persiguiendo la meta de ~600 caballos de fuerza (ver Fig. 2). Para que esta nueva configuración del motor funcione correctamente, el software del motor se sometió a una revisión completa. Si bien presionar el acelerador se volvió significativamente más dramático, una consecuencia no deseada fue que los sistemas originales de diagnóstico y error del automóvil ya no eran precisos y, por lo tanto, tuvieron que desactivarse.

Fig. 2. Reconstrucción intermedia del motor con todos los componentes internos nuevos y brillantes

Para capturar y analizar los datos de los sensores del Corvette, se necesitaba una ruta para que los datos fluyeran desde el automóvil a una plataforma alternativa de análisis y diagnóstico. El primer paso fue conectar una computadora portátil al puerto de diagnóstico del Corvette (ver Fig. 3) para importar los datos del sensor a una ubicación de almacenamiento basada en la nube. S3 se utilizó para este proyecto.

Fig 3. Computadora portátil conectada al puerto de diagnóstico a través de USB

El siguiente paso fue utilizar Cloudera Data Platform (CDP), la plataforma multifunción y multianalítica de Cloudera, para acceder a los servicios necesarios para mover los datos a su destino de almacenamiento final para un análisis adicional. Con CDP Public Cloud, se configuraron 3 centros de datos, cada uno de los cuales aloja un conjunto de servicios de código abierto preempaquetados (consulte la figura 4):

  • La primera configuración fue NiFi, un servicio creado para automatizar y administrar el flujo de datos. NiFi se utilizó para importar, formatear y mover los datos del Corvette desde el origen hasta su punto de almacenamiento final.
  • El siguiente fue configurar Kafka, un servicio de transmisión en tiempo real que permite que grandes volúmenes de datos estén disponibles como una transmisión. Kafka brinda la capacidad de procesamiento de flujo de datos, al tiempo que permite a otros usuarios la opción de suscribirse a los flujos de datos. En este ejemplo no hay suscriptores; sin embargo, este es un concepto importante que merece una demostración de cómo configurarlo.
  • La configuración final fue HBase, una base de datos operativa altamente escalable y orientada a columnas que proporciona acceso de lectura/escritura en tiempo real. Una vez que los datos se importaron a HBase, Phoenix se usaría para consultar y recuperar datos.

Fig. 4. Diagrama de flujo de datos de Corvette desde el origen hasta la consulta.

La construcción de la plataforma de diagnóstico utilizando CDP para monitorear la salud y el rendimiento del Corvette fue un ejercicio exitoso. El uso de NiFi y Kafka para formatear y transmitir los datos del sensor a HBase ahora permite realizar ingeniería y procesamiento de datos avanzados, independientemente de cuánto crezca el conjunto de datos.

Siguientes pasos

Para ver todo esto en acción, consulte los enlaces a continuación a algunas fuentes diferentes que muestran el proceso que se creó.

  • Video:si desea ver y escuchar cómo se construyó, eche un vistazo a un video rápido de 5 minutos que muestra la navegación en tiempo real de CDP con NiFi, Kafka y HBase.
  • Tutoriales:si desea hacer esto a su propio ritmo, vea un tutorial detallado con capturas de pantalla e instrucciones línea por línea sobre cómo configurarlo.
  • MeetUps:si desea hablar directamente con expertos de Cloudera e incluso con el propietario de este Corvette, únase a una reunión virtual para ver su presentación en vivo. Habrá tiempo para preguntas y respuestas directas al final.
  • Página de usuarios de CDP:para obtener información sobre otros recursos de CDP creados para usuarios, incluidos videos, tutoriales, blogs y eventos adicionales, haga clic en el enlace.