sql >> Base de Datos >  >> NoSQL >> HBase

Próxima parada:creación de una canalización de datos desde Edge hasta Insight

Esta es la parte 2 de esta serie de blogs. Puedes leer la parte 1, aquí: La transformación digital es un viaje de datos desde el perímetro hasta el conocimiento

Esta serie de blogs sigue los datos de fabricación, operaciones y ventas de un fabricante de vehículos conectados a medida que los datos pasan por etapas y transformaciones que suelen experimentarse en una gran empresa de fabricación a la vanguardia de la tecnología actual. El primer blog presentó una empresa de fabricación de vehículos conectados simulados, The Electric Car Company (ECC), para ilustrar la ruta de datos de fabricación a través del ciclo de vida de los datos. Para lograr esto, ECC está aprovechando Cloudera Data Platform (CDP) para predecir eventos y tener una vista de arriba hacia abajo del proceso de fabricación del automóvil dentro de sus fábricas ubicadas en todo el mundo.

Habiendo completado el paso de recopilación de datos en el blog anterior, el siguiente paso de ECC en el ciclo de vida de los datos es el enriquecimiento de datos. ECC enriquecerá los datos recopilados y los pondrá a disposición para su uso en el análisis y la creación de modelos más adelante en el ciclo de vida de los datos. A continuación se muestra el conjunto completo de pasos en el ciclo de vida de los datos, y cada paso en el ciclo de vida estará respaldado por una publicación de blog dedicada (ver Fig. 1):

  1. Recopilación de datos – ingesta de datos y monitoreo en el borde (ya sea el borde sensores industriales o personas en una sala de exhibición de vehículos)
  2. Enriquecimiento de datos – procesamiento, agregación y gestión de canalización de datos para preparar los datos para un análisis posterior
  3. Informes – brindar información comercial (análisis y pronóstico de ventas, elaboración de presupuestos como ejemplos)
  4. Servir – controlar y ejecutar operaciones comerciales esenciales (operaciones de distribuidores, monitoreo de producción) 
  5. Análisis predictivo – análisis predictivo basado en inteligencia artificial y aprendizaje automático (mantenimiento predictivo, optimización de inventario basada en la demanda como ejemplos)
  6. Seguridad y gobernanza – un conjunto integrado de tecnologías de seguridad, gestión y gobierno a lo largo de todo el ciclo de vida de los datos

Fig. 1 El ciclo de vida de los datos empresariales

Desafío de enriquecimiento de datos

ECC necesita una visión integral y una comprensión sólida de todos los datos relacionados con la fabricación, las operaciones del distribuidor y el envío de sus vehículos. También deberán identificar rápidamente problemas con los datos, como sensores operativos que generan datos que pueden incluir picos de temperatura falsos causados ​​​​por paradas no planificadas de la máquina o arranques abruptos. Los datos que no tienen relación con el proceso cuando los trabajadores de mantenimiento retiran un sensor de un tanque de inmersión en ácido mientras realizan inspecciones de rutina, por ejemplo, no deben tenerse en cuenta en el análisis.

Además, ECC enfrenta los siguientes desafíos de datos que deben abordarse para mover con éxito la fabricación de motores a través de su cadena de suministro. Estos desafíos de datos incluyen lo siguiente:

  • Recuperación de datos en varios formatos de diferentes fuentes: Las canalizaciones de ingeniería de datos requieren que los datos se traigan de varias fuentes y en muchos formatos diferentes. Ya sea que los datos provengan de sensores ubicados en la línea de producción, que respaldan las operaciones de fabricación, o datos de ERP que controlan la cadena de suministro, todos deben reunirse para un análisis más detallado.
  • Filtrado de datos redundantes o irrelevantes: La eliminación de datos duplicados o no válidos y la garantía de la precisión de los datos restantes es un paso clave en la preparación de los datos para su uso posterior en el análisis predictivo avanzado.
  • Capacidad para identificar procesos ineficientes: ECC requiere la capacidad de ver qué procesos de datos consumen la mayor parte del tiempo y los recursos, lo que facilita la identificación de partes de la canalización con bajo rendimiento para acelerar el proceso general.
  • Capacidad para monitorear todos los procesos desde un solo panel: ECC requiere un sistema centralizado que les permita monitorear todos los procesos de datos en curso, así como una vía para expandir su infraestructura actual mientras mantienen la transparencia.

Los conjuntos de datos seleccionados y de calidad son la columna vertebral de cualquier iniciativa de análisis avanzado. Para lograr esto, se debe utilizar un marco de ingeniería de datos que permita la construcción de todas las tuberías y cañerías necesarias para mover, manipular y administrar los datos de las diferentes partes del vehículo en el ciclo de vida de los datos.

Creación de una canalización con Cloudera Data Engineering

Antes de que los datos se enriquezcan y se analicen en el primer blog, los flujos de datos de TI y TO recopilados de fábrica se limpiarán, manipularán y modificarán. La identificación de fábrica, la identificación de la máquina, la marca de tiempo, el número de pieza y el número de serie se pueden capturar a partir de un código QR impreso en el motor eléctrico. A medida que el motor se ensambla en el vehículo conectado, se capturan datos como el tipo de modelo, el VIN y el costo base del vehículo.

Una vez que se vende el vehículo, la información de ventas, como el nombre del cliente, la información de contacto, el precio de venta final y la ubicación del cliente, se registran por separado. Estos datos serán cruciales para ponerse en contacto con el cliente para posibles retiros del mercado o mantenimiento preventivo específico. Los datos de geolocalización también se almacenan, lo que ayudará a mapear las ubicaciones de los clientes en latitudes y longitudes para comprender mejor dónde se encuentran estos motores después de venderlos en un vehículo.

ECC utilizará Cloudera Data Engineering (CDE) para abordar los desafíos de datos anteriores (ver Fig. 2). Luego, CDE pondrá los datos a disposición de Cloudera Data Warehouse (CDW), donde estarán disponibles para análisis avanzados e informes de inteligencia comercial. Los pasos del CDE se describen a continuación.

Fig. 2 Pipeline de enriquecimiento de datos ECC

PASO 1:filtrar y separar los datos

El primer paso para usar CDE es crear un trabajo de PySpark que traiga los datos de estas diversas fuentes "sin procesar" del paso 1. Esta es una oportunidad para filtrar cualquier dato irrelevante, como clientes menores de 16 años, por ejemplo, ya que suele ser la edad mínima para conducir. Los datos duplicados y otros datos irrelevantes también se pueden filtrar o separar.

PASO 2:Combinar los datos

Para combinar todos los datos, CDE correlacionará los enlaces comunes. Primero, los datos de ventas de automóviles se vincularán con el cliente que compró el automóvil para obtener los metadatos del cliente, como información de contacto, edad, salario, etc. Luego, los datos de geolocalización se utilizarán para obtener información de ubicación más precisa para el cliente. , que ayudará a mapear los motores más adelante. Los datos de instalación de piezas se utilizarán para identificar los números de serie de cada motor que se instaló en el automóvil del cliente. Finalmente, los datos de fábrica se alinearán para que coincidan con el número de serie del motor que identificará qué fábrica, máquina y cuándo se creó cada motor específico.

PASO 3:Enviar datos a Cloudera Data Warehouse

Una vez que todos los datos se reúnen en una tabla enriquecida, un simple comando de Apache Spark escribirá los datos en una nueva tabla dentro de Cloudera Data Warehouse. Esto hará que los datos sean accesibles para cualquier científico de datos que desee acceder a ellos para realizar un análisis adicional.

PASO 4:Genere paneles e informes de visualización de datos

Con todos los datos en un solo lugar, ahora se pueden crear informes que permitirán a los empleados tomar decisiones mejor informadas y abrir capacidades que no existían. Se pueden hacer mapas de calor para rastrear la ubicación del motor y correlacionar cualquier problema con ubicaciones geográficas potenciales, como fallas debido al frío o calor extremos. Estos datos también podrían usarse para rastrear exactamente qué clientes podrían verse afectados si hubiera un problema en una determinada fábrica durante un período de tiempo, lo que facilita el rastreo de los clientes que pueden necesitar un retiro del mercado o algún mantenimiento preventivo.

Conclusión

Cloudera Data Engineering permite a ECC crear una canalización que puede correlacionar datos de fabricación y piezas, tipo de uso del cliente, condiciones ambientales, información de ventas y más para mejorar la satisfacción del cliente y la confiabilidad del vehículo. ECC logró sus objetivos y abordó sus desafíos mediante el seguimiento de los datos relacionados con la fabricación de sus motores y beneficiándose de las siguientes maneras:

  • ECC aceleró el tiempo de obtención de valor organizando y automatizando canalizaciones de datos para entregar conjuntos de datos seleccionados y de calidad de forma segura y transparente desde varias fuentes de datos.
  • ECC pudo identificar datos relevantes y filtrar datos redundantes y duplicados.
  • ECC pudo lograr el monitoreo de la canalización de datos desde un solo panel, mientras estaba en posición de recibir alertas para detectar problemas temprano a través de la resolución visual de problemas para resolver rápidamente los problemas antes de que el negocio se viera afectado.

Busque el próximo blog que profundizará en los informes que mostrarán cómo los ingenieros de ECC ejecutan consultas ad-hoc en CDW contra estos datos seleccionados y cómo unen los datos a otras fuentes relevantes dentro de un almacén de datos empresarial. CDW facilita la recopilación de todos los datos y proporciona una herramienta de visualización de datos integrada para pasar de los resultados consultados a los paneles. ¡Estén atentos para el próximo!

Más recursos de recopilación de datos

Para ver todo esto en acción, haga clic en los enlaces relacionados a continuación para obtener más información sobre el enriquecimiento de datos:

  • Video:si desea ver y escuchar cómo se construyó, vea el video en el enlace.
  • Tutoriales:si desea hacer esto a su propio ritmo, vea un tutorial detallado con capturas de pantalla e instrucciones línea por línea sobre cómo configurarlo y ejecutarlo.
  • Reunión:si desea hablar directamente con expertos de Cloudera, únase a una reunión virtual para ver una presentación en vivo. Habrá tiempo para preguntas y respuestas directas al final.
  • Usuarios:para ver más contenido técnico específico para los usuarios, haga clic en el enlace.