Uso de la ingeniería de datos de Cloudera para analizar los datos del programa de protección de cheques de pago

El Programa de Protección de Cheques de Pago (PPP) es implementado por el gobierno federal de los EE. UU. para proporcionar un incentivo directo para que las empresas mantengan a sus empleados en la nómina, particularmente durante la pandemia de Covid-19. PPP ayuda a las empresas calificadas a retener su fuerza laboral y ayuda a pagar los gastos comerciales relacionados. Los datos del sitio web del Tesoro de EE. UU. muestran qué empresas recibieron préstamos PPP y cuántos puestos de trabajo se mantuvieron. El Tesoro de EE. UU. aprobó aproximadamente un millón de préstamos PPP en todo EE. UU.

El análisis de estos datos presenta tres desafíos. Primero, el tamaño de los datos es significativo. La cantidad de tiempo para extraer, curar, transformar, recuperar e informar sobre esos datos requiere mucho tiempo. En segundo lugar, es probable que el conjunto de datos evolucione, lo que consumirá tiempo y recursos de desarrollo adicionales. Finalmente, en un proceso de múltiples etapas como este, existe la posibilidad de que las cosas se rompan. Tener la capacidad de determinar rápidamente errores o cuellos de botella ayudará a cumplir los SLA de manera constante.

Este blog ilustra cómo se puede usar Cloudera Data Engineering (CDE), con Apache Spark, para generar informes basados en los datos de PPP y abordar cada uno de los desafíos descritos anteriormente.

Objetivo

A continuación se configura un escenario simulado para la Junta de Presupuesto Legislativo de Texas (LBB) para ayudar a un ingeniero de datos a administrar y analizar los datos de PPP. El objetivo principal de este ingeniero de datos es proporcionar al LBB dos informes finales:

Informe 1:Desglose de todas las ciudades de Texas que conservaron puestos de trabajo
Informe 2:Desglose del tipo de empresa que retuvo puestos de trabajo

Ingeniería de datos de Cloudera (CDE)

Aquí es donde Cloudera Data Engineering (CDE) que ejecuta Apache Spark puede ayudar. CDE es uno de los servicios de Cloudera Data Platform (CDP) que permite a los ingenieros de datos crear, administrar y programar trabajos de Apache Spark, al tiempo que proporciona herramientas útiles para monitorear el rendimiento del trabajo, acceder a archivos de registro y organizar flujos de trabajo a través de Apache Airflow. Apache Spark es un marco de procesamiento de datos que es capaz de ejecutar rápidamente el procesamiento de datos a gran escala.

El Tesoro de EE. UU. proporciona dos conjuntos de datos diferentes, uno para préstamos aprobados superiores a $150 000 y otro para préstamos aprobados inferiores a $150 000. Para producir los dos informes finales para el LBB, se siguieron estos pasos (ver Fig. 1).

El primer paso fue cargar los dos conjuntos de datos separados en un depósito S3.
Se creó un trabajo de Spark para cada conjunto de datos para extraer y filtrar datos del depósito S3.
Estos dos trabajos de Spark transformaron y cargaron los datos limpios en un almacén de datos de Hive para su recuperación.
Se creó un tercer trabajo de Spark para procesar los datos del almacén de datos de Hive para crear los dos informes.

Una vez que se completaron las ejecuciones del trabajo, CDE proporcionó una representación gráfica de las diversas etapas dentro de cada trabajo de Spark (ver Fig. 2). Esto permitió al ingeniero de datos ver fácilmente qué partes del trabajo estaban tomando potencialmente más tiempo, permitiéndoles refinar y mejorar fácilmente su código para cumplir mejor con los SLA de los clientes.

Fig. 1:Viaje de datos para producir los dos informes finales.

Fig. 2:Representación gráfica CDE de varias etapas de Spark.

Resultados

Se cumplió el objetivo principal de producir los dos informes finales a partir del registro de un millón de solicitantes aprobados. El resumen gráfico del primer informe (ver Fig. 3) muestra una muestra de los 10 principales de la cantidad de trabajos retenidos por ciudad en Texas, y el segundo informe (ver la Fig. 4) muestra una muestra de los 5 principales de la cantidad de trabajos retenidos por tipo de empresa. Con estos informes, la Junta de Presupuesto Legislativo de Texas, por ejemplo, puede inferir que las ciudades con la menor cantidad de retención de empleo per cápita pueden necesitar recursos para disminuir cualquier impacto económico.

Fig. 3:Las 10 ciudades principales que conservaron la mayor cantidad de empleos, Estado de Texas, 2020

Fig. 4:Los 5 principales tipos de empresas que conservaron la mayor cantidad de empleos, Estado de Texas, 2020

Siguientes pasos

Para ver todo esto en acción, haga clic en los enlaces a continuación a algunas fuentes diferentes que muestran el proceso que se creó.

Video:si desea ver y escuchar cómo se construyó, vea el video en el enlace.
Tutoriales:si desea hacer esto a su propio ritmo, vea un tutorial detallado con capturas de pantalla e instrucciones línea por línea sobre cómo configurarlo y ejecutarlo.
Reunión:si desea hablar directamente con expertos de Cloudera, únase a una reunión virtual para ver una presentación en vivo. Habrá tiempo para preguntas y respuestas directas al final.
Página de usuarios de CDP :para obtener información sobre otros recursos de CDP creados para los usuarios, incluidos videos, tutoriales, blogs y eventos adicionales, haga clic en el enlace.