sql >> Base de Datos >  >> NoSQL >> HBase

Almacenamiento de datos de última generación en Santander Reino Unido

Los datos oportunos son cruciales para las empresas en la era de Big Data:esta publicación de blog describe cómo Santander UK utiliza las últimas tecnologías de Cloudera y la capacidad superior de desarrollo de software para crear la próxima generación de almacenamiento de datos y análisis de transmisión para respaldar la inteligencia que puede mejorar las relaciones con los clientes y sigue el mantra de 'queremos ayudar a las personas a crecer y prosperar.

El viaje de big data de Santander UK comenzó hace unos cuatro años. Fueron los primeros en adoptar la nueva tecnología de transmisión de datos como Apache Kafka y tenían la ambición de revolucionar la experiencia del cliente con el uso de datos en tiempo real y análisis en la aplicación para usuarios móviles.

Desde entonces, Santander UK ha mejorado tanto su presencia como su capacidad para innovar con tecnología de big data y ha evolucionado rápidamente. La necesidad de análisis de transmisión a gran escala ha aumentado y se ha convertido en una realidad. Hoy, en Santander Reino Unido, la plataforma Big Data, Machine Learning y Analytics de Cloudera se complementa con la entrega de eventos de plataforma como servicio (PaaS) escalable y de alta calidad integrada a través de Apache Kafka.

Otro componente tecnológico que es fundamental para el Data Warehouse de próxima generación de Santander UK es el uso de Apache Kudu para permitir análisis rápidos en datos rápidos. Cuando se combina con aspectos de la metodología de diseño de Data Vault 2.0, facilita la ingesta rápida de cientos de flujos de datos de Apache Kafka; descargando la carga de trabajo de los sistemas heredados existentes y brindando la capacidad de hacer preguntas "aquí y ahora" con respecto al comportamiento del cliente y el estado actual del banco.

Velocidad de comercialización

Los flujos de datos rápidos se pueden mover en línea con un esfuerzo mínimo gracias a una nueva plataforma innovadora en Santander UK, que integra sistemas heredados con una nueva Bóveda de datos a través de Apache Kafka. Debido a la estructura limpia de los datos que se integran, una nueva fuente de flujo de eventos para poblar Apache Kudu Data Vault depende en gran medida de la configuración:los eventos de datos se ajustan a la estructura Hub, Satellite y Link de la metodología Data Vault 2.0. Esto permite que el esquema reaccione a los cambios en el negocio o a una nueva comprensión de cómo se deben conformar los datos.

Santander UK puede influir en las transformaciones de datos escalando la plataforma de entrega de eventos elásticos, que se basa en Scala Akka y Apache Kafka, lo que permite un enriquecimiento de datos rápido y escalable en tiempo real. Esto permite datos más rápidos y oportunos, decisiones más rápidas y una mayor velocidad de comercialización para casos de uso debido a la plataforma y la arquitectura reutilizables.

Ciencia de datos y creación rápida de prototipos de productos de datos

En última instancia, hay muchos consumidores potenciales de esta fuente de transmisión de datos; sin embargo, ya se ha obtenido información interesante a través de la integración de Cloudera Data Science Workbench en Data Vault. Estos brindan una experiencia completa de ciencia de datos para el creciente equipo de ciencia de datos y también utilizan, de manera típicamente innovadora en Santander UK, el potencial para crear prototipos de ideas rápidamente y crear nuevos productos de datos antes de abordar desafíos pesados ​​de ingeniería y arquitectura. Cree un prototipo rápido y luego, si genera valor, conviértalo en un producto de primera clase.

Integración Rápida:El Modelo de Contribución

En la línea de la innovación y agilidad que el equipo de Innovación de Datos de Santander UK ha hecho realidad, crearon la noción del Modelo de Contribución. Debido a que el clúster es multiusuario con diferentes unidades de negocios que obtienen, limpian e diseñan nuevos conjuntos de datos; si se considera útil para el resto de la empresa, las tablas de vínculos de estilo de Data Vault se pueden utilizar para integrar estos datos generalmente útiles en el núcleo del esquema de Data Vault. De esta manera, el equipo puede aumentar el valor de los productos de datos a través de la generación rápida de nuevas combinaciones de conjuntos de datos, con un linaje rastreable mediante el uso de Cloudera Navigator para la gobernanza y la seguridad mediante el uso de Apache Sentry para el control de acceso. Si los datos de la unidad de negocios se consideran útiles para otros, se vinculan al núcleo y se comparten de acuerdo con los principios de gobierno.


El modelo de contribución nos permite aprovechar conjuntos de datos puros creados de forma independiente por diferentes unidades comerciales y equipos de productos. Si estos datos son valiosos para el resto de la empresa, tenemos la capacidad de incorporarlos a la Bóveda de datos como un ciudadano de primera clase mediante la utilización de tablas de enlaces. Queríamos replicar el enfoque de la comunidad Apache para el software de código abierto para sistemas de datos en nuestra organización para mejorar la innovación a través de la colaboración.

   :Nicolette Bullivant, jefa de ingeniería de datos, Santander, Reino Unido

Multidestino:una transmisión para gobernarlos a todos

Los flujos de eventos sin procesar que se generan a partir de sistemas heredados se consideran canónicos y, por lo general, los requieren otras partes interesadas que usan el clúster. El equipo de innovación de datos de Santander UK ha adoptado el principio de garantizar que estos flujos de eventos estén disponibles para su uso en diferentes casos de uso y tecnologías; por lo tanto, un flujo de eventos canónico se puede redistribuir a diferentes destinos; ya sea sistema de archivos HDFS, Apache HBase o Apache Kudu. Esto ayuda a generar una versión única de la verdad para todas las partes interesadas y evita la contrapresión en los sistemas heredados.

Conclusión

En resumen, Santander UK está innovando directamente en la pila de Cloudera, combinando transmisión de datos, principios y marcos de ingeniería de software avanzados y principios de diseño de almacenamiento de datos modernos para generar información en tiempo real para mejorar la experiencia del cliente y el bienestar financiero del cliente. Esta innovación fue reconocida recientemente cuando un panel de jueces de terceros votó a Santander como finalista del premio Data Impact Award.

Nicolette Bullivant es directora de ingeniería de datos en Santander UK.
Rob Siwicki es arquitecto sénior de soluciones para los servicios profesionales de Cloudera, EMEA.