MongoDB® con Hadoop y tecnologías Big Data relacionadas

Las bases de datos relacionales durante mucho tiempo fueron suficientes para manejar conjuntos de datos pequeños o medianos. Pero la tasa colosal a la que crecen los datos hace que el enfoque tradicional para el almacenamiento y la recuperación de datos sea inviable. Este problema está siendo resuelto por tecnologías más nuevas que pueden manejar Big Data. Hadoop, Hive y Hbase son las plataformas populares para operar este tipo de grandes conjuntos de datos. Las bases de datos NoSQL o Not Only SQL, como MongoDB®, brindan un mecanismo para almacenar y recuperar datos en un modelo de coherencia perdedora con ventajas como:

Escala horizontal
Mayor disponibilidad
Acceso más rápido

El equipo de ingeniería de MongoDB® actualizó recientemente MongoDB® Connector para Hadoop para tener una mejor integración. Esto facilita a los usuarios de Hadoop:

Integre datos en tiempo real de MongoDB® con Hadoop para análisis profundos fuera de línea.
El conector expone el poder analítico de MapReduce de Hadoop a los datos de aplicaciones en vivo de MongoDB®, impulsando el valor de los grandes datos de manera más rápida y eficiente.
El conector presenta MongoDB como un sistema de archivos compatible con Hadoop que permite que un trabajo de MapReduce lea desde MongoDB® directamente sin copiarlo primero a HDFS (Sistema de archivos Hadoop), eliminando así la necesidad para mover Terabytes de datos a través de la red.
Los trabajos de MapReduce pueden pasar consultas como filtros, evitando así la necesidad de escanear colecciones enteras, y también pueden aprovechar las ricas capacidades de indexación de MongoDB®, que incluyen geoespacial, texto- índices de búsqueda, de matriz, compuestos y dispersos.
Al leer desde MongoDB®, los resultados de los trabajos de Hadoop también se pueden volver a escribir en MongoDB®, para admitir procesos operativos en tiempo real y consultas ad-hoc.

Casos de uso de Hadoop y MongoDB®:

Veamos una descripción de alto nivel de cómo MongoDB® y Hadoop pueden encajar en una pila típica de Big Data. Principalmente tenemos:

MongoDB® utilizado como el almacén de datos en tiempo real "operativo"
Hadoop para procesamiento y análisis de datos por lotes sin conexión

Siga leyendo para saber por qué MongoDB es la base de datos para el procesamiento de Big Data y cómo MongoDB® fue utilizado por empresas y organizaciones como Aadhar, Shutterfly, Metlife y eBay.

Aplicación de MongoDB® con Hadoop en Batch Aggregation:

En la mayoría de los escenarios, la funcionalidad de agregación integrada proporcionada por MongoDB® es suficiente para analizar datos. Sin embargo, en ciertos casos, puede ser necesaria una agregación de datos significativamente más compleja. Aquí es donde Hadoop puede proporcionar un marco poderoso para análisis complejos.

En este escenario:

Los datos se extraen de MongoDB® y se procesan dentro de Hadoop a través de uno o más trabajos de MapReduce. Los datos también pueden obtenerse de otros lugares dentro de estos trabajos de MapReduce para desarrollar una solución de fuente de datos múltiples.
La salida de estos trabajos de MapReduce se puede volver a escribir en MongoDB® para realizar consultas en una etapa posterior y para cualquier análisis ad-hoc.
Las aplicaciones creadas sobre MongoDB® pueden, por lo tanto, utilizar la información de los análisis por lotes para presentarla al cliente final o para habilitar otras funciones posteriores.

Aplicación en Data Warehousing:

En una configuración de producción típica, los datos de la aplicación pueden residir en múltiples almacenes de datos, cada uno con su propio lenguaje de consulta y funcionalidad. Para reducir la complejidad en estos escenarios, Hadoop se puede utilizar como un almacén de datos y actuar como un depósito centralizado de datos de varias fuentes.

En este tipo de escenario:

Los trabajos periódicos de MapReduce cargan datos de MongoDB® en Hadoop.
Una vez que los datos de MongoDB® y otras fuentes están disponibles en Hadoop, se puede consultar el conjunto de datos más grande.
Los analistas de datos ahora tienen la opción de usar MapReduce o Pig para crear trabajos que consultan los conjuntos de datos más grandes que incorporan datos de MongoDB®.

El equipo que trabaja detrás de MongoDB® se ha asegurado de que con su rica integración con tecnologías de Big Data como Hadoop, puede integrarse bien en Big Data Stack y ayudar a resolver algunos problemas de arquitectura complejos. cuando se trata de almacenamiento, recuperación, procesamiento, agregación y almacenamiento de datos. Estén atentos a nuestra próxima publicación sobre perspectivas de carrera para aquellos que toman Hadoop con MongoDB®. Si ya está trabajando con Hadoop o simplemente está adquiriendo MongoDB®, consulte los cursos que ofrecemos para MongoDB® aquí

Explore más sobre los conceptos de Hadoop. Echa un vistazo a este Curso de Big Data en línea , que fue creado por Top Industrial Working Experts.