sql >> Base de Datos >  >> NoSQL >> HBase

Hadoop Combiner Introducción, funcionamiento y ventajas

En este tutorial de Hadoop , le proporcionaremos una descripción detallada de Hadoop Combiner. En primer lugar, veremos qué es MapReduce Combiner, cuál es el papel clave de Combiner en MapReduce.

Luego discutiremos el ejemplo del programa MapReduce con y sin combinador en Hadoop. Por último, también veremos algunas ventajas y desventajas de Combiner en MapReduce.

 ¿Qué es el combinador de Hadoop?

Combinador también se conoce como “Mini-Reducer ” que resume el Mapper registro de salida con la misma Clave antes de pasar al Reductor .

En un conjunto de datos grande cuando ejecutamos el trabajo de MapReduce. Entonces Mapper genera grandes porciones de datos intermedios. Luego, el marco pasa estos datos intermedios al Reducer para su posterior procesamiento.

Esto conduce a una enorme congestión de la red. El marco Hadoop proporciona una función conocida como Combiner  que juega un papel clave en la reducción de la congestión de la red.

El trabajo principal de Combiner, un "Mini-Reducer", es procesar los datos de salida del Mapper, antes de pasarlos a Reducer. Se ejecuta después del mapeador y antes del Reducer. Su uso es opcional.

¿Cómo funciona Combiner en Hadoop?

Ahora, aprendamos cómo cambian las cosas cuando usamos el combinador en MapReduce.

Como vemos en el diagrama anterior, no hay ningún combinador. La entrada se divide en dos mapeadores. El marco genera 9 claves de los mapeadores.

Entonces, ahora tenemos (9 clave/valor) datos intermedios. Más mapeador envía este valor-clave directamente al reductor. Al enviar datos al reductor, consume algo de ancho de banda de la red. Lleva más tiempo transferir datos al reductor si el tamaño de los datos es grande.

Ahora, del diagrama anterior, si usamos un combinador entre el mapeador y el reductor. Luego, el combinador barajará 9 clave/valor antes de enviarlo al reductor. Y luego genera 4 pares clave/valor como salida.

Ahora, Reducer necesita procesar solo 4 datos de pares clave/valor que se generan a partir de 2 combinadores. Por lo tanto, el reductor se ejecuta solo 4 veces para producir el resultado final. Por lo tanto, esto aumenta el rendimiento general.

Ventajas de Combiner en MapReduce

Analicemos ahora los beneficios de Hadoop Combiner en MapReduce.

  • El uso del combinador reduce el tiempo necesario para la transferencia de datos entre el asignador y el reductor.
  • Combiner mejora el rendimiento general del reductor.
  • Disminuye la cantidad de datos que reducer tiene que procesar.

Desventajas de Combiner en MapReduce

También hay algunas desventajas de Hadoop Combiner. Ahora hablemos de lo mismo.

  • En el sistema de archivos local, cuando Hadoop almacena los pares clave-valor y ejecuta el combinador más tarde, esto provocará una E/S de disco costosa.
  • Los trabajos de MapReduce no pueden depender de la ejecución del combinador ya que no hay garantía en su ejecución.

Conclusión

Por lo tanto, Hadoop Combiner juega un papel clave en la reducción de la congestión de la red. Mejora el rendimiento general del reductor al resumir la salida de Mapper.

Espero que ahora tenga una comprensión clara de Hadoop Combiner. Si todavía tiene alguna consulta, háganoslo saber dejando un comentario en una sección a continuación.