sql >> Base de Datos >  >> NoSQL >> HBase

Estante conciencia en Hadoop y sus ventajas

Esta Hadoop tutorial tiene que ver con la conciencia de rack en Hadoop. En este blog vamos a describir cada uno y todo lo relacionado con la conciencia de la Parrilla en el HDFS .

En primer lugar vamos a estudiar lo que está HDFS rack propiedad conciencia, ¿cuál es la necesidad de la conciencia de rack en Hadoop. A continuación, vamos a discutir la colocación de réplica a través de la conciencia de la Parrilla en el HDFS.

Por fin también hablaremos de los diversos beneficios de la conciencia de la Parrilla en el marco de Hadoop.

Introducción a HDFS conciencia del estante

conciencia del estante en Hadoop es el concepto de que elige DataNodes más estrecha basada en la información bastidor. Por defecto, la instalación de Hadoop supone que todos los nodos pertenecen a la misma rejilla.

Para mejorar el tráfico de red durante la lectura / escritura de archivos HDFS en grandes racimos de Hadoop. NameNode elige nodos de datos, que están en el mismo rack o una roca cercana para leer / solicitudes de escritura (nodo cliente). HDFS NameNode logra esta información bastidor mediante el mantenimiento de los ID de rack de cada nodo de datos.

¿Por qué la conciencia de rack?

El objetivo principal de la conciencia del estante es:

  • Mejorar la confiabilidad y disponibilidad de los datos.
  • Mejor rendimiento del clúster.
  • Evita la pérdida de datos si falla todo el rack.
  • Para mejorar el ancho de banda de la red.
  • mantener el flujo a granel en-rack cuando sea posible.

colocación de la reproducción a través de la conciencia de rack en Hadoop

El objetivo principal de la colocación de réplica a través de la conciencia del estante, la política es mejorar la fiabilidad de los datos, etc.

Una política sencilla es colocar réplicas en la rejilla para evitar la pérdida de datos cuando falla una parrilla completa. Y permitir el uso de ancho de banda de múltiples bastidores cuando se lee un archivo.

En varios clústeres de rack, bloque replicación sigue el siguiente política:

No se debe depositar más de una réplica en un nodo. Además no se puede colocar más de dos réplicas en el mismo bastidor. Esto tiene un cuello de botella que número de bastidores utilizados para la replicación bloque debe ser siempre menor que el número total de réplicas de bloque.

Por ejemplo;

  • Cuando crea un marco Hadoop nuevo bloque, coloca primera réplica en el nodo local. Y colocar una segunda en un estante diferente, y la tercera es diferente en el nodo en el nodo local.
  • Cuando re-replicantes un bloque, si el número de réplicas existentes es uno, coloque el segundo en un estante diferente.
  • Cuando número de réplicas existentes son dos, si las dos réplicas son en el mismo bastidor, coloque el tercero uno en un estante diferente.

Ventajas de la conciencia de rack en Hadoop

Ahora vamos a discutir algunas de las ventajas de la conciencia de rack en Hadoop HDFS -

  • Proporcionar mayor ancho de banda y baja latencia - Esta política maximiza el ancho de banda mediante la transferencia de bloque dentro de un estante en lugar de entre bastidores. El hilo es capaz de optimizar el desempeño del trabajo MapReduce mediante la asignación de tareas a los nodos que están más cerca de sus datos en términos de topología de la red.
  • Proporciona protección de datos contra el fallo de bastidor - NameNode asignar las réplicas de bloques de 2 y 3 del bloque a los nodos en diferentes bastidor desde la primera réplica. Por lo tanto, proporciona protección de datos incluso contra fallo de bastidor. Sin embargo, esto sólo es posible si Hadoop se ha configurado con el conocimiento de su configuración de bastidor.
  • Reducir al mínimo el costo de la escritura y la velocidad de lectura Maximizar - Estante conciencia, lugares de política solicitudes de lectura / escritura a las réplicas que se encuentran en el mismo rack. Por lo tanto, esto minimiza la escritura de costos y maximiza la velocidad de lectura.

Conclusión

En conclusión, es el concepto de que elige DataNodes más estrecha basada en la información estante para mejorar la fiabilidad de los datos. El objetivo principal de rack-conciencia es evitar la pérdida de datos si falla todo el rack. También mejora el ancho de banda de la red. Aprender más propiedades HDFS en detalle.

Si tiene alguna pregunta relacionada con la conciencia de rack en Hadoop, así que por favor, comparta con nosotros en la sección de comentarios. Vamos a hacer todo lo posible para ayudarle.