20 diferencias notables entre Hadoop 2.x y Hadoop 3.x

El objetivo de este tutorial de Hadoop es proporcionarle una comprensión más clara entre las diferentes versiones de Hadoop. En este blog hemos cubierto las 20 principales diferencias entre Hadoop 2.x y Hadoop 3.x.

Este blog cubre la diferencia entre Hadoop 2 y Hadoop 3 sobre la base de diferentes funciones.

Diferencia entre Hadoop 2.x y Hadoop 3.x

Apache Hadoop es un marco de software de código abierto para el almacenamiento y procesamiento distribuido de una gran cantidad de conjuntos de datos.

Se introdujo Hadoop 3.x para superar la limitación de Hadoop 2.x. Hadoop 3.x ha agregado algunas funciones nuevas, aunque las funciones antiguas aún se usan.

A continuación se proporciona una comparación detallada de las funciones entre Hadoop 2.x y Hadoop 3.x:

a. Licencia

Hadoop 2 .x- Apache 2.0, código abierto
Hadoop 3 .x- Apache 2.0, código abierto

b. Versión mínima admitida de Java

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Tolerancia a fallas

Hadoop 2.x- En esta versión, la replicación maneja la tolerancia a fallas.
Hadoop 3.x- En esta versión, la codificación de borrado maneja la tolerancia a fallas.

d. Equilibrio de datos

Hadoop 2.x- Utiliza HDFS Balanceador para balanceo de datos
Hadoop 3.x- Utiliza el equilibrador de nodos intradatos, que se invoca a través de la CLI del equilibrador de disco HDFS.

e. Esquema de almacenamiento

Hadoop 2.x- Utiliza el esquema de replicación 3X.
Hadoop 3.x- Utiliza la codificación Erasure.

f. Gastos generales de almacenamiento

Hadoop 2.x- En esta versión, HDFS tiene una sobrecarga del 200 % en el espacio de almacenamiento.
Hadoop 3.x- En esta versión, HDFS tiene una sobrecarga del 50 % en el espacio de almacenamiento.

g. Ejemplo de gastos generales de almacenamiento

Hadoop 2.x- Si hay 6 bloques, y 3x replicación de cada bloque, resulta en 18 bloques. Ocupará 18 bloques de espacio.
Hadoop 3.x- Si hay 6 bloques, ocupará 9 bloques, es decir, 6 bloques y 3 para la paridad.

h. Servicio de línea de tiempo de YARN

Hadoop 2.x- Utiliza un servicio de línea de tiempo antiguo que tiene problemas de escalabilidad.
Hadoop 3.x- Esta versión mejora el servicio de línea de tiempo v2. También mejora la escalabilidad y la confiabilidad del servicio de línea de tiempo.

j. Rango de puertos predeterminado

Hadoop 2.x- En esta versión, los puertos predeterminados son el rango de puertos efímeros de Linux. Por lo tanto, en el momento de la puesta en marcha, no se unirán.
Hadoop 3.x- Si bien esta versión se ha movido fuera del rango efímero.

k. Herramientas

Hadoop 2.x- Hive, pig, Tez, Hama y otras herramientas de Hadoop también están disponibles.
Hadoop 3.x- En esta versión también están disponibles Hive, pig, Tez, Hama y otras herramientas de Hadoop.

l. Sistema de archivos compatible

Hadoop 2.x- Es compatible con HDFS (FS predeterminado), sistema de archivos FTP:Esto también almacena todos sus datos en servidores FTP accesibles de forma remota. También es compatible con el sistema de archivos Amazon S3 (Simple Storage Service) y el sistema de archivos Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Es compatible con todos los anteriores, así como con el sistema de archivos Microsoft Azure Data Lake.

m. Recursos de nodos de datos

Hadoop 2.x- Porque el recurso MapReduce Datanode no está dedicado. También podemos usarlo para otras aplicaciones.
Hadoop 3.x- En esta versión, el recurso del nodo de datos también se puede utilizar para otras aplicaciones.

n. Compatibilidad con la API de MR

Hadoop 2.x- MR API compatible con el programa Hadoop 1.x para ejecutar en Hadoop 2.X
Hadoop 3.x- MR API también es compatible con la ejecución de programas Hadoop 1.x para ejecutar en Hadoop 3.X

o. Soporte para Microsoft

Hadoop 2.x- Se puede implementar en Windows.
Hadoop 3.x- También es compatible con Microsoft Windows.

pág. Ranuras/contenedor

Hadoop 2.x- Hadoop 1.x trabaja con el concepto de tragamonedas, mientras que Hadoop 2.X trabaja con el concepto de contenedor.
Hadoop 3.x- Hadoop 3.x también funciona con el concepto de contenedor.

p. Punto único de falla

Hadoop 2.x- Tiene las características para superar SPOF. Entonces, cada vez que NameNode falla, se recupera automáticamente.
Hadoop 3.x- También tiene las características para superar SPOF. Por lo tanto, cada vez que NameNode falla, se recupera automáticamente sin necesidad de intervención manual.

r. Federación HDFS

Hadoop 2.x- En Hadoop 1.x, solo NameNode único para administrar todo el espacio de nombres. Pero Hadoop 2.x tiene múltiples NameNode para múltiples Namespace.
Hadoop 3.x- También tiene múltiples Namenode para múltiples espacios de nombres.

s. Escalabilidad

Hadoop 2.x- Podemos escalar hasta 10000 nodos por clúster.
Hadoop 3.x- Podemos escalar más de 10000 nodos por clúster.

t. Instantánea HDFS

Hadoop 2.x- Agrega el soporte para una instantánea. También proporciona recuperación ante desastres y protección ante errores del usuario.
Hadoop 3.x- También es compatible con la función de instantáneas.

tú. Plataforma

Hadoop 2.x- Sirve como plataforma para una amplia variedad de análisis de datos. También es posible ejecutar operaciones de procesamiento de eventos, transmisión y en tiempo real.
Hadoop 3.x- También es posible ejecutar el procesamiento de eventos, la transmisión y la operación en tiempo real en la parte superior de YARN.

Conclusión

En conclusión, Hadoop 3.0 ha agregado nuevas características como la codificación de borrado para manejar la tolerancia a fallas. Hadoop 3.x también reduce la sobrecarga de almacenamiento entre un 200 % y un 50 %.

También introdujo una nueva herramienta de línea de comandos llamada Disk balancer. Por lo tanto, Hadoop 3.x ha mejorado el rendimiento general.

Si encuentra alguna otra diferencia entre Hadoop 2.x y Hadoop 3.x, infórmenos en la sección de comentarios.