sql >> Base de Datos >  >> RDS >> Database

Comprender las 3 características clave de Big Data

El hecho de que las organizaciones enfrenten desafíos de Big Data es común hoy en día. El término Big Data se refiere al uso de un conjunto de múltiples tecnologías, tanto antiguas como nuevas, para extraer información significativa de una gran cantidad de datos. El conjunto de datos no solo es grande, sino que también tiene su propio conjunto único de desafíos para capturarlos, administrarlos y procesarlos. A diferencia de los datos persistentes en las bases de datos relacionales, que están estructuradas, el formato de big data puede ser estructurado, semiestructurado o no estructurado, o recopilado de diferentes fuentes con diferentes tamaños. Este artículo profundiza en los aspectos fundamentales de Big Data, sus características básicas y le da una idea de las herramientas y técnicas utilizadas para manejarlo.

Una visión general

El término Big Data da una impresión sólo del tamaño de los datos. Esto es cierto en cierto sentido, pero no da la imagen completa. Los desafíos asociados con él no se relacionan únicamente con su tamaño. De hecho, la idea evolucionó para nombrar un mar de datos recopilados de varias fuentes, formatos y tamaños y, al mismo tiempo, difíciles de aprovechar o sacar valor de ellos. El auge de la tecnología emergente y el creciente uso de Internet impulsaron el volumen y la disparidad. El volumen sigue aumentando con cada intercambio de información a través de Internet o incluso con los minúsculos objetos IoT que usamos. Una simple respuesta a una llamada telefónica o encender el circuito cerrado de televisión puede generar una cadena de datos. Hoy en día, la mayoría de los dispositivos están conectados en línea. Ahora bien, si una organización quiere recopilar esa información en línea, necesita un proceso de procesamiento especial porque los datos generados serán masivos. Además, puede que no haya uniformidad en el formato de los datos capturados. Esto se suma a la complejidad, ya que tenemos que lidiar con datos estructurados, semiestructurados o no estructurados. Las herramientas que usamos hasta ahora para organizar los datos son incapaces de manejar tanta variedad y volumen. Por tanto, podemos decir que el término Big Data en realidad se aplica a los datos que no se pueden procesar o analizar a través de herramientas y técnicas tradicionales que normalmente se usan para procesar datos estructurados o semiestructurados, como el uso de bases de datos relacionales, XML, etc.

Las organizaciones de hoy en día están repletas de datos no estructurados o semiestructurados disponibles en formato sin formato. Estos datos pueden ser una gran cantidad de información si se procesan y se obtiene el valor de ellos. Pero, el problema es cómo hacerlo. Las técnicas y herramientas tradicionales, como las bases de datos relacionales, son inadecuadas para manejar un volumen tan grande de datos variados. También es un problema de doble filo para las organizaciones, porque simplemente triturarlas significaría perder información valiosa, si es que la hay, y conservarla es un desperdicio de recursos. Por lo tanto, se buscan algunas herramientas y técnicas para hacer frente al problema. A veces, estamos bastante seguros de su valor potencial y podemos cosechar una mina de oro de información pero, sin las herramientas adecuadas, es bastante exigente para el proceso comercial obtener algún beneficio. Los datos de hoy son masivos y explotados como cualquier cosa en los últimos años; por cierto, parece que no hay nada que lo detenga.

Explosión de información

Los grandes datos aumentan cada minuto en casi todos los sectores, ya sea tecnología, medios, comercio minorista, servicios financieros, viajes y redes sociales, por nombrar solo algunos. El volumen de procesamiento de datos del que estamos hablando es alucinante. Aquí hay información estadística para darle una idea:

  • Los canales meteorológicos reciben 18 055 555 solicitudes de pronóstico por minuto.
  • Los usuarios de Netflix transmiten 97 222 horas de video por minuto.
  • Los usuarios de Skype realizan 176 220 llamadas por minuto.
  • Los usuarios de Instagram publican 49.380 fotos cada minuto.

Estos números crecen cada año, con un número cada vez mayor de personas que utilizan Internet. En 2017, el uso de Internet alcanzó hasta el 47 % (3.800 millones de personas) de la población mundial. Con una cantidad cada vez mayor de dispositivos electrónicos, nuestros datos de salida aproximados se estiman en 2,5 quintillones de bytes por día y siguen creciendo.

Las estadísticas de la Búsqueda de Google muestran 3500 millones de búsquedas por día, lo que equivale a más de 40 000 búsquedas por segundo en promedio. Tampoco debemos perdernos que otros buscadores también están realizando búsquedas. El Informe de estadísticas de correo electrónico, 2015-2019 de Radicati Group, Inc., muestra 2900 millones de usuarios de correo electrónico para 2019.

En un intento de estimar cuántas fotos se tomarán en 2017:si había 7500 millones de personas en el mundo en 2017, de las cuales unos 5000 millones tenían teléfonos móviles, una suposición probable es que el 80 % de esos teléfonos tienen cámaras integradas. Eso significa que hay alrededor de 4 mil millones de personas que usan sus cámaras. Si toman 10 fotos por día, lo que equivale a 3650 fotos por año por persona, esto suma aproximadamente 14 billones de fotos por año.

Por lo tanto, cuando decimos Big Data, esencialmente se refiere a datos o conjuntos de registros que son demasiado grandes para ser conjeturables. Se producen a través de los motores de búsqueda, la informática empresarial, las redes sociales, los medios sociales, la genómica, la meteorología, las previsiones meteorológicas y muchas otras fuentes. Claramente, esto no puede operarse utilizando las herramientas y técnicas de gestión de bases de datos existentes. Big Data abre un campo de grandes desafíos en términos de almacenamiento, captura, gestión, mantenimiento, análisis, investigación, nuevas herramientas para manejarlos y similares.

Características de los grandes datos

Como ocurre con todas las cosas grandes, si queremos gestionarlas, debemos caracterizarlas para organizar nuestra comprensión. Por lo tanto, Big Data se puede definir por una o más de tres características, las tres V:alto volumen , alta variedad y alta velocidad . Estas características plantean algunas preguntas importantes que no solo nos ayudan a descifrarlo, sino que también brindan una idea de cómo manejar datos masivos y dispares a una velocidad manejable dentro de un marco de tiempo razonable para que podamos obtener valor de ellos, hacer algo. análisis en tiempo real y proporcionar una respuesta posterior rápidamente.

  • Volumen: El volumen se refiere al tamaño total de los datos en constante explosión del mundo de la computación. Plantea la pregunta sobre la cantidad de datos.
  • Velocidad: La velocidad se refiere a la velocidad de procesamiento. Plantea la cuestión de a qué velocidad se procesan los datos.
  • Variedad: La variedad se refiere a los tipos de datos. Plantea la cuestión de cuán dispares son los formatos de datos.

Tenga en cuenta que caracterizamos Big Data en tres V, solo para simplificar sus principios básicos. Es muy posible que el tamaño pueda ser relativamente pequeño, pero demasiado variado y complejo, o puede ser relativamente simple pero con un gran volumen de datos. Por lo tanto, además de estas tres V, podemos agregar fácilmente otra, Veracidad . La veracidad determina la exactitud de los datos en relación con el valor de negocio que queremos extraer. Sin veracidad, es inviable que una organización aplique sus recursos para analizar la pila de datos. Con más precisión en cuanto al contexto de los datos, hay una mayor posibilidad de obtener información valiosa. Por tanto, la veracidad es otra de las características del Big Data. Las empresas aprovechan los datos estructurados, semiestructurados y no estructurados del correo electrónico, las redes sociales, los flujos de texto y más. Pero, antes del análisis, es importante identificar la cantidad y los tipos de datos en consideración que afectarían los resultados comerciales.

Herramientas y Técnicas

La inteligencia artificial (AI), IoT y las redes sociales están impulsando la complejidad de los datos a través de nuevas formas y fuentes. Por ejemplo, es crucial que, en tiempo real, los grandes datos que llegan a través de sensores, dispositivos, redes y transacciones se capturen, gestionen y procesen con baja latencia. Big Data permite a los analistas, investigadores y usuarios comerciales tomar decisiones más informadas más rápido, utilizando datos históricos que de otro modo serían inalcanzables. Se puede utilizar el análisis de texto, el aprendizaje automático, el análisis predictivo, la extracción de datos y el procesamiento del lenguaje natural para extraer nuevos conocimientos de la pila de datos disponible.

La tecnología ha evolucionado para gestionar volúmenes masivos de datos, que antes eran caros y debían contar con la ayuda de supercomputadoras. Con la aparición de redes sociales como Facebook, motores de búsqueda como Google y Yahoo!, los proyectos de Big Data tomaron impulso y crecieron como lo hacen hoy. Se han desarrollado tecnologías como MapReduce, Hadoop y Big Table para satisfacer las necesidades actuales.

Los repositorios NoSQL también se mencionan en relación con Big Data. Es una base de datos alternativa en contraste con las bases de datos relacionales. Estas bases de datos no organizan registros en tablas de filas y columnas como se encuentran en las bases de datos relacionales convencionales. Hay diferentes tipos de bases de datos NoSQL, como Almacén de contenido, Almacén de documentos, Almacén de eventos, Gráfico, Valor clave y similares. No utilizan SQL para consultas y siguen un modelo arquitectónico diferente. Se encuentran para facilitar Big Data Analytics de una manera favorable. Algunos nombres populares son:Hbase, MongoDB, CouchDB y Neo4j. Aparte de ellos, hay muchos otros.

Conclusión

Big Data abrió una nueva oportunidad para la recolección de datos y la extracción de valor de ellos, que de otro modo se desperdiciarían. Es imposible capturar, administrar y procesar Big Data con la ayuda de herramientas tradicionales como las bases de datos relacionales. La plataforma Big Data proporciona las herramientas y los recursos para extraer información de los datos voluminosos, variados y rápidos. Estos montones de datos ahora tienen medios y un contexto viable para ser utilizados para diversos fines en el proceso comercial de una organización. Por lo tanto, para precisar exactamente de qué tipo de datos estamos hablando, debemos entenderlo y sus características como el paso principal.