Una introducción a la minería de datos

Nota:este artículo se redactó originalmente en 2015, pero se actualizó en 2019 para reflejar la nueva integración entre IRI Voracity y Knime (para Konstanz Information Miner), ahora la plataforma de minería de datos de código abierto más poderosa disponible.

La minería de datos es la ciencia de obtener conocimiento a partir de datos, generalmente grandes conjuntos de datos en los que es necesario descubrir información significativa, tendencias y otros conocimientos útiles. La minería de datos utiliza aprendizaje automático y métodos estadísticos para extraer "pepitas" útiles de información de lo que de otro modo sería un conjunto de datos muy intimidante.

La minería de datos abarca múltiples disciplinas informáticas y matemáticas. No es tanto un proceso unitario como un término general para un conjunto de acciones. Cuatro tareas amplias que se realizan durante la minería incluyen: análisis de datos exploratorios (EDA), modelado descriptivo, modelado predictivo y descubrimiento de patrones.

EDA utiliza métodos de visualización estadística convencionales o métodos gráficos no convencionales para ver si se puede encontrar algo interesante en los datos.

En el modelado descriptivo, los datos se pasan a una rutina y producen verbos (generadores de datos) o adjetivos (descripciones de datos) que están detrás de la formación de los datos. Esto incluye métodos que asocian los datos con una distribución de probabilidad, agrupamiento y modelado de dependencia.

El modelado predictivo utiliza métodos de regresión y clasificación para establecer un estándar para predecir futuros puntos de datos desconocidos. La regresión es un análisis puramente matemático que ajusta una ecuación a un conjunto de datos para predecir el siguiente valor. El modelado predictivo también puede basarse en reglas de patrones y tendencias de relaciones (o incluso causas y efectos identificados específicamente) que se descubrieron utilizando el método de análisis lógico de datos (LAD).

El descubrimiento de patrones a través de LAD clasifica las nuevas observaciones de acuerdo con las clasificaciones anteriores de las observaciones y utiliza funciones de optimización, combinatoria y booleanas para mejorar la precisión del análisis.

En su mayor parte, estos métodos solo pueden indicar qué entradas de datos están relacionadas, pero no las razones por las que o cómo están relacionadas. Es posible explicar lo que caracteriza a una clase/clúster de otro al encontrar estas reglas o patrones, y los temas se enumeran de varias maneras según los datos en sí.

Las aplicaciones para la minería de datos pueden abarcar desde el marketing empresarial hasta la medicina, desde la detección de fraudes en la banca y los seguros hasta la astronomía, desde la gestión de recursos humanos hasta la industria del marketing por catálogo, etc. La profesión médica lo ha encontrado útil para distinguir entre atributos de personas con diferentes tasas de progresión de la enfermedad. Las tiendas minoristas ahora utilizan la minería de datos para comprender mejor los hábitos de gasto de los consumidores, observando qué artículos se compran juntos y su relación, así como la mejor manera de publicitar a sus clientes. Y gran parte del mundo corporativo ahora se basa en la minería de datos para calcular, ejecutar y justificar las principales decisiones comerciales.

Sin embargo, como todo el mundo sabe ahora por la intensa cobertura mediática reciente del escándalo de los registros telefónicos de la NSA y Verizon, la extracción de datos también puede ser extremadamente controvertida. En caso de que hayas estado viviendo debajo de una roca, aquí tienes una breve sinopsis:

El 5 de junio de 2013, el diario británico The Guardian publicó un informe exclusivo de que millones de registros de clientes de Verizon, uno de los proveedores de telecomunicaciones más grandes de los EE. UU., fueron recopilados por la Agencia de Seguridad Nacional de los EE. UU., en respuesta a una orden clasificada. del Tribunal de Vigilancia de Inteligencia Extranjera de EE. Business Network Services de Verizon se vio obligado a entregar todos los metadatos de telefonía creados por el proveedor de servicios móviles dentro de los EE. UU. y en el extranjero. Como resultado, surgieron críticas bipartidistas y universales a la administración de Obama por parte de grupos de defensa de los derechos civiles y medios de comunicación, alegando abuso presidencial del poder ejecutivo. No se vislumbra ninguna resolución de este incidente a la fecha de redacción de este artículo. Pero, sin duda, seguirá siendo un excelente ejemplo de cómo la extracción de datos a veces se puede ver de manera negativa, especialmente con respecto a las preocupaciones de privacidad y el público en general.

Cuando se trata de grandes volúmenes de datos estáticos o dinámicos, seguramente habrá problemas de rendimiento relacionados con el cálculo y la E/S. Con bases de datos que contienen terabytes y exabytes de datos, revisar los datos puede llevar mucho tiempo y los algoritmos de minería deben ejecutarse de manera muy eficiente. Algunas otras dificultades incluyen sobreajuste y datos ruidosos.

El sobreajuste generalmente significa que no hay suficientes buenos datos disponibles. El modelo de datos (en este caso, la descripción global de los datos) se vuelve demasiado complejo porque tiene demasiados parámetros relativos al número de observaciones. Esto exagera las fluctuaciones menores en los datos, comprometiendo así la confiabilidad del modelo como base para hacer predicciones.

Los datos ruidosos, por otro lado, se refieren a demasiados tipos de datos incorrectos. Los datos sin sentido, erróneos, no estructurados (ilegibles) o corruptos aumentan los requisitos de almacenamiento y/o requieren que se elimine el análisis estadístico antes de que pueda obstaculizar la precisión de la extracción de datos. Los buenos algoritmos de minería de datos tienen en cuenta los datos ruidosos.

La minería de datos es un paso único en un proceso más grande conocido como descubrimiento de conocimiento en bases de datos (KDD). KDD primero comienza con la preparación de datos: selección, preprocesamiento y transformación de los datos, donde usted determina lo que desea estudiar y lo configura de manera que se pueda extraer. Eso es representar los datos como una matriz m—n y con una representación numérica del elemento de cada vector de datos. A continuación, tú mía. Y finalmente, puedes usar el viejo noggin para interpretar y analizar esa información. Luego, si los patrones y tendencias ocultos aún no son lo suficientemente claros, debe profundizar un poco más.

El papel de IRI en la minería de datos y el proceso KDD es preparar y reestructurar big data para el análisis a través de múltiples funciones de transformación de datos de alto rendimiento. Específicamente, el paquete de manipulación de datos IRI CoSort puede filtrar, manipular y reformatear rápidamente los datos para que puedan ser procesados por algoritmos de minería de datos como estos conjuntos de software de minería de datos. CoSort también es el motor de procesamiento de datos predeterminado en la plataforma de administración de datos IRI Voracity, diseñado para una amplia gama de perfiles de datos, preparación y trabajo de discusión.

Para aquellos que trabajan con CoSort en la GUI de IRI Workbench, BIRT es un complemento gratuito de Eclipse con informes gráficos y capacidades de inteligencia comercial que incluyen algunas funciones de análisis y minería. Tanto CoSort como BIRT Analytics utilizan el IDE de Eclipse. Con el soporte del controlador de datos Open Data Access (ODA) en CoSort, la integración del flujo de datos entre los dos complementos también es perfecta y permite análisis hipotéticos más rápidos.

Para aquellos que trabajan con Voracity en 2019 y más allá, sugerimos instalar el proveedor central para la plataforma Knime Analytics gratuita en IRI Workbench. En el mismo panel de vidrio de Eclipse, el nodo de origen (proveedor) de Voracity para Knime puede transferir datos sin procesar en memoria preparados por Voracity a nodos de Knime para aplicaciones que requieren análisis estadístico y predictivo, extracción de datos y aprendizaje automático/profundo, redes neuronales e inteligencia artificial.

Los colaboradores de este artículo incluyen a Roby Poteau y David Friedland