sql >> Base de Datos >  >> RDS >> Oracle

Oracle Data Mining (ODM):instalación y configuración

Resumen

Oracle Data Mining (ODM) es un componente de Oracle Advanced Analytics Database Option. ODM contiene un conjunto de algoritmos de minería de datos avanzados que están integrados en la base de datos que le permite realizar análisis avanzados de sus datos.

Oracle Data Miner es una extensión de Oracle SQL Developer, un entorno de desarrollo gráfico para Oracle SQL. Oracle Data Miner utiliza la tecnología de minería de datos integrada en Oracle Database para crear, ejecutar y administrar flujos de trabajo que encapsulan las operaciones de minería de datos. La arquitectura de ODM se ilustra en la figura 1.

Figura 1:Arquitectura de minería de datos de Oracle para Big Data

Los algoritmos se implementan como funciones SQL y aprovechan las fortalezas de Oracle Database. Las funciones de extracción de datos SQL pueden extraer datos transaccionales, agregaciones, datos no estructurados, es decir, tipo de datos CLOB (utilizando Oracle Text) y datos espaciales.

Cada función de minería de datos especifica una clase de problemas que se pueden modelar y resolver. Las funciones de minería de datos generalmente se dividen en dos categorías:supervisadas y no supervisadas.

Las nociones de aprendizaje supervisado y no supervisado se derivan de la ciencia del aprendizaje automático, que se ha denominado una subárea de la inteligencia artificial.

El aprendizaje supervisado también se conoce como aprendizaje dirigido. El proceso de aprendizaje está dirigido por un atributo u objetivo dependiente previamente conocido. La minería de datos dirigida intenta explicar el comportamiento del objetivo en función de un conjunto de atributos o predictores independientes.

El aprendizaje no supervisado no es dirigido. No hay distinción entre atributos dependientes e independientes. No hay un resultado conocido previamente para guiar al algoritmo en la construcción del modelo. El aprendizaje no supervisado se puede utilizar con fines descriptivos.

Algoritmos supervisados ​​de minería de datos de Oracle

Técnica Aplicabilidad Algoritmos (Breve descripción)
Clasificación
Técnica más utilizada para predecir un resultado específico, por ejemplo, identificación de células tumorales cancerosas, análisis de sentimientos, clasificación de fármacos, detección de spam. Regresión logística de modelos lineales generalizados:técnica estadística clásica disponible dentro de Oracle Database en una implementación paralizada, escalable y de alto rendimiento (se aplica a todos los algoritmos OAA ML). Admite texto y datos transaccionales (se aplica a casi todos los algoritmos OAA ML)

Naive Bayes:rápido, simple, comúnmente aplicable.

Support Vector Machine:algoritmo de aprendizaje automático, admite texto y datos amplios.

Árbol de decisiones:popular algoritmo de aprendizaje automático para la interpretabilidad. Proporciona "reglas" legibles por humanos.
Regresión
Técnica para predecir un resultado numérico continuo, como análisis de datos astronómicos, generar información sobre el comportamiento del consumidor, la rentabilidad y otros factores comerciales, calcular relaciones causales entre parámetros en sistemas biológicos. Regresión múltiple de modelos lineales generalizados:técnica estadística clásica pero ahora disponible dentro de Oracle Database como una implementación paralizada, escalable y de alto rendimiento. Admite la regresión de crestas, la creación de funciones y la selección de funciones. Admite texto y datos transaccionales.

Admite Vector Machine:algoritmo de aprendizaje automático, admite texto y datos amplios.
Importancia del atributo
Clasifica los atributos según la fuerza de la relación con el atributo de destino. Los casos de uso incluyen encontrar los factores más asociados con los clientes que responden a una oferta, los factores más asociados con los pacientes sanos. Longitud mínima de la descripción:considera cada atributo como un modelo predictivo simple de la clase objetivo y proporciona una influencia relativa.

Algoritmos no supervisados ​​de minería de datos de Oracle

Técnica Aplicabilidad Algoritmos
Clustering
La agrupación en clústeres se utiliza para particionar los registros de una base de datos en subconjuntos o clústeres donde los elementos de un clúster comparten un conjunto de propiedades comunes. Los ejemplos incluyen la búsqueda de nuevos segmentos de clientes y recomendaciones de películas. K-Means:admite minería de texto, agrupamiento jerárquico, basado en la distancia.

Grupo de particiones ortogonales:agrupamiento jerárquico, basado en la densidad.

Maximización de expectativas:técnica de agrupamiento que funciona bien en problemas de minería de datos de datos mixtos (densos y dispersos).
Detección de anomalías
La detección de anomalías identifica puntos de datos, eventos u observaciones que se desvían del comportamiento normal de un conjunto de datos. Los ejemplos comunes incluyen fraude bancario, un defecto estructural, problemas médicos o errores en un texto Máquina de vectores de soporte de clase única:entrena datos sin etiquetar e intenta determinar si un punto de prueba pertenece a la distribución de datos de entrenamiento.
Selección y extracción de características
Produce nuevos atributos como combinación lineal de atributos existentes. Aplicable para datos de texto, análisis semántico latente (LSA), compresión de datos, descomposición y proyección de datos y reconocimiento de patrones. Factorización matricial no negativa:asigna los datos originales al nuevo conjunto de atributos

Análisis de componentes principales (PCA):crea nuevos atributos compuestos menos que representan todos los atributos.

Descomposición de vectores singulares:método de extracción de características establecido que tiene una amplia gama de aplicaciones.
Asociación
Encuentra reglas asociadas con elementos que coexisten con frecuencia, que se utilizan para el análisis de la cesta de la compra, la venta cruzada y el análisis de la causa principal. Útil para la agrupación de productos y el análisis de defectos. A priori - Hash un árbol para recopilar información en una base de datos

Habilitación de la opción de minería de datos de Oracle

A partir de la versión 2 de 12c, Oracle Advanced Analytics La opción incluye la funcionalidad de minería de datos y Oracle R.

La opción Oracle Advanced Analytics está habilitada de manera predeterminada durante la instalación de Oracle Database Enterprise Edition. Si desea habilitar o deshabilitar una opción de base de datos, puede usar la utilidad de línea de comandos chopt .

chopt [ enable | disable ] oaa

Para habilitar la opción Oracle Advanced Analytics:

Creación de un espacio de tabla en un esquema ODM

Todos los usuarios requieren un tablespace permanente y un tablespace temporal en el que hacer su trabajo, puede ser muy útil tener un área separada en su base de datos donde puede crear todos sus objetos de minería de datos.

El usr_dm_01 El esquema contendrá todos sus trabajos de minería de datos.

Creación del repositorio ODM

Debe crear un repositorio de minería de datos de Oracle en la base de datos Vaya a Data Miner Navigator en SQL Developer.

Seleccione Ver -> Minero de datos -> Conexiones del minero de datos:

Se abre una nueva pestaña junto a la pestaña Conexiones existente:

Para agregar usr_dm_01 esquema a esta lista, haga clic en las ventanas verdes más y OK

Si el repositorio no existe, aparecerá un mensaje que le preguntará si desea instalar el repositorio. Haga clic en botón para continuar con la instalación.

Debe ingresar la contraseña SYS

Configuración de instalación del repositorio

Instalar la ventana de progreso del Repositorio de Data Miner

Tarea completada con éxito

Archivo de registro

Componentes de minería de datos de Oracle

El flujo de trabajo le permite construir una serie de nodos que realizan todo el procesamiento requerido en sus datos.

Ejemplo de flujo de trabajo desarrollado para análisis predictivo

Vistas del diccionario de datos ODM

Puede obtener información sobre modelos de minería del diccionario de datos.

Las vistas del diccionario de datos de minería de datos se resumen de la siguiente manera:

Nota:* puede ser reemplazado por ALL_, USER_, DBA_ y CDB_

*_MODELOS_MINEROS :Información sobre los modelos de minería que se han creado.

*_ATRIBUTOS_DEL_MODELO_MINERO :contiene los detalles de los atributos que se han utilizado para crear el modelo de Oracle Data Mining.

*_CONFIGURACIÓN_MODELO_MINERÍA :Devuelve información sobre la configuración de los modelos de minería a los que tiene acceso.

Referencias

Guía del usuario de minería de datos de Oracle. Disponible en:https://docs.oracle.com/en/database/oracle/oracle-database/19/dmprg/lot.html

Oracle Data Mining:análisis predictivo escalable en la base de datos. Disponible en:https://www.oracle.com/database/technologies/advanced-analytics/odm.html

Descripción general del sistema Oracle Data Miner. Disponible en:https://docs.oracle.com/database/sql-developer-17.4/DMRIG/oracle-data-miner-overview.htm#DMRIG124