data mining techniques
Este tutorial detallado sobre técnicas de minería de datos explica algoritmos, herramientas de minería de datos y métodos para extraer datos útiles:
En esto Tutoriales detallados de formación sobre minería de datos para todos , exploramos todo sobre la minería de datos en nuestro tutorial anterior.
En este tutorial, aprenderemos sobre las diversas técnicas utilizadas para la extracción de datos. Como sabemos que la minería de datos es un concepto de extraer información útil de una gran cantidad de datos, algunas técnicas y métodos se aplican a grandes conjuntos de datos para extraer información útil.
Estas técnicas se encuentran básicamente en forma de métodos y algoritmos aplicados a conjuntos de datos. Algunas de las técnicas de minería de datos incluyen Minería de patrones frecuentes, asociaciones y correlaciones, clasificaciones, agrupamiento, detección de valores atípicos y algunas técnicas avanzadas como la minería de datos estadística, visual y de audio.
Generalmente, las bases de datos relacionales, las bases de datos transaccionales y los almacenes de datos se utilizan para técnicas de minería de datos. Sin embargo, también existen algunas técnicas de minería avanzadas para datos complejos, como series de tiempo, secuencias simbólicas y datos secuenciales biológicos.
Lo que vas a aprender:
- Propósito de las técnicas de minería de datos
- Lista de técnicas de extracción de datos
- Principales algoritmos de minería de datos
- Métodos de extracción de datos
- Principales herramientas de minería de datos
- Conclusión
- Lectura recomendada
Propósito de las técnicas de minería de datos
Con una gran cantidad de datos que se almacenan cada día, las empresas ahora están interesadas en conocer sus tendencias. Las técnicas de extracción de datos ayudan a convertir los datos sin procesar en conocimientos útiles. Para extraer grandes cantidades de datos, se requiere el software, ya que es imposible que un humano revise manualmente el gran volumen de datos.
Un software de minería de datos analiza la relación entre diferentes elementos en grandes bases de datos que pueden ayudar en el proceso de toma de decisiones, aprender más sobre los clientes, elaborar estrategias de marketing, aumentar las ventas y reducir los costos.
Lista de técnicas de extracción de datos
La técnica de minería de datos que se aplicará depende de la perspectiva de nuestro análisis de datos.
Así que analicemos las diversas técnicas de cómo se puede realizar la extracción de datos de diferentes maneras:
# 1) Análisis de asociación / minería de patrones frecuente
Este tipo de técnica de minería de datos busca relaciones recurrentes en el conjunto de datos dado. Buscará asociaciones y correlaciones interesantes entre los diferentes elementos de la base de datos e identificará un patrón.
Un ejemplo, de este tipo, sería 'Análisis de la cesta de la compra': averiguar '¿qué productos es probable que los clientes compren juntos en la tienda?' como pan y mantequilla.
Solicitud: Diseñar la colocación de los productos en los estantes de las tiendas, marketing, venta cruzada de productos.
Los patrones se pueden representar en forma de reglas de asociación. La regla de asociación dice que el soporte y la confianza son los parámetros para conocer la utilidad de los elementos asociados. Las transacciones en las que se compraron ambos artículos juntos de una vez se conocen como soporte.
Las transacciones en las que los clientes compraron ambos artículos, pero uno tras otro, son de confianza. El patrón minado se consideraría interesante si tiene un umbral mínimo de soporte y umbral mínimo de confianza valor. Los valores de umbral los deciden los expertos en el dominio.
Pan => mantequilla (apoyo = 2%, confianza-60%)
La declaración anterior es un ejemplo de una regla de asociación. Esto significa que hay una transacción del 2% que compró pan y mantequilla juntos y hay un 60% de clientes que compraron pan y mantequilla.
Pasos para implementar el análisis de asociación:
- Encontrar conjuntos de elementos frecuentes. Conjunto de elementos significa un conjunto de elementos. Un conjunto de elementos que contiene k elementos es un conjunto de elementos k. La frecuencia de un conjunto de elementos es el número de transacciones que contienen el conjunto de elementos.
- Generación de reglas de asociación sólidas a partir de conjuntos de elementos frecuentes. Por reglas de asociación estrictas, queremos decir que se cumple el umbral mínimo de apoyo y confianza.
Existen varios métodos frecuentes de minería de conjuntos de elementos, como el algoritmo a priori, el enfoque de crecimiento de patrones y la minería utilizando el formato de datos vertical. Esta técnica se conoce comúnmente como análisis de la cesta de mercado.
auriculares vr para pc y ps4
# 2) Análisis de correlación
El análisis de correlación es solo una extensión de las reglas de asociación. A veces, los parámetros de soporte y confianza aún pueden generar patrones poco interesantes para los usuarios.
Un ejemplo que respalda la afirmación anterior puede ser: de 1000 transacciones analizadas, 600 contenían solo pan, mientras que 750 contenían mantequilla y 400 contenían tanto pan como mantequilla. Suponga que el soporte mínimo para la ejecución de reglas de asociación es del 30% y la confianza mínima es del 60%.
El valor de soporte de 400/1000 = 40% y el valor de confianza = 400/600 = 66% alcanza el umbral. Sin embargo, vemos que la probabilidad de comprar mantequilla es del 75%, que es más del 66%. Esto significa que el pan y la mantequilla están correlacionados negativamente ya que la compra de uno conduciría a una disminución en la compra del otro. Los resultados son engañosos.
A partir del ejemplo anterior, el soporte y la confianza se complementan con otra medida de interés, es decir, el análisis de correlación que ayudará a extraer patrones interesantes.
A => B (apoyo, confianza, correlación).
La regla de correlación se mide por el soporte, la confianza y la correlación entre los conjuntos de elementos A y B. La correlación se mide por Lift y Chi-Square.
(i) Levante: Como dice la propia palabra, Elevar representa el grado en que la presencia de un conjunto de elementos eleva la aparición de otros conjuntos de elementos.
La elevación entre la aparición de A y B se puede medir mediante:
Elevación (A, B) = P (A U B) / P (A). P (B).
Si esto es<1, then A and B are negatively correlated.
Si es> 1. Entonces A y B están correlacionados positivamente, lo que significa que la ocurrencia de uno implica la ocurrencia del otro.
Si es = 1, entonces no hay correlación entre ellos.
(ii) Chi-cuadrado: Esta es otra medida de correlación. Mide la diferencia al cuadrado entre el valor observado y esperado para una ranura (par A y B) dividido por el valor esperado.
Si es> 1, entonces está correlacionado negativamente.
# 3) Clasificación
La clasificación ayuda a construir modelos de clases de datos importantes. Se construye un modelo o clasificador para predecir las etiquetas de clase. Las etiquetas son las clases definidas con valores discretos como 'sí' o 'no', 'seguro' o 'riesgoso'. Es un tipo de aprendizaje supervisado como ya se conoce a la clase de etiqueta.
La clasificación de datos es un proceso de dos pasos:
- Paso de aprendizaje: El modelo se construye aquí. Se aplica un algoritmo predefinido a los datos para analizar con una etiqueta de clase proporcionada y se construyen las reglas de clasificación.
- Paso de clasificación: El modelo se utiliza para predecir etiquetas de clase para datos dados. La precisión de las reglas de clasificación se estima mediante los datos de prueba que, si se encuentran precisos, se utilizan para la clasificación de nuevas tuplas de datos.
Los elementos del conjunto de elementos se asignarán a las categorías de destino para predecir funciones a nivel de etiqueta de clase.
Solicitud: Los bancos identifican a los solicitantes de préstamos como de bajo, medio o alto riesgo, las empresas diseñan campañas de marketing basadas en la clasificación de grupos de edad.
# 4) Inducción del árbol de decisión
El método de inducción de árboles de decisión se incluye en el análisis de clasificación. Un árbol de decisiones es una estructura en forma de árbol que es fácil de entender, simple y rápida. En esto, cada nodo no hoja representa una prueba en un atributo y cada rama representa el resultado de la prueba, y el nodo hoja representa la etiqueta de clase.
Los valores de atributo en una tupla se prueban contra el árbol de decisión desde la raíz hasta el nodo hoja. Los árboles de decisión son populares ya que no requieren ningún conocimiento de dominio. Estos pueden representar datos multidimensionales. Los árboles de decisión se pueden convertir fácilmente en reglas de clasificación.
Solicitud: Los árboles de decisión se construyen en medicina, manufactura, producción, astronomía, etc. Se puede ver un ejemplo a continuación:
# 5) Clasificación de Bayes
La clasificación bayesiana es otro método de análisis de clasificación. Los clasificadores de Bayes predicen la probabilidad de que una tupla determinada pertenezca a una clase en particular. Se basa en el teorema de Bayes, que se basa en la teoría de la probabilidad y la decisión.
La Clasificación de Bayes trabaja sobre la probabilidad posterior y la probabilidad previa para el proceso de toma de decisiones. Por probabilidad posterior, la hipótesis se hace a partir de la información dada, es decir, los valores de los atributos son conocidos, mientras que para la probabilidad previa, las hipótesis se dan independientemente de los valores de los atributos.
# 6) Análisis de agrupamiento
Es una técnica de dividir un conjunto de datos en grupos o grupos de objetos. La agrupación se realiza mediante algoritmos. Es un tipo de aprendizaje no supervisado ya que no se conoce la información de la etiqueta. Los métodos de agrupación identifican datos que son similares o diferentes entre sí, y se realiza un análisis de las características.
El análisis de conglomerados se puede utilizar como un paso previo para aplicar otros algoritmos como caracterización, selección de subconjuntos de atributos, etc. El análisis de conglomerados también se puede utilizar para la detección de valores atípicos, como compras elevadas en transacciones con tarjeta de crédito.
Aplicaciones: Reconocimiento de imágenes, búsqueda web y seguridad.
# 7) Detección de valores atípicos
El proceso de encontrar objetos de datos que poseen un comportamiento excepcional de los otros objetos se denomina detección de valores atípicos. La detección de valores atípicos y el análisis de conglomerados están relacionados entre sí. Los métodos de valores atípicos se clasifican en estadísticos, basados en proximidad, basados en clústeres y basados en clasificación.
Existen diferentes tipos de valores atípicos, algunos de ellos son:
- Valor atípico global: El objeto de datos se desvió significativamente del resto del conjunto de datos.
- Valor atípico contextual: Depende de ciertos factores como el día, la hora y la ubicación. Si un objeto de datos se desvía significativamente con referencia a un contexto.
- Valor atípico colectivo: Cuando un grupo de objetos de datos tiene un comportamiento diferente al conjunto de datos completo.
Solicitud: Detección de riesgos de fraude de tarjetas de crédito, detección de novedades, etc.
# 8) Patrones secuenciales
En este tipo de minería de datos se reconoce una tendencia o algunos patrones consistentes. Las tiendas utilizan la comprensión del comportamiento de compra del cliente y los patrones secuenciales para exhibir sus productos en los estantes.
Solicitud: Ejemplo de comercio electrónico en el que cuando compra el artículo A, se mostrará que el artículo B a menudo se compra con el artículo A mirando el historial de compras pasado.
# 9) Análisis de regresión
Este tipo de análisis se supervisa e identifica qué conjuntos de elementos entre las diferentes relaciones están relacionados o son independientes entre sí. Puede predecir ventas, ganancias, temperatura, pronosticar el comportamiento humano, etc. Tiene un valor de conjunto de datos que ya se conoce.
Cuando se proporciona una entrada, el algoritmo de regresión comparará la entrada y el valor esperado, y el error se calcula para obtener un resultado preciso.
Solicitud: Comparación de los esfuerzos de marketing y desarrollo de productos.
Principales algoritmos de minería de datos
Las técnicas de minería de datos se aplican a través de los algoritmos que hay detrás. Estos algoritmos se ejecutan en el software de extracción de datos y se aplican en función de las necesidades comerciales.
Algunos de los algoritmos que son ampliamente utilizados por las organizaciones para analizar los conjuntos de datos se definen a continuación:
- K-significa: Es una técnica de análisis de conglomerados popular en la que se agrupa un grupo de elementos similares.
- Algoritmo a priori: Es una técnica de minería de conjuntos de elementos frecuente y se le aplican reglas de asociación en bases de datos transaccionales. Detectará conjuntos de elementos frecuentes y destacará las tendencias generales.
- K Vecino más cercano: Este método se utiliza para el análisis de clasificación y regresión. El vecino más cercano k es el aprendizaje perezoso donde almacena los datos de entrenamiento y cuando llega un nuevo dato sin etiquetar, clasificará los datos de entrada.
- Naves Bayes: Es un grupo de algoritmos de clasificación probabilística simples que asumen que las características de cada objeto de datos son independientes unas de otras. Es una aplicación del teorema de Bayes.
- AdaBoost: Es un metaalgoritmo de aprendizaje automático que se utiliza para mejorar el rendimiento. Adaboost es sensible a datos ruidosos y valores atípicos.
Métodos de extracción de datos
A continuación se explican algunos métodos avanzados de minería de datos para manejar tipos de datos complejos.
Los datos en el mundo actual son de diversos tipos que van desde datos simples hasta datos complejos. Para extraer tipos de datos complejos, como series de tiempo, datos multidimensionales, espaciales y multimedia, se necesitan técnicas y algoritmos avanzados.
Algunos de ellos se describen a continuación:
- HACER CLIC: Fue el primer método de agrupamiento para encontrar los grupos en un subespacio multidimensional.
- P3C: Es un método de agrupamiento conocido para datos multidimensionales de moderados a altos.
- LAGO: Es un método basado en k-medias destinado a agrupar datos de dimensionalidad moderada a alta. El algoritmo divide los datos en k conjuntos disjuntos de elementos, eliminando los posibles valores atípicos.
- BIGUDÍ: Es un algoritmo de agrupamiento de correlaciones, detecta correlaciones lineales y no lineales.
Principales herramientas de minería de datos
Las herramientas de minería de datos son software que se utilizan para extraer datos. Las herramientas ejecutan algoritmos en el backend. Estas herramientas están disponibles en el mercado como código abierto, software libre y versión con licencia.
Algunas de las herramientas de extracción de datos incluyen:
c ++ número aleatorio entre 0 y 10
# 1) RapidMiner
RapidMiner es una plataforma de software de código abierto para equipos de análisis que une la preparación de datos, el aprendizaje automático y la implementación de modelos predictivos. Esta herramienta se utiliza para realizar análisis de minería de datos y crear modelos de datos. Tiene grandes conjuntos de algoritmos de clasificación, agrupación, extracción de reglas de asociación y regresión.
# 2) Naranja
Es una herramienta de código abierto que contiene un paquete de análisis y visualización de datos. Orange se puede importar en cualquier entorno de trabajo de Python. Es muy adecuado para nuevos investigadores y pequeños proyectos.
# 3) IDIOMA
KEEL (Extracción de conocimientos basada en el aprendizaje evolutivo) es un código abierto ( GPLv3 ) Herramienta de software Java que se puede utilizar para una gran cantidad de diferentes tareas de descubrimiento de datos de conocimiento.
# 4) SPSS
IBM SPSS Modeler es una aplicación de software de análisis de texto y minería de datos de IBM. Se utiliza para construir modelos predictivos y realizar otras tareas analíticas.
# 5) KNIME
Es una herramienta gratuita y de código abierto que contiene el paquete de análisis y limpieza de datos, algoritmos especializados en las áreas de análisis de sentimientos y análisis de redes sociales. KNIME puede integrar datos de varias fuentes en el mismo análisis. Tiene una interfaz con programación Java, Python y R.
Pregunta importante: ¿En qué se diferencia la clasificación de la predicción?
La clasificación es una agrupación de datos. Un ejemplo de clasificación es la agrupación según el grupo de edad, la afección médica, etc. Mientras que la predicción deriva un resultado utilizando los datos clasificados.
Un ejemplo del Análisis Predictivo es predecir los intereses basados en el grupo de edad, el tratamiento de una condición médica. La predicción también se conoce como estimación de valores continuos.
Término importante: Minería de datos predictiva
La minería de datos predictiva se realiza para pronosticar o predecir ciertas tendencias de datos utilizando inteligencia empresarial y otros datos. Ayuda a las empresas a tener mejores análisis y a tomar mejores decisiones. El análisis predictivo a menudo se combina con la minería de datos predictiva.
El Predictive Data Mining encuentra los datos relevantes para el análisis. El análisis predictivo utiliza datos para pronosticar el resultado.
Conclusión
En este tutorial, hemos analizado las diversas técnicas de minería de datos que pueden ayudar a las organizaciones y empresas a encontrar la información más útil y relevante. Esta información se utiliza para crear modelos que predecirán el comportamiento de los clientes para que las empresas actúen en consecuencia.
Al leer toda la información mencionada anteriormente sobre las técnicas de minería de datos, se puede determinar aún mejor su credibilidad y viabilidad. Las técnicas de extracción de datos incluyen trabajar con datos, reformatear datos, reestructurar datos. El formato de la información necesaria se basa en la técnica y el análisis a realizar.
Finalmente, todas las técnicas, métodos y sistemas de minería de datos ayudan en el descubrimiento de nuevas innovaciones creativas.
PREV Tutorial | SIGUIENTE Tutorial
Lectura recomendada
- Minería de datos: procesos, técnicas y problemas principales en el análisis de datos
- Las 10 mejores herramientas de modelado de datos para administrar diseños complejos
- Las 15 mejores herramientas gratuitas de minería de datos: la lista más completa
- 10+ mejores herramientas de recopilación de datos con estrategias de recopilación de datos
- Las 10 mejores herramientas de diseño de bases de datos para crear modelos de datos complejos
- Las 10 mejores herramientas de gobernanza de datos para satisfacer sus necesidades de datos en 2021
- Minería de datos Vs Aprendizaje automático Vs Inteligencia artificial Vs Aprendizaje profundo
- Las 14 MEJORES herramientas de gestión de datos de prueba en 2021