lunes, 27 de abril de 2009

¿Qué es Data Mining?

Creo que la trillada explicación “es la extracción de información previamente desconocida, de grandes volúmenes de datos” sólo tiene sentido para aquellos que ya saben qué es. Para quien no lo sabe, son palabras conocidas pero que juntas no le evocan ninguna imagen o experiencia que le sea familiar, es decir, no se entiende.

Así que estando en los comienzos de este blog, me parece oportuno lanzarme a la difícil tarea de definir su objeto principal, a mi propio y subjetivo modo, buscando ser abarcativo pero sencillo, y lo menos técnico posible. Aquí vamos:

¿Qué es Data Mining?
  • "Data Mining" (Minería de Datos) se refiere a un conjunto de técnicas de base estadística y algorítmica (algoritmo = procedimiento computarizable)
  • organizado con un método
  • que permite analizar montañas de datos
  • buscando relaciones sutiles (no evidentes) existentes en estos datos
  • En base a estas relaciones se construyen modelos
  • En base a los modelos se pueden tomar mejores decisiones
¿Qué es un modelo?
  • Un modelo es una representación simplificada de la realidad, que sin embargo mantiene lo que es “importante”
  • En base a cómo funciona el modelo, se pueden inferir aspectos del funcionamiento de la realidad, que siempre es mucho más compleja
¿Cuáles son los tipos de modelos más importantes en Data Mining?
  • Modelos Explicativos
  • --- Permiten encontrar qué factores influyen en un resultado
  • --- Permite agrupar resultados similares
  • Modelos Predictivos
  • --- En base a los patrones de comportamiento previo, permite identificar cuál es el comportamiento futuro más probable
  • --- En base a una clasificación realizada sobre un conjunto de casos conocidos, permite asignarle una clase a un caso nuevo
¿Qué aplicaciones concretas tiene Data Mining? Ejemplos:
  • Market basket analysis: ¿qué productos se venden juntos?
  • Modelo de fuga (churn o attrition): ¿qué clientes están por abandonar un servicio?
  • Segmentación: ¿cuáles son los clientes que se comportan de manera similar? ¿qué prospectos se asemejan a los que son más valiosos para el negocio?
  • ¿Cuáles son los factores que más influyen en un proceso? (de producción, logística, ventas, etc.)
  • Detección de fraudes
  • Personalización de publicidad en Internet
  • Predicción de fallas de maquinaria
  • Predicción de la demanda
  • Predicción del flujo de caja
  • Reconocimiento de imágenes
  • Evaluación de riesgos crediticios
  • Detección de spam
  • Estudios genéticos
  • Catalogación de cuerpos celestes en astronomía
  • Análisis de documentos no estructurados (text mining y web mining)
  • Etc., etc., etc…
Limitaciones
  • No pueden analizarse datos que no se tienen
  • --- Un posible resultado de un proyecto de DM es la determinación de los datos que deben empezar a recolectarse
  • Si los datos son erróneos, las predicciones también lo serán
  • --- Aunque las técnicas son bastante resistentes a una cierta cantidad de “ruido”
¿Qué NO es Data Mining?
  • Recolección de información personal
  • --- Muchas veces se le dice Data Mining a la actividad de los servicios de inteligencia (de gobiernos o empresas). Estas organizaciones probablemente usen Data Mining, pero la etapa recolección de información sin el consentimiento de sus dueños no involucra modelos ni técnicas estadísticas o algorítmicas, por lo que lo dejaría fuera de mi definición.
  • Recolección de mails de páginas web
  • --- En los sitios de ofertas de trabajo habitualmente surgen requerimientos de programas que recorran un sitio web extrayendo los mails (o los detalles de los productos de un catálogo, o cosa similar). Los llaman "trabajos de Data Mining", pero tampoco tiene nada que ver con lo que estamos tratando. (Tiene un nombre más preciso: web scraping)
¿Se entendió? :)  Ahora para satisfacer al lector más avanzado, dos apartaditos más técnicos:

¿Cuáles son las técnicas más importantes que se usan en Data Mining? Ordenadas por uso (de mayor a menor) según reporte de 2008 de Rexer Analytics:
¿Cuáles son los softwares más importantes que se usan en Data Mining? Ordenados por uso (de mayor a menor) según el mismo reporte:

No hay comentarios: