MINERIA DE DATOS 6.- Interpretación y evaluación de datos 5

MINERIA DE DATOS
(Data Mining)

Definición
- Es una nueva tecnología de manejo y análisis de información que aprovecha la
capacidad existente hoy día de procesamiento, almacenamiento y transmisión de
datos a gran velocidad y bajo costo.
- Es un conjunto de técnicas que consisten en la extracción no trivial de información
que existe de manera implícita en grandes volúmenes de datos.
- Es un conjunto de técnicas destinadas a la extracción de conocimiento procesable
implícito en las bases de datos.
- Es un conjunto de herramientas que sirven para descubir patrones y aplicar
conocimiento a la toma de decisiones concretas y a diferentes dominios del
conocimiento.

Objetivo
- Es extraer información interesante/útil a partir de datos. En muchos casos esta
información tiene la forma de patrones no evidentes en los datos y, dependiendo de
su complejidad, puede llegarse a hablar de conocimiento
- Implica una preparación y una exploración de los datos para descubrir patrones de
información, nuevo conocimiento, etc.
 Proceso
Un proceso típico de minería de datos consta de los siguientes pasos generales:
1.- Selección del conjunto de datos
2.- Análisis del conjunto de datos,
3.- Transformación del conjunto de datos de entrada
4.- Seleccionar y aplicar la técnica de minería de datos
5.- Extracción de conocimiento
6.- Interpretación y evaluación de datos
1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
2.
3.
4.
5.
6.

independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al
muestreo de los registros disponibles.
Análisis del conjunto de datos, en especial los histogramas, diagramas de dispersión,
presencia de valores atípicos y ausencia de datos (valores nulos).
Transformación del conjunto de datos de entrada, se realizará de diversas formas en
función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de
minería de datos que mejor se adapte a los datos y al problema.
Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de comportamiento observados en
los valores de las variables del problema o relaciones de asociación entre dichas
variables.
Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a
su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se
ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Técnicas
Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la
estadística, dichas técnicas, no son más que algoritmos, que se aplican sobre un conjunto
de datos para obtener unos resultados.
Las técnicas más representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático
inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de
un sistema de interconexión de neuronas en una red que colabora para producir un
estímulo de salida.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse
más de 2 variables.
Árboles de decisión.- Es un modelo de predicción utilizado en el ámbito de la
inteligencia artificial, dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción basados en reglas,
que sirven para representar y categorizar una serie de condiciones que suceden de
forma sucesiva, para la resolución de un problema.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación
que se emplea en todos los diseños experimentales y en la regresión para indicar los
diferentes factores que modifican la variable de respuesta.
Agrupamiento.- Es un procedimiento de agrupación de una serie de vectores según
criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de
forma que estén más cercanos aquellos que tengan características comunes.

Casos de Exitos
Caso 01: Terrorismo
El FBI del gobierno norteamericano ha realizado investigaciones sobre grandes bases de
datos con la finalidad de detectar terroristas potenciales; esto es, se ha metido a grandes
bases de datos del sector comercial para estudiar los hábitos y preferencias de compra de
los consumidores, con la intención de detectar posibles terroristas potenciales y
descubrirlos antes de que ejecuten un acto.
En consorcios bancarios para detectar fraudes con tarjetas de crédito, tarjetas de debito y
tarjetas de otro tipo como las de combustible, tarjetas telefónicas. El sistema utilizado
para este fin ha logrado ahorrar más de 600 millones de Dólares al año y ha protegido
más de 500 mil millones de operaciones con tarjeta en todo el mundo.
En una compañía operadora de telefonía celular, buscando las causas de la deserción de
sus clientes, se analiza el perfil del cliente que se da de baja y se estudia el posible
comportamiento de clientes nuevos. En este caso se analizan los datos personales del
cliente; estado civil, sexo, edad, religión, grado de estudio, estrato ocupacional,
gnacionalidad, etc. Y se analizan también las variables; morosidad, horario de uso,
frecuencia de uso, proporción de llamadas locales, nacionales, internacionales y gratuitas.
Se encontró que los clientes que desertaron pertenecían al grupo de los menos
promovidos y tenían menos incidencias que la media general entonces, en base a las
tendencias encontradas se diseñó un nuevo sistema de promociones y de atención al
cliente.
En una tienda departamental se pueden conocer ciertos hábitos de los clientes, con
respecto al tipo y clase de productos que compran con mayor frecuencia y si estas
compras guardan alguna asociación entre diversos productos, por ejemplo, botanas con
cerveza.
Las cadenas de televisión pueden estimar con bastante confiabilidad el rating de un
programa determinado, el horario más adecuado al tipo y contenido del programa.
Caso 02: Juegos
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales, también llamados finales de juego de tablero (por
ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de
inicio, se ha abierto una nueva área en la minería de datos que consiste en la extracción
de estrategias utilizadas por personas para estos oráculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al
funcionamiento de estos oráculos. En su lugar, la producción de patrones perspicaces se
basa en una amplia experimentación con bases de datos sobre esos finales de juego,
combinado con un estudio intensivo de los propios finales de juego en problemas bien
diseñados y con conocimiento de la técnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el
juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez.
Caso 03: Control del Fraude Aduanero
A nivel de aduanas también se está utilizando la minería de datos para identificar
patrones de riesgo sospechosos, en muchos casos más complicados que los que un
experto humano podría detectar, para identificar el fraude aduanero, por ejemplo, en
América Latina, la Aduana del Perú (Superintendencia de Administración Tributaria,
SUNAT) es la primera administración aduanera que ha utilizado con éxito la minería de
datos para luchar contra el fraude aduanero logrando una mejor detección de la
subvaloración de mercancías incrementando hasta en 14 puntos porcentuales el éxito en
los hallazgos en el Proceso de Selección de Canales de Control al utilizar un sistema
informático de inteligencia de negocios, conocido como SAS, que hace uso de
herramientas de minería de datos (2).
Esto se logró al cruzar la información de las oficinas de impuestos internos con las de
aduanas, lo que ha permitido generar un perfil de los evasores de impuestos así como de
los importadores que subfacturan sus importaciones.
Otro ejemplo importante del uso de la minería de datos en aduanas lo constituye China
que desde su incorporación a la Organización Mundial del Comercio a finales del 2001 ha
visto incrementarse aceleradamente la cantidad de mercancías que la aduana debe
revisar, alcanzando en el 2002 el quinto lugar a nivel mundial en intercambio comercial
(3). Este incremento del comercio internacional involucró un aumento del riesgo de
defraudación por lo que la Aduana China optó por implementar un sistema informático,
llamado EAS, que aplica técnicas estadísticas de minería de datos capaces de analizar la
gran cantidad de información generadas por el aumento de los despachos. De esta forma,
el sistema EAS, ha permitido detectar riesgos administrativos hasta entonces no
detectados, incrementando los impuestos recuperados en los primeros dos años de su
aplicación en $20 millones.
Otro tanto están poniendo en práctica las administraciones de aduanas de los Balcanes
Occidentales (Albania, Macedonia y Serbia) que están poniendo a prueba un sistema de
aseguramiento del riesgo aduanero llamado RACWEB basado en un enfoque de minería
de datos que se espera complemente a los sistemas de aduanas y asista a los
controladores humanos en la lucha contra el fraude en el trasiego de mercancías
haciendo mas eficiente el control aduanero por medio de una asignación de los criterios
de riesgo basados en técnicas estadísticas de minería de datos.
En nuestro caso, la Dirección de Fiscalización, mediante el Área de Investigación y
Desarrollo del Laboratorio Aduanero, ha empezado a utilizar técnicas de minería de datos,
aplicándolas a la comprobación del origen de las mercancías, mediante el análisis de datos
de composición fisicoquímica, obteniéndose resultados preliminares positivos en
muestras de destilados alcohólicos tipo vodkas (5) y varillas de construcción.
Como se ve la tendencia mundial, motivada por el incremento del comercio internacional,
y la gran cantidad de datos que se procesan, está dirigida hacia el uso de sistemas
inteligentes que puedan asistir a las administraciones aduaneras en el proceso del control
aduanero de una manera más eficiente y creativa, permitiendo detectar nuevas y cada
vez mas sofisticadas formas de fraude aduanero.

Comentario Personal
Hoy en dia el cliente es el rey en las organizaciones, a él se debe el éxito o fracaso, esto
conlleva a las organizaciones a buscar formas adecuada para su fidelizacion. Para eso se
requiere mantener una constante comunicación con el cliente, pero el cliente no es
partidario de entrevistas o llenado de encuestas, no tiene tiempo, pero si deja toda la
información cuando realiza sus operaciones de compra o hace sus pedidos, dando lugar a
la generación de grandes bases de datos. Es ahí que las organizaciones pueden conocer
las necesidades de sus cliente hábitos, gustos, costumbres, preferencias, etc. dando lugar
a la generación del conocimiento, a través de esto se puede dar uso a la tecnología
minería de datos que permitirá extraer todo el conocimiento de dichos clientes para saber
que quiere, como lo quiere, que prefiere, que necesita para así ofrecerle con precisión lo
que con seguridad va a comprar, se requiere entonces capacidad rápida de respuesta y
flexibilidad para ajustarnos a la velocidad de cambio de los mercados actuales de manera
que estemos siempre en ventaja competitiva.
FUENTES:
 http://www.disi.unal.edu.co/~fgonza/courses/2008-II/mineria/
 http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
 http://www.scribd.com/doc/11352087/Mineria-de-Datos-en-Aduanas
 http://www.ingenieria.buap.mx/DOCUMENTOS/REVISTA/REV_11/art_4.pdf