MINERIA DE DATOS (Data Mining) Definición - Es una nueva tecnología de manejo y análisis de información que aprovecha la capacidad existente hoy día de procesamiento, almacenamiento y transmisión de datos a gran velocidad y bajo costo. - Es un conjunto de técnicas que consisten en la extracción no trivial de información que existe de manera implícita en grandes volúmenes de datos. - Es un conjunto de técnicas destinadas a la extracción de conocimiento procesable implícito en las bases de datos. - Es un conjunto de herramientas que sirven para descubir patrones y aplicar conocimiento a la toma de decisiones concretas y a diferentes dominios del conocimiento. Objetivo - Es extraer información interesante/útil a partir de datos. En muchos casos esta información tiene la forma de patrones no evidentes en los datos y, dependiendo de su complejidad, puede llegarse a hablar de conocimiento - Implica una preparación y una exploración de los datos para descubrir patrones de información, nuevo conocimiento, etc. Proceso Un proceso típico de minería de datos consta de los siguientes pasos generales: 1.- Selección del conjunto de datos 2.- Análisis del conjunto de datos, 3.- Transformación del conjunto de datos de entrada 4.- Seleccionar y aplicar la técnica de minería de datos 5.- Extracción de conocimiento 6.- Interpretación y evaluación de datos 1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables 2. 3. 4. 5. 6. independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles. Análisis del conjunto de datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos). Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Técnicas Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Árboles de decisión.- Es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Casos de Exitos Caso 01: Terrorismo El FBI del gobierno norteamericano ha realizado investigaciones sobre grandes bases de datos con la finalidad de detectar terroristas potenciales; esto es, se ha metido a grandes bases de datos del sector comercial para estudiar los hábitos y preferencias de compra de los consumidores, con la intención de detectar posibles terroristas potenciales y descubrirlos antes de que ejecuten un acto. En consorcios bancarios para detectar fraudes con tarjetas de crédito, tarjetas de debito y tarjetas de otro tipo como las de combustible, tarjetas telefónicas. El sistema utilizado para este fin ha logrado ahorrar más de 600 millones de Dólares al año y ha protegido más de 500 mil millones de operaciones con tarjeta en todo el mundo. En una compañía operadora de telefonía celular, buscando las causas de la deserción de sus clientes, se analiza el perfil del cliente que se da de baja y se estudia el posible comportamiento de clientes nuevos. En este caso se analizan los datos personales del cliente; estado civil, sexo, edad, religión, grado de estudio, estrato ocupacional, gnacionalidad, etc. Y se analizan también las variables; morosidad, horario de uso, frecuencia de uso, proporción de llamadas locales, nacionales, internacionales y gratuitas. Se encontró que los clientes que desertaron pertenecían al grupo de los menos promovidos y tenían menos incidencias que la media general entonces, en base a las tendencias encontradas se diseñó un nuevo sistema de promociones y de atención al cliente. En una tienda departamental se pueden conocer ciertos hábitos de los clientes, con respecto al tipo y clase de productos que compran con mayor frecuencia y si estas compras guardan alguna asociación entre diversos productos, por ejemplo, botanas con cerveza. Las cadenas de televisión pueden estimar con bastante confiabilidad el rating de un programa determinado, el horario más adecuado al tipo y contenido del programa. Caso 02: Juegos Desde comienzos de la década de 1960, con la disponibilidad de oráculos para determinados juegos combinacionales, también llamados finales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de inicio, se ha abierto una nueva área en la minería de datos que consiste en la extracción de estrategias utilizadas por personas para estos oráculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al funcionamiento de estos oráculos. En su lugar, la producción de patrones perspicaces se basa en una amplia experimentación con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseñados y con conocimiento de la técnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en finales de ajedrez. Caso 03: Control del Fraude Aduanero A nivel de aduanas también se está utilizando la minería de datos para identificar patrones de riesgo sospechosos, en muchos casos más complicados que los que un experto humano podría detectar, para identificar el fraude aduanero, por ejemplo, en América Latina, la Aduana del Perú (Superintendencia de Administración Tributaria, SUNAT) es la primera administración aduanera que ha utilizado con éxito la minería de datos para luchar contra el fraude aduanero logrando una mejor detección de la subvaloración de mercancías incrementando hasta en 14 puntos porcentuales el éxito en los hallazgos en el Proceso de Selección de Canales de Control al utilizar un sistema informático de inteligencia de negocios, conocido como SAS, que hace uso de herramientas de minería de datos (2). Esto se logró al cruzar la información de las oficinas de impuestos internos con las de aduanas, lo que ha permitido generar un perfil de los evasores de impuestos así como de los importadores que subfacturan sus importaciones. Otro ejemplo importante del uso de la minería de datos en aduanas lo constituye China que desde su incorporación a la Organización Mundial del Comercio a finales del 2001 ha visto incrementarse aceleradamente la cantidad de mercancías que la aduana debe revisar, alcanzando en el 2002 el quinto lugar a nivel mundial en intercambio comercial (3). Este incremento del comercio internacional involucró un aumento del riesgo de defraudación por lo que la Aduana China optó por implementar un sistema informático, llamado EAS, que aplica técnicas estadísticas de minería de datos capaces de analizar la gran cantidad de información generadas por el aumento de los despachos. De esta forma, el sistema EAS, ha permitido detectar riesgos administrativos hasta entonces no detectados, incrementando los impuestos recuperados en los primeros dos años de su aplicación en $20 millones. Otro tanto están poniendo en práctica las administraciones de aduanas de los Balcanes Occidentales (Albania, Macedonia y Serbia) que están poniendo a prueba un sistema de aseguramiento del riesgo aduanero llamado RACWEB basado en un enfoque de minería de datos que se espera complemente a los sistemas de aduanas y asista a los controladores humanos en la lucha contra el fraude en el trasiego de mercancías haciendo mas eficiente el control aduanero por medio de una asignación de los criterios de riesgo basados en técnicas estadísticas de minería de datos. En nuestro caso, la Dirección de Fiscalización, mediante el Área de Investigación y Desarrollo del Laboratorio Aduanero, ha empezado a utilizar técnicas de minería de datos, aplicándolas a la comprobación del origen de las mercancías, mediante el análisis de datos de composición fisicoquímica, obteniéndose resultados preliminares positivos en muestras de destilados alcohólicos tipo vodkas (5) y varillas de construcción. Como se ve la tendencia mundial, motivada por el incremento del comercio internacional, y la gran cantidad de datos que se procesan, está dirigida hacia el uso de sistemas inteligentes que puedan asistir a las administraciones aduaneras en el proceso del control aduanero de una manera más eficiente y creativa, permitiendo detectar nuevas y cada vez mas sofisticadas formas de fraude aduanero. Comentario Personal Hoy en dia el cliente es el rey en las organizaciones, a él se debe el éxito o fracaso, esto conlleva a las organizaciones a buscar formas adecuada para su fidelizacion. Para eso se requiere mantener una constante comunicación con el cliente, pero el cliente no es partidario de entrevistas o llenado de encuestas, no tiene tiempo, pero si deja toda la información cuando realiza sus operaciones de compra o hace sus pedidos, dando lugar a la generación de grandes bases de datos. Es ahí que las organizaciones pueden conocer las necesidades de sus cliente hábitos, gustos, costumbres, preferencias, etc. dando lugar a la generación del conocimiento, a través de esto se puede dar uso a la tecnología minería de datos que permitirá extraer todo el conocimiento de dichos clientes para saber que quiere, como lo quiere, que prefiere, que necesita para así ofrecerle con precisión lo que con seguridad va a comprar, se requiere entonces capacidad rápida de respuesta y flexibilidad para ajustarnos a la velocidad de cambio de los mercados actuales de manera que estemos siempre en ventaja competitiva. FUENTES: http://www.disi.unal.edu.co/~fgonza/courses/2008-II/mineria/ http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://www.scribd.com/doc/11352087/Mineria-de-Datos-en-Aduanas http://www.ingenieria.buap.mx/DOCUMENTOS/REVISTA/REV_11/art_4.pdf
© Copyright 2024