¿Qué es el KDD? Proceso del KDD (minería de datos o DataMining)

¿Qué es el KDD?
Es un proceso no trivial que identifica patrones validos,
previamente desconocidos, potencialmente utiles y
fundamentalmente entendibles en los datos. es como se
reconoce de manera teoria a la minería de datos
(DataMining).
Proceso del KDD (minería de datos o
DataMining)
Selección: obtencion de los datos de diversas fuentes.
Preprocesado: limpieza de datos.
Transformación: convertir todos los datos a un formato
común.
DataMining: obtenr los resultados deseados.
Interpretación: presentar los resultados al usuario de
manera adecuada.
Pablo Alberto Fernandes Fernandes, alumno de Recuperación
y Acceso a la Información, UC3M.
¿Qué es el WebMining?
Consiste en la aplicacion de las tecnicas de DataMining a
datos en la Web, con el proposito de extraer el conocimiento
de la Web (recuperación y acceso a la información).
Tipos de Datos en la WEB para aplicar
WebMining
-- Datos de Contenido ---> son los datos relacionados
con los textos las imagenes, el contenido propio de la pagina
Web.
-- Datos de Estructura ---> son los datos relacionados
con las etiquetas, y los hiperenlaces.
-- Datos de Utilización ---> son los datos de los logg de
http, logg del servidor, de utilizacion de la web, de accesos y
sus forma de acceder a las diferentes partes de la Web.
WebMining: Investigación.
En la investigacion de esta Tecnica convergen varias
disciplinas:
Bases de Datos (BD).
Recuperación de la Informacion (IR).
Inteligencia Artificial (AI).
Procesado Lenguaje Natural (NLP).
Pablo Alberto Fernandes Fernandes, alumno de Recuperación
y Acceso a la Información, UC3M.
¿Qué es el WebMining de Contenido?
Es un proceso de extración de informacion util, del
contenido de las paginas Web, tal como texto, imagenes,
audio, listas, tablas y otros. En este campo podemos
encontrar tecnicas como Recuperacion de la Informacion
(IR) y Procesado Lenguaje Natural (NLP).
Preprocesado del contenido: se realiza una extraccion
del texto del documento HTML, se calculan las palabras
frecuentes "StopWord", se calculan la Frecuencia de
palabras en una coleccion(DF), por ultimo se calcula la
frecuenciade terminos por el documento (TF). Por ultimo se
crea el Vector de pesos asociado a la pagina , utilizando la
tecnica de TF-IDF.
Técnicas del WebMining: las técnicas mas comunes en
el WebMining del Contenido de una Web son: la
clasificacion, el Clustering, y las Asociaciones. Otras ideas
significativas son: identificacion de un tema,relevancia del
contenido de la web.
Clasificación de Documentos: es parte del aprendizaje
supervisado, las categorías o clases existen a priori, y los
documentos Web se asignana a esta clases previas. El
entrenamiento se realiza a traves de documentos
previamente clasificados.
Agrupación de documentos: es parte del aprendizaje no
supervisado, los documentos se agurpan basandose en la
medida de similaridad, en este caso no existen clases
definidas previamente, para la similitud se utiliza los
vectores calculados en el preprocesado.
Aplicaciones: el WebMining en el contenido tiene
diferentes aplicaciones, entre ellas podemos destacar:
Identificación de temas en el documento Web.
Categorizar el documento.
Encontrar Web similares.
Relevancia Contenido.
¿Qué es el WebMining de Estructura?
Es un proceso de extración de informacion util, de la
estructura de las paginas Web, este proceso se puede llevar
a cabo a nivel de documento (intra-page) como a nivel de
hiperenlaces (inter-page).
Estudio de Hiperenlaces: los hiperenlaces sirven para la
navegacion, y poder apuntar a paginas con autoridad, que
hablan del mismo tema que nuestra pagina. Utilizando los
hiperenlaces se puede Recuperar informacion util de la web.
Tecnicas HITS: Hiperlink Induced Topic Seach. La idea
de esta tecnica es si un documento A tiene un enlace al
Documento B, entonces el autor de A piensa que el
documento B tiene informacion Valiosa.
Tecnicas PageRank: Prioriza los resultados de busqueda,
es utilizado por Google, es el rango de una pagina, este
rango depende de las paginas que te apuntan.
WebMining estructura Resumen: en este apartado
podemos destacar 3 puntos importantes:
-- Calidad de las paginas Web: Autoridad(hub & authotities),
Valoracion (pageRank Google).
-- Estructura interna: representacion de patrones
graficamente de promociones.
-- Clasificación de las paginas Web: identificar comunidades
Web.
¿Qué es el WebMining de Utilización?
Es un proceso de extración de informacion util, de la
actividad de los usuarios en linea, ademas exhibe un amplio
rango de patrones de comportamiento. el WebMining de
utilizacion es el descubrimiento de patrones utiles a partir
de los datos generados por las transacciones entre clienteservidor en uno o en mas sitios Web.
Datos de registro del servidor: por cada sesion de
navegacion se registran datos como, el registro de acceso, el
registro de errores, el registro de cookies.
Descubrimiento patrones uso: Dependiendo de los
datosse aplican diferentes tecnicas:
--Analisis estadistico
--Descubrimiento regla asociaión
--Agrupamiento
--Clasificación
--Patrones secuenciales
WebMining Ejemplos: Podemos destacar los siguientes
ejemplos:
-- Reglas de Asociación: "los clientes accedieron a productos
tambien accedieron a productos/deporte"
-- patrones secuenciales: "el 80% de los clientes acceden a la
web a traves de productos/deportes"
-- Clustering y Clasificacion: "los clientes descargan
software entre las 16:00 y las 19:00"
Pablo Alberto Fernandes Fernandes, alumno de Recuperación
y Acceso a la Información, UC3M.