¿Qué es el KDD? Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente utiles y fundamentalmente entendibles en los datos. es como se reconoce de manera teoria a la minería de datos (DataMining). Proceso del KDD (minería de datos o DataMining) Selección: obtencion de los datos de diversas fuentes. Preprocesado: limpieza de datos. Transformación: convertir todos los datos a un formato común. DataMining: obtenr los resultados deseados. Interpretación: presentar los resultados al usuario de manera adecuada. Pablo Alberto Fernandes Fernandes, alumno de Recuperación y Acceso a la Información, UC3M. ¿Qué es el WebMining? Consiste en la aplicacion de las tecnicas de DataMining a datos en la Web, con el proposito de extraer el conocimiento de la Web (recuperación y acceso a la información). Tipos de Datos en la WEB para aplicar WebMining -- Datos de Contenido ---> son los datos relacionados con los textos las imagenes, el contenido propio de la pagina Web. -- Datos de Estructura ---> son los datos relacionados con las etiquetas, y los hiperenlaces. -- Datos de Utilización ---> son los datos de los logg de http, logg del servidor, de utilizacion de la web, de accesos y sus forma de acceder a las diferentes partes de la Web. WebMining: Investigación. En la investigacion de esta Tecnica convergen varias disciplinas: Bases de Datos (BD). Recuperación de la Informacion (IR). Inteligencia Artificial (AI). Procesado Lenguaje Natural (NLP). Pablo Alberto Fernandes Fernandes, alumno de Recuperación y Acceso a la Información, UC3M. ¿Qué es el WebMining de Contenido? Es un proceso de extración de informacion util, del contenido de las paginas Web, tal como texto, imagenes, audio, listas, tablas y otros. En este campo podemos encontrar tecnicas como Recuperacion de la Informacion (IR) y Procesado Lenguaje Natural (NLP). Preprocesado del contenido: se realiza una extraccion del texto del documento HTML, se calculan las palabras frecuentes "StopWord", se calculan la Frecuencia de palabras en una coleccion(DF), por ultimo se calcula la frecuenciade terminos por el documento (TF). Por ultimo se crea el Vector de pesos asociado a la pagina , utilizando la tecnica de TF-IDF. Técnicas del WebMining: las técnicas mas comunes en el WebMining del Contenido de una Web son: la clasificacion, el Clustering, y las Asociaciones. Otras ideas significativas son: identificacion de un tema,relevancia del contenido de la web. Clasificación de Documentos: es parte del aprendizaje supervisado, las categorías o clases existen a priori, y los documentos Web se asignana a esta clases previas. El entrenamiento se realiza a traves de documentos previamente clasificados. Agrupación de documentos: es parte del aprendizaje no supervisado, los documentos se agurpan basandose en la medida de similaridad, en este caso no existen clases definidas previamente, para la similitud se utiliza los vectores calculados en el preprocesado. Aplicaciones: el WebMining en el contenido tiene diferentes aplicaciones, entre ellas podemos destacar: Identificación de temas en el documento Web. Categorizar el documento. Encontrar Web similares. Relevancia Contenido. ¿Qué es el WebMining de Estructura? Es un proceso de extración de informacion util, de la estructura de las paginas Web, este proceso se puede llevar a cabo a nivel de documento (intra-page) como a nivel de hiperenlaces (inter-page). Estudio de Hiperenlaces: los hiperenlaces sirven para la navegacion, y poder apuntar a paginas con autoridad, que hablan del mismo tema que nuestra pagina. Utilizando los hiperenlaces se puede Recuperar informacion util de la web. Tecnicas HITS: Hiperlink Induced Topic Seach. La idea de esta tecnica es si un documento A tiene un enlace al Documento B, entonces el autor de A piensa que el documento B tiene informacion Valiosa. Tecnicas PageRank: Prioriza los resultados de busqueda, es utilizado por Google, es el rango de una pagina, este rango depende de las paginas que te apuntan. WebMining estructura Resumen: en este apartado podemos destacar 3 puntos importantes: -- Calidad de las paginas Web: Autoridad(hub & authotities), Valoracion (pageRank Google). -- Estructura interna: representacion de patrones graficamente de promociones. -- Clasificación de las paginas Web: identificar comunidades Web. ¿Qué es el WebMining de Utilización? Es un proceso de extración de informacion util, de la actividad de los usuarios en linea, ademas exhibe un amplio rango de patrones de comportamiento. el WebMining de utilizacion es el descubrimiento de patrones utiles a partir de los datos generados por las transacciones entre clienteservidor en uno o en mas sitios Web. Datos de registro del servidor: por cada sesion de navegacion se registran datos como, el registro de acceso, el registro de errores, el registro de cookies. Descubrimiento patrones uso: Dependiendo de los datosse aplican diferentes tecnicas: --Analisis estadistico --Descubrimiento regla asociaión --Agrupamiento --Clasificación --Patrones secuenciales WebMining Ejemplos: Podemos destacar los siguientes ejemplos: -- Reglas de Asociación: "los clientes accedieron a productos tambien accedieron a productos/deporte" -- patrones secuenciales: "el 80% de los clientes acceden a la web a traves de productos/deportes" -- Clustering y Clasificacion: "los clientes descargan software entre las 16:00 y las 19:00" Pablo Alberto Fernandes Fernandes, alumno de Recuperación y Acceso a la Información, UC3M.
© Copyright 2025