Web Data Mining
La búsqueda de información no es lo único que podemos hacer con el internet si no que podemos compartir nuestro conocimiento también con el mundo. Podemos publicar información por medio de los diversos medios que nos ofrecen.
Con nuestro actual entorno y el avance del internet tenemos mucha información, más de la que podemos procesar. Con esto nacen los buscadores que nos permiten encontrar de forma más simple la información que requerimos para nuestras diferentes tareas.
Data Mining
Algunas de las características de la web para minería de datos son:
2. Todo tipo de tipos de información existe en la web. Estructuras de tablas, semi estructuras en páginas web, sin estructura simplemente texto, etc.
3. La información es muy heterogénea. Diversos autores de las páginas web, múltiples páginas web pueden presentar el mismo contenido pero con diferentes palabras y formas de expresarlo. Muchos formatos y formas diversas de mostrar la información.
4. Cierta cantidad de la información cuenta con links y está unida por medio de estas uniones. Estos pueden estar relacionados entre páginas y paginas de muchos diferentes sitios web.
5. En otros casos mucha de la información de la web esta con ruidos o sucia, esto porque mucho de los pedazos de la información vienen de diferentes sitios web. Además de anuncios links de otras páginas web, derechos de autor, políticas de privacidad, etc. Para alguna aplicación en particular solo un porción de esta información podría ser útil todo lo demás podría ser información no necesaria que provoca que esto sea información sucia. Y por otro lado la información de internet no cuenta con un control de cómo se crea esta o quiénes son los que la publican.
6. El internet se está centrando mucho a los servicios. Muchas de las paginas web permiten que los usuarios realicen tareas útiles en su sitio web, como venta de productos, pagar facturas, y llenado de formularios web.
7. La información con la que contamos en internet cambia rápidamente.
8. Internet es una sociedad virtual. Aquí no contamos solo con información, datos y servicios sino que también las personas pueden interactuar entre ellos. Las personas tienen muchas herramientas para realizar muchas tareas como la comunicación entre grandes distancias.
Las páginas web cuentan con una estructura básica que se llama DOM (Document Object Model). La estructura de la web es de un árbol donde cada uno de las etiquetas HTML son nodos del árbol del modelo. La información de las páginas web puede ser extraída de manera más fácil usando esta estructura de árbol.
Minería de Web
La minería de datos en la web puede categorizarse en 3 tipos:
• Web Content Mining: esta metodología busca información relevante dentro del contenido de las páginas web. Por ejemplo se pueden clasificar las páginas web dependiendo de los temas. También, se pueden encontrar patrones.
• Web Usager Mining: esta metodología nos permite encontrar patrones de los logs de las páginas web, el cual es alimentado con cada uno de los clics que dan los usuarios de las páginas web.
Estas grandes cantidades de información nos permiten generar muchas formas de patrones y búsquedas de información.
La complejidad de las páginas web y la flexibilidad hacen que la minería de datos sea un trabajo muy duro y la abstracción de información sea una tarea muy retadora. Por otro lado el cambio rápido de la información existente hace que los patrones puedan cambiar mucho y rápidamente.
Este es un campo que cuanta con muchas oportunidades para poder realizar muchos estudios y análisis. Los motores de búsqueda y los nuevos servicios que se están brindando con el internet hacen que se puedan hacer nuevos estudios de la web.
Bibliografía
Data mining concepts and techniques. Jiawei Han and Micheline Kamber.
Springer Web Data mining. Bing Liu