Minería de Textos y Web: Descubriendo Conocimiento en la Era Digital

Minería de Textos

Es la aplicación de la minería de datos (MD) a archivos de texto no estructurados o poco estructurados. La MD aprovecha la infraestructura de datos almacenados para extraer información adicional útil.

  • Por ejemplo, un analista puede descubrir, aplicando MD a una base de datos de clientes, que todas las personas que compran el producto A también compran B y C tres o seis meses más tarde.
  • La minería de textos actúa con información poco estructurada.
  • Los documentos, raramente, tienen una infraestructura interna fuerte y, cuando sucede, se centra en el formato del documento más que en el contenido.

Ventajas de la Minería de Textos

La minería de textos (MT) ayuda a las organizaciones a:

  • Encontrar el contenido de documentos «oculto», incluyendo relaciones adicionales útiles.
  • Relacionar documentos a través de estados anteriores imprevistos (por ejemplo, descubrir que los clientes de dos divisiones diferentes de productos tienen las mismas características).
  • Agrupar documentos por temas comunes (por ejemplo, todos los clientes de una aseguradora que tienen las mismas quejas y cancelan sus pólizas por estas razones).

Minería de Textos vs. Motores de Búsqueda

La MT no es lo mismo que un motor de búsqueda en la Web. En la búsqueda se intenta encontrar lo que otros han preparado. Con MT se descubren nuevos patrones, «minas» de conocimiento, que pueden no ser evidentes o conocidos.

Fuentes de Información para la Minería de Textos

  • Las organizaciones, de esta década, reconocen que una fuente competitiva importante es el conocimiento no estructurado contenido en los almacenes de conocimiento de las organizaciones, almacenados en formatos de:
    • Documentos
    • Memos
    • Correos electrónicos, faxes, chat
    • Políticas y procedimientos organizativos
    • Patentes
    • Propiedad intelectual
    • Archivos de audio, MP3, vídeo, etc.
    • Reuniones
    • Comisiones de trabajo
  • Toda esta información textual necesita ser codificada y extraída del repositorio para que las herramientas de minería de datos predictivas puedan ayudar a la organización a generar valor real.

Tipos de Minería de Texto

  • Minería de texto se utiliza, en algunos ambientes de negocios, como un término genérico para implicar todo tipo de procesamiento de texto. Tres especialidades se pueden considerar que han emergido en este campo:
    • Recuperación de la Información (consulta de texto, encontrar texto y presentación de información de texto).
    • Extracción de la información (Procesamiento de lenguaje natural y lingüística computacional se utilizan para analizar y procesar texto. Programas que proporcionan automáticamente resúmenes de documentos) www.newsinessence.com
    • Resúmenes de información: recupera o colecciona documentos de un número de nuevos sitios, crea clusters basados en temas y resume cada cluster.
    • Una de las aplicaciones más grandes de MT es la extracción de información en ciencias biológicas.

¿Cómo Minar Texto?

  • La extracción de términos es el formato más básico de MT.
  • Se «mapea» la información de datos no estructurados a formato estructurado.
  • Se utiliza un vector de características o listado ponderado de palabras. Se listan las palabras más importantes de un texto, junto con una medida de su importancia relativa:
    • Eliminar palabras utilizadas frecuentemente (el, la, los, etc.)
    • Reemplazar palabras con sus semillas o raíces (eliminar plurales, diferentes conjugaciones, etc.)
    • Considerar sinónimos y frases (por ejemplo, estudiante y pupilo, maestro y profesor, se pueden agrupar juntos).
    • Calcular los pesos de los términos restantes.
  • Calcular los pesos de los términos restantes. El método más común es calcular la frecuencia de aparición de la palabra. Existen dos medidas típicas: el término frecuencia, o factor tf, mide el número real de veces que una palabra aparece en un documento, y la frecuencia inversa del documento, factor idf, indica el número de veces que la palabra aparece en todos los documentos de un conjunto.

El razonamiento es que un factor tf grande aumenta el peso, mientras que un factor grande de idf lo disminuye, ya que los términos que aparecen más frecuentemente en todos los documentos serán palabras comunes y no se considerarán importantes.

Herramientas de Minería de Textos

  • Sistema para manipulación de documentos en formatos diferentes (texto completo, formatos de tratamiento de texto como Word, Google Docs, PDF) desde muchas fuentes diferentes (ficheros, Web, correos electrónicos, fax, etc.).
  • Componentes utilizados para procesar estos documentos y crear archivos de datos que puedan ser minados («divisores de frases, analizadores de textos», etc.).

Herramientas de minería de datos tales como algoritmos de cluster, algoritmos clasificadores, algoritmos de búsqueda, etc.

  • «Frameworks open source» para las tareas anteriores:
    • gate.ac.uk (University of Sheffield, UK)
    • UIMA, … research.ibm.com/UIMA
  • Herramientas populares de minería de textos:
    • SAS Text Miner (sas.com)
    • IBM Intelligent Miner for Text (ibm.com)
    • SPSS Lexiquest (spss.com)
    • Insightful Miner for Text (insightful.com)
    • Megaputer Intelligence TextAnalyst (megaputer.com)
    • StatSoft Data Miner (statsoft.com)

Estructura de la Web

  • La WWW consta de páginas conectadas por enlaces (links).
  • Una página consta normalmente de múltiples elementos de contenido, tales como texto, imágenes, audio, enlaces a otras páginas.
  • Un servidor Web proporciona acceso a cada uno de esos elementos.
  • La representación utilizada para minería de estructura es un grafo (realmente un grafo dirigido ya que los enlaces van en una dirección de una página a otra).

El grafo ideal mapeará todos los enlaces que conectan todos los documentos de la Web completa.

  • En el lenguaje matemático, la WWW es un grafo dirigido. Cada página es un nodo de este grafo y cada enlace es un arco. El grafo es dirigido porque un enlace de la página A a la página B no implica un enlace correspondiente de la página B a la página A.

Por ejemplo, un grafo que representa un sitio Demo puede tener cada página que incluya un enlace de retorno a la página principal (home). La mayoría de los enlaces permanecen dentro del mismo sitio, pero la página Demo3, por ejemplo, puede incluir enlaces a páginas de otros sitios tales como Demo1 y Demo2.

Conteo de las Citaciones

  • En el mundo académico, no basta con la publicación de un artículo o libro en una revista y que haya sido revisado entre pares, sino que es muy importante que éste sea citado.
  • La principal evidencia de la utilidad de un artículo o libro es el número de veces que es referenciado o citado en la bibliografía de otros artículos o libros.
  • Autores específicos se convierten en autoridades en una materia en función del número de citaciones a dicho trabajo.
  • La estructura global de la web funciona de igual manera, teniendo presente los enlaces que se realizan sobre la página web concreta.
  • Sitios web de referencia: Alexa, ComScore, Nielsen NetRating, etc.

Minería Web

  • Se puede definir como el descubrimiento y análisis de información interesante y útil de la Web, acerca de la Web y normalmente con herramientas Web.
  • La Web es quizás el depósito de datos/textos más grande y la cantidad de información en la Web crece día a día.
  • Información interesante en la «home page» que se enlaza con otras páginas, hiperenlaces, recorrido de las navegaciones, etc.

Se clasifica en: Minería de contenido, Minería de estructuras y Minería de uso.

  • Web Mining (WM) tiene el problema de que trabaja con datos desestructurados, lo que no permite utilizar los algoritmos de Data Mining. Se trata de documentos de texto libre (correos electrónicos, faxes, chat, boletines, etc., audio, vídeo) que pueden incluir ficheros de todo tipo.
  • Más aún, si se trata de páginas personales (o blogs) que incluyen información temáticamente variada y lo que se pretende son análisis semánticos y textuales.
  • Definición de WM: «Extracción de información latente a través de la W3«. Abarca estudios de contextos, enlaces para la mejora de relevancia.

«Es el conjunto de técnicas para la recuperación de información en grandes espacios hipertextuales desestructurados y que se centran más en la información incluida y latente en los hiperenlaces y en la estructura del documento que en lo que actualmente se entiende como contenido textual de las páginas web.»

  • El término WM se utiliza de tres formas:
    • Describir el proceso de descubrimiento de recursos informativos y/o documentales de todos los existentes en la W3.
    • El análisis de accesos a la W3 u otras formas de visualización y acceso de los usuarios a la información web.
    • El proceso de inferencia, detección y representación de estructuras informativas creadas por las relaciones que forman las propias fuentes web.

Estructura del Web Mining

  • Análisis de la topología de enlaces mediante técnicas cuantitativas.
  • Análisis estadístico del texto o del contenido semántico (text mining) mediante análisis de concurrencia, reconocimiento de estructuras.
  • Análisis de los informes sobre el número de enlaces por usuario, máquina (uso de la web mining).

Diseño de interfaz de usuario. Técnicas de visualización (árboles hiperbólicos, mapas auto-organizativos a través de redes neuronales, etc.)

Tipos de Minería en Web

  • Minería de contenido: Se refiere a la extracción de información útil de las páginas Web.
  • Minería de estructura: Se refiere al desarrollo de información útil de los enlaces incluidos en los documentos Web.
  • Minería de uso: Se refiere a la extracción útil de los datos que están siendo generados a través de las visitas a páginas web, transacciones, etc.

Minería de Contenido

  • Minería de contenido es el proceso de extraer información útil del texto, imágenes y otras formas de contenido incluido en las páginas Web.
  • ¿Qué páginas están escritas en alemán, en español, etc.? Los motores de búsqueda, agentes inteligentes, y motores de recomendación emplean minería de contenido para ayudar a los usuarios a encontrar necesidades reales en la Web.

Los documentos pueden ser extraídos en algún formato legible por la máquina de modo que las técnicas automatizadas puedan generar alguna información acerca de las páginas Web.

  • Los crawlers (arañas, orugas) se utilizan para leer automáticamente el contenido de un sitio web. Son «Programas que visitan sitios Web y recogen información de acuerdo a alguno de los criterios generales. Luego la información es indexada para posteriormente poder ser utilizada por varios usuarios».
  • La información automatizada puede incluir características de documentos similares a los utilizados en minería de texto, pero también pueden incluir conceptos adicionales tales como jerarquía de documentos.

La minería web de contenido se puede utilizar también para mejorar los resultados producidos por los motores de búsqueda.

Caso práctico de Web Mining

Un sistema de visualización puede tomar los resultados de una búsqueda y, a partir de un motor de búsqueda tal como Google, lee los 100 documentos top, agrupa estos documentos mediante procesos con la herramienta Intelligent Text Miner, y a continuación presenta los resultados en un formato gráfico basado en vistas diferentes.

Tipos de Minería Web

  • Minería de estructuras es el proceso de extracción de información útil de la topología de la Web – los enlaces entre páginas. ¿Qué páginas son los destinos de enlaces desde muchas otras páginas? ¿Qué páginas apuntan a muchas otras? ¿Qué colecciones de páginas forman islas?
  • Esta información es útil para determinar, por ejemplo, la popularidad de un documento en motores como Google, en el algoritmo page-rank.
  • De igual forma que los enlaces que van a un documento pueden indicar la popularidad de los documentos, los enlaces dentro del documento pueden incluir la profundidad de la cobertura de un tema.
  • Mecanismos hubs y authorities (algoritmo de Kleinberg):
    • Hubs son páginas que apuntan a muchas autoridades en el campo.
    • Authorities pages son aquellas que están enlazadas por muchos hubs.
    • Se trata de diferenciar entre «autoridad» y mera popularidad.
  • Una buena comprensión de la estructura de un sitio Web es útil para determinar cuáles páginas deben ser añadidas a una colección de sitios Web.
  • Una duplicación significativa de enlaces Web en una página puede sugerir que no se necesita enlazar a dos sitios diferentes.

Minería de estructura proporciona información útil de los enlaces incluidos en los documentos Web.

  • Esta información puede ser útil para determinar la popularidad de un documento, elemento clave del algoritmo de page-rank de motores de búsqueda tales como Google.

Identifica mecanismos para encontrar «hubs» y «authorities» a través del análisis de hiperenlaces. Hubs son páginas que apuntan a muchas autoridades del campo. Páginas autoridad son aquellas que están enlazadas por muchos hubs.

Minería de Uso

  • Minería de uso se refiere a extraer información útil de los datos que están siendo generados a través de visitas a la página web, transacciones, etc. Existen al menos tres tipos de datos que son generados a través de visitas a una página web:
    • Datos generados automáticamente y almacenados en el servidor a través de logs de acceso, log referrer, log agent y cookies del lado del cliente.
    • Perfiles de usuario.
    • Metadatos tales como atributos de páginas, atributos de contenidos y datos de uso.

Minería de uso es el proceso de extracción de información sobre cómo las personas que recorren esos enlaces con sus navegadores hacen uso de ellos. ¿Qué páginas visitan? ¿Cuánto tiempo permanecen en cada página? ¿Cuántos hacen clic en la siguiente? ¿Qué caminos conducen a la salida? ¿Al contador de páginas?

Clickstream Analysis

  • El análisis de la información recogida de los servidores Web ayuda a comprender el comportamiento del usuario.
  • Utilizando técnicas de minería de datos, una compañía puede poder discernir patrones interesantes a partir del análisis de clics. Por ejemplo, puede aprender que 70% de los visitantes de Madrid que buscan «hoteles en Madrid» también buscan «el museo del Prado» o «comer en Casa Lucio». Esta información puede ser útil para decidir dónde colocar publicidad en línea.
  • También puede ser útil para conocer cuándo los visitantes acceden a un sitio: por ejemplo, si se conoce que el 70% de las descargas de software de su sitio ocurren entre las 8 y 12 pm hora española, puede planear tener mejor apoyo al cliente y mejores anchos de banda en esas horas, pensar que son clientes americanos, etc.
Ejemplos de Uso de Web Mining
  • Determinar el valor del tiempo de vida de los clientes.
  • Diseñar estrategia de marketing cruzado de productos.
  • Evaluar campañas promocionales.
  • Comportamiento de grupos de usuarios basados en patrones de acceso.
  • Predecir comportamiento de usuario basado en reglas aprendidas con anterioridad y perfiles de usuario.
  • Presentar información dinámica a usuarios basada en sus intereses y perfiles.

Tipos de Minería Web (Amazon)

  • Amazon proporciona un magnífico ejemplo de cómo el uso de la Web se puede potenciar dinámicamente.
  • Un usuario registrado que vuelve a visitar amazon.com es saludado por su nombre.
  • Es una tarea simple que implica reconocer al usuario leyendo un cookie (por ejemplo, un pequeño archivo de texto escrito por un sitio web en el computador del visitante).
  • También presenta al usuario una elección de productos de un almacén personalizado, basado en compras anteriores y en un análisis de asociación de usuarios similares.
  • «Gold Box» para ahorro de tiempo en visitas y compras.
  • Otras recomendaciones y software para análisis de páginas Web:
    • kdnuggets.com/software/web-mining.html

Software de Minería de Uso

  • ClickTracks clicktracks.com:
    • Se pueden mostrar patrones de visitantes en el sitio Web.
  • LiveStats from DeepMetrix deepmetrix.com:
    • Análisis de log en tiempo real, demos en vivo del sitio.
  • Megaputer WebAnalyst megaputer.com/products/wm.php3: Capacidad de minería de datos y de texto.
  • MicroStrategy Web Traffic Analysis Module microstrategy.com/Solutions/Applications/WTAM: Detalles de tráfico, análisis de contenido, informes de análisis de visitantes.
  • SAS Web Analytics sas.com/solutions/webanalytics: Analiza tráfico de sitios Web.
  • SPSS Web Mining for Clementine spss.com/web_mining_for_clementine: Extracción de eventos Web.
  • WebTrends webtrends.com: Minería de datos de información de tráfico en la Web.
  • Salford Systems salfordsystems.com.

Ejemplo de Personalización Utilizando Minería de Uso en Web

(Falta información)

Referencias Web

  • Teradata University teradatastudentnetwork.com
  • DM Review dmreview.com
  • SAS sas.com (buscar whitepaper of applications)
  • SPSS spss.com (buscar whitepaper of applications)
  • Teradata teradata.com (buscar whitepaper of applications)
  • Kdnuggets kdnuggets.com (buscar información de software y paquetes de aplicación)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.