Crawling, adquisición e indexación de datos de Internet

Internet se ha convertido en el mayor repositorio de información distribuida y heterogénea que existe. En Internet, al igual que en una biblioteca, es tan importante el almacenamiento de información como el poder disponer de un sistema que permita localizar, acceder y recopilar la información que satisface las necesidades de un usuario. Para ello, se utilizan técnicas de crawling.

Estas técnicas consisten en recorrer páginas web para construir índices, a partir de los cuales se puedan hacer búsquedas sobre su contenido.

Dentro de este ámbito, el grupo Pattern Recognition and Human Language Technologies (PRHLT) de la UPV cuenta con una gran experiencia en técnicas de crawling y adquisición de datos de internet, debido a su participación en proyectos nacionales e internacionales.

Aplicaciones

  • Crear informes de cambios de una página web
  • Realizar estudios estadísticos sobre el uso de un determinado término en páginas web
  • Enviar mensajes de correo electrónico cuando se añaden noticias en una página de noticias

Ventajas técnicas

Beneficios que aporta

  • Rapidez en la adquisición de información

Experiencia relevante

  • El grupo Pattern Recognition and Human Language Technologies (PRHLT) cuenta con experiencia en técnicas de crawling y adquisición de datos de internet, debido a su participación en proyectos nacionales e internacionales.