Las páginas web contienen componentes que forman la plantilla de la página y que está habitualmente formada por menús, elementos de navegación, encabezados, pies de página, banners, etc. normalmente considerados ¿contenido irrelevante¿. La información relevante, por el contrario, se corresponde con el contenido principal de la página, el cual puede estar formado por texto, imágenes, videos, animaciones, o cualquier otro tipo de contenido de interés para el usuario. Dado que las páginas web son extremadamente heterogéneas, incluso en el caso de páginas web que utilizan el mismo sistema de gestión de contenido, la tarea de extraer bloques de información de una página web, como por ejemplo el contenido principal, el menú, o la plantilla, no es una tarea trivial. Por tanto, para la extracción de información relevante, se necesita aplicar técnicas capaces de extraer aquellos bloques de información de diversa naturaleza mostrados habitualmente en la página web y de los cuales no se conoce a priori la plantilla, la estructura o el contenido. El potencial de la presente técnica de extracción de contenido principal de páginas web se basa en que es independiente de la página web a la que se aplique, es decir, el funcionamiento de la misma no se ve influido por aspectos como la estructura, el diseño, el idioma, etc. de la página. De esta forma, puede ser aplicada de forma universal a cualquier tipo de página web.
Durante los últimos 20 años se han propuesto diversas soluciones para la extracción del contenido principal de páginas web. Dado que el contenido principal suele contener una alta densidad de texto, las primeras soluciones que se planteaban se basaban en la detección de las áreas de la página web donde se concentraba la mayor cantidad de texto. Además, como el contenido principal de las páginas web suele ubicarse en la parte central de las mismas, también se plantearon soluciones que analizaban una vista renderizada de la página para inferir el contenido principal. Las soluciones presentadas recientemente se basan en su gran mayoría en algoritmos de aprendizaje automático, los cuales son entrenados para la detección del texto que forma parte del contenido principal de la página. La presente técnica plantea un algoritmo de detección del contenido principal. Analiza la página web y agrupa sus nodos en base a diversas características previamente estudiadas. Los nodos cuyas características son distintas a la mayoría de los nodos de la página representan el contenido principal de la misma. Además de los buenos resultados obtenidos por la técnica, una diferencia sustancial de la misma con las diversas técnicas existentes es que la presente técnica es capaz de extraer cualquier tipo de contenido principal, es decir, no es únicamente capaz de extraer texto de las páginas web, sino que puede extraer cualquier tipo de contenido como por ejemplo imágenes, animaciones, vídeos, etc. La técnica ha sido comparada con las técnicas más importantes existentes y los resultados obtenidos son superiores en la mayoría de los casos. Este software es independiente del sistema operativo.
Más información: