Explora I+D+i UPV

Volver atrás Software

ContentOrNot: Clasificación Inteligente de Páginas Web para una Extracción de Contenidos más Precisa

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
En un entorno digital saturado de información, muchas empresas dependen de herramientas de minería web para extraer datos valiosos de páginas web. Sin embargo, un reto persistente reside en la clasificación de las páginas: diferenciar entre aquellas que contienen contenido relevante (artículos, noticias, informes) y las que solo ofrecen navegación (páginas índice). Cuando esta distinción no se realiza adecuadamente, se corre el riesgo de alimentar procesos automáticos con información incompleta o irrelevante, lo que impacta negativamente en la calidad de los análisis posteriores. Actualmente, muchas soluciones requieren configuraciones personalizadas o información previa del sitio para realizar esta clasificación, lo que las vuelve lentas y poco escalables. ContentOrNot elimina esta dependencia gracias a su capacidad para analizar y clasificar cualquier página web ¿sin importar su estructura, idioma o diseño¿ como índice o artículo, todo mediante una extensión ligera y fácil de instalar en navegadores modernos basados en Chromium o Firefox. Con una precisión de clasificación superior al 97%, ContentOrNot se presenta como una herramienta imprescindible para empresas que gestionan grandes volúmenes de datos web y necesitan automatizar su preprocesamiento con eficiencia. Su implementación es rápida y no requiere infraestructura adicional: basta con instalar la extensión en el navegador y comenzar a utilizarla de inmediato. Compatible con Windows, macOS y Linux, ContentOrNot es una solución multiplataforma, universal y lista para escalar.

Más información:

Ficha técnica

Tipo de tecnología

SOFTWARE

Responsable contacto

Silva Galiana Josep Francesc