Explora I+D+i UPV

Volver atrás Software

MEW: Extracción Inteligente de Contenido Web para Empresas Digitales

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
En un entorno digital donde las páginas web están saturadas de elementos decorativos, banners, menús y anuncios, acceder rápidamente al contenido principal es crucial para buscadores, herramientas SEO, sistemas de análisis y plataformas de accesibilidad. Estos agentes, al enfrentarse a información irrelevante, consumen más recursos, pierden precisión y ralentizan sus procesos, afectando la eficiencia operativa y la experiencia de usuario. Actualmente, las técnicas más comunes de extracción, como el scraping basado en reglas o los modelos de machine learning, requieren mantenimiento constante, configuración manual o grandes volúmenes de datos etiquetados. Esto las hace poco escalables y costosas a largo plazo. MEW resuelve este problema con un enfoque estructural automatizado y universal. Analiza el árbol DOM de cualquier página web, clasifica sus elementos usando métricas estadísticas, y distingue con alta precisión el contenido principal del irrelevante, sin requerir entrenamiento previo ni conocimiento del sitio. Opera como servicio web (SaaS) y devuelve el resultado en formato texto, HTML o JSON, incluyendo metadatos como autor, imagen y fecha. La herramienta presenta una cobertura del 94,9% y una precisión del 96,3%, con respuestas en solo 2 segundos por URL. Requisitos técnicos: No requiere instalación local; solo es necesario acceso a la API, una conexión a internet y un navegador moderno para interactuar con su documentación (vía Swagger). Compatible con cualquier sistema operativo gracias a su arquitectura 100% web.

Más información:

Ficha técnica

Tipo de tecnología

SOFTWARE

Responsable contacto

Silva Galiana Josep Francesc