MEW: Extracción Inteligente de Contenido Web para Empresas Digitales

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

¿Quieres contarnos tu reto? Pincha aquí y te ayudamos a encontrar una solución

En un entorno digital donde las páginas web están saturadas de elementos decorativos, banners, menús y anuncios, acceder rápidamente al contenido principal es crucial para buscadores, herramientas SEO, sistemas de análisis y plataformas de accesibilidad. Estos agentes, al enfrentarse a información irrelevante, consumen más recursos, pierden precisión y ralentizan sus procesos, afectando la eficiencia operativa y la experiencia de usuario. Actualmente, las técnicas más comunes de extracción, como el scraping basado en reglas o los modelos de machine learning, requieren mantenimiento constante, configuración manual o grandes volúmenes de datos etiquetados. Esto las hace poco escalables y costosas a largo plazo. MEW resuelve este problema con un enfoque estructural automatizado y universal. Analiza el árbol DOM de cualquier página web, clasifica sus elementos usando métricas estadísticas, y distingue con alta precisión el contenido principal del irrelevante, sin requerir entrenamiento previo ni conocimiento del sitio. Opera como servicio web (SaaS) y devuelve el resultado en formato texto, HTML o JSON, incluyendo metadatos como autor, imagen y fecha. La herramienta presenta una cobertura del 94,9% y una precisión del 96,3%, con respuestas en solo 2 segundos por URL. Requisitos técnicos: No requiere instalación local; solo es necesario acceso a la API, una conexión a internet y un navegador moderno para interactuar con su documentación (vía Swagger). Compatible con cualquier sistema operativo gracias a su arquitectura 100% web.

Más información:

Ficha técnica

Tipo de tecnología

SOFTWARE

Inventores

Galindo Jiménez Carlos Santiago, Silva Galiana Josep Francesc, Martín Abellán Carlos, Alarte Aleixandre Julián

Responsable contacto

Silva Galiana Josep Francesc