Explora I+D+i UPV

Volver atrás Software

CESy: Software detector y Extractor del contenido principal de páginas web

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
Las páginas web contienen componentes que forman la plantilla de la página y que está habitualmente formada por menús, elementos de navegación, encabezados, pies de página, banners, etc. normalmente considerados ¿contenido irrelevante¿. La información relevante, por el contrario, se corresponde con el contenido principal de la página, el cual puede estar formado por texto, imágenes, videos, animaciones, o cualquier otro tipo de contenido de interés para el usuario. Dado que las páginas web son extremadamente heterogéneas, incluso en el caso de páginas web que utilizan el mismo sistema de gestión de contenido, la tarea de extraer bloques de información de una página web, como por ejemplo el contenido principal, el menú, o la plantilla, no es una tarea trivial. Por tanto, para la extracción de información relevante, se necesita aplicar técnicas capaces de extraer aquellos bloques de información de diversa naturaleza mostrados habitualmente en la página web y de los cuales no se conoce a priori la plantilla, la estructura o el contenido. El potencial de la presente técnica de extracción de contenido principal de páginas web se basa en que es independiente de la página web a la que se aplique, es decir, el funcionamiento de la misma no se ve influido por aspectos como la estructura, el diseño, el idioma, etc. de la página. De esta forma, puede ser aplicada de forma universal a cualquier tipo de página web. Durante los últimos 20 años se han propuesto diversas soluciones para la extracción del contenido principal de páginas web. Dado que el contenido principal suele contener una alta densidad de texto, las primeras soluciones que se planteaban se basaban en la detección de las áreas de la página web donde se concentraba la mayor cantidad de texto. Además, como el contenido principal de las páginas web suele ubicarse en la parte central de las mismas, también se plantearon soluciones que analizaban una vista renderizada de la página para inferir el contenido principal. Las soluciones presentadas recientemente se basan en su gran mayoría en algoritmos de aprendizaje automático, los cuales son entrenados para la detección del texto que forma parte del contenido principal de la página. La presente técnica plantea un algoritmo de detección del contenido principal. Analiza la página web y agrupa sus nodos en base a diversas características previamente estudiadas. Los nodos cuyas características son distintas a la mayoría de los nodos de la página representan el contenido principal de la misma. Además de los buenos resultados obtenidos por la técnica, una diferencia sustancial de la misma con las diversas técnicas existentes es que la presente técnica es capaz de extraer cualquier tipo de contenido principal, es decir, no es únicamente capaz de extraer texto de las páginas web, sino que puede extraer cualquier tipo de contenido como por ejemplo imágenes, animaciones, vídeos, etc. La técnica ha sido comparada con las técnicas más importantes existentes y los resultados obtenidos son superiores en la mayoría de los casos. Este software es independiente del sistema operativo.

Más información:

Ficha técnica

Tipo de tecnología

SOFTWARE

Responsable contacto

Silva Galiana Josep Francesc

Más resultados en Institut Universitari Valencià d'investigació en Intel·ligència Artificial con la cadena de busqueda "Aprendizaje automático"

  • Servicios de I+D

    Sistemas de comunicación oral hombre-máquina

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Servicios de I+D

    Desarrollo de sistemas de aprendizaje automático

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Servicios de I+D

    Desarrollo de tecnologías de procesamiento del lenguaje d...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Servicios de I+D

    Desarrollo de soluciones para el procesamiento de ¿Grande...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Servicios de I+D

    Adaptación de sentencias judiciales a Lectura Fácil media...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Reconocimiento de actividad

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Aprendizaje automático, ciencia de datos y minería de datos

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Inferencia gramatical, autómatas y lenguajes formales

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Redes neuronales y aprendizaje profundo

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Programación inductiva y probabilística, machine teaching

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Límites computacionales de la IA

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    IA en la bioinformática y en las ciencias biomédicas

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Interacción humano-sistema auto-adaptativa

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    IA en las Ciencias de la Salud

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    IAE aplicada en las Ciencias de la Salud

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Líneas de investigación

    Inteligencia Artificial Explicable (IAE)

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Software

    SPA-Sentences: Entrenamiento y evaluación de sistemas de ...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Software

    pyTLK: enlaces de Python para el kit de herramientas tran...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Software

    SENTAT: Análisis de los sentimientos en tuits en español

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Software

    PLANTILLO: Dispositivo detector de enfermedades en planta...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    PREDICTF: Desarrollo de una Herramienta de Aprendizaje Au...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    Integración de IoT con Participación Humana y Tecnologías...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    Sistema de mapeo del dolor crónico, con análisis multidim...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    Subtitulado automático multilingüe para transmisión en di...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    DESCUBRIENDO EL SIGNIFICADO Y LA INTENCIÓN MÁS ALLÁ DE LA...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    DOBLAJE AUTOMÁTICO CROSLINGÜE EN TIEMPO REAL DE CONTENIDO...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    MÉTODOS FORMALES ESCALABLES PARA APLICACIONES REALES

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    INGENIERIA DEL SOFTWARE AVANZADA PARA LA CONSTRUCCION DE ...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    INGENIERIA DEL SOFTWARE AVANZADA PARA LA CONSTRUCCION DE ...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    RECONOCIMIENTO DE ACTIVIDADES Y PLANIFICACION AUTOMATICA ...

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    RECURSOS MULTILINGUES ABIERTOS PARA EDUCACION

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial

  • Proyectos

    SOLUCIONES EFECTIVAS BASADAS EN LA LOGICA

    Institut Universitari Valencià d'investigació en Intel·ligència Artificial