Resumen
El objetivo global es ser capaces de obtener datos clínicos de informes desestructurados de forma automática para ser utilizados posteriormente en la práctica clínica y en proyectos de investigación.
Para ello se evaluarán distintos modelos de lenguaje natural que reconocen patrones y poder identificar palabras clave y obtener esta información de manera automática.
Se utilizará como estudio piloto datos de informes radiológicos de diagnóstico de cáncer de próstata.
Los datos de imagen se combinan con su información clínica asociada (los valores de los diferentes marcadores obtenidos en las analíticas, información contenida en los informes diagnósticos quirúrgicos y de otras especialidades como radioterapia, oncología donde se recoge información demográfica, antecedentes personales y familiares de cáncer, tratamientos recibidos, toxicidades, seguimiento y recaídas, entre otros.
Esta información, que hasta hace menos de una década estaba en formato papel, ha sufrido una transformación vertiginosa hacia su digitalización, en todos los servicios sanitarios. Sin embargo, este avance plantea varios retos, puesto que cada Comunidad Autónoma en España dispone, en muchas ocasiones, de sistemas informáticos y bases de datos diferentes. Actualmente se dispone de información fragmentada y dispersa en distintos informes de formatos diversos, con diferente calidad de la información recogida que dificulta su utilización de forma eficiente para la investigación.
Para poder abordar este gran reto, son numerosas las iniciativas nacionales e internacionales que se están llevando a cabo, donde el dato y su acceso de manera digital, masiva y segura es el eje central de toda investigación. La Unión Europea, en su reciente programa de Horizonte Europa, da prioridad a la financiación de proyectos de investigación cuyo foco sea la recopilación, almacenamiento y gestión sostenible de datos clínicos estructurados para su posterior explotación en proyectos de investigación y con la finalidad última de contribuir a la medicina personalizada. Dentro de la inteligencia artificial, el procesamiento de lenguaje natural (NLP) es la principal tarea de la lingüística computacional. Un análisis automático sobre cualquier tipo de texto permite clasificar, organizar, buscar o descubrir información no explícita, agilizando tareas que se realizan manualmente por personal experto, e identificando los elementos más relevantes de un escrito.
Esta información estructurada también beneficia a los clínicos, puesto que genera informes más precisos, sin repeticiones, ni errores, y con una forma estructura que mejora su comprensión y análisis.