Resumen
El término Big Data está cada vez más presente en el desarrollo de aplicaciones y servicios software en diferentes áreas de aplicación
como la salud o la economía digital. Suele utilizarse en su faceta más tecnológica asociado a soluciones software e infraestructuras
hardware para almacenar físicamente grandes volúmenes de datos de forma escalable. Su uso generalizado está haciendo que proliferen
las soluciones basadas en Big Data totalmente desconectadas entre sí, generando un significativo caos de datos. De nada sirve una
infraestructura tecnológica de alto rendimiento si no existen mecanismos adecuados para organizar y generar valor a partir de la
información almacenada.
Este proyecto se centra en analizar, formalizar y dar solución a los desafíos de carácter conceptual y metodológico que surgen a la hora
de desarrollar aplicaciones y servicios basados en Big Data en entornos industriales. Partiendo de una ontología que describa este
dominio sin ambigüedades y de los principios del desarrollo de software dirigido por modelos (DSDM), proponemos un método de
producción de software dirigido por modelos para el desarrollo de aplicaciones Big Data (DataME). El objetivo es definir modelos
conceptuales precisos y rigurosos que guíen el desarrollo de aplicaciones y servicios Big Data para proporcionar valor de negocio. Así,
introducimos la perspectiva empresarial sin centrarnos en parámetros tecnológicos de rendimiento y escalabilidad. Para definir este
método abordamos cuatro desafíos científicos de amplia relevancia:
(D1) Para garantizar el valor, debemos establecer una conceptualización precisa sobre qué información es relevante para las
organizaciones. Este análisis es habitualmente obviado, dando lugar a soluciones que no se ajustan a sus necesidades. Desde el punto
de vista metodológico es esencial alinear metas organizativas y solución tecnológica.
(D2) Generar conocimiento relevante en entornos de gran volumen sólo es factible una vez resuelta la heterogeneidad entre las diversas
fuentes de datos. Sin embargo, dicha integración debe garantizar la calidad de los datos para no generar conocimiento incorrecto. Para
abordar este desafío, introduciremos una estrategia de alineamiento conceptual que garantice la calidad de la información integrada y
permita el uso de la información relevante como un todo.
(D3) Detectar y seleccionar conocimiento relevante a partir de grandes volúmenes de datos solo será posible con mecanismos de
interacción que permitan al usuario final buscar y consultar información de manera sencilla y precisa. Identificar este tipo de interacciones
requiere de una perspectiva de modelado conceptual en la que los conceptos del dominio guían las operaciones de datos que serán
capaces de proporcionar valor para el usuario experto.
(D4) Asegurar la calidad y precisión de los resultados requiere de métodos de testing automatizados capaces de operar en escenarios
altamente distribuidos. Sin esta verificación, el Big Data puede convertirse en Bad Data, perturbando el conocimiento extraído. Para
afrontar este desafío, vemos un gran potencial en la aplicación de la herramienta de testing automatizado TESTAR (testar.org), fruto del
proyecto europeo FITTEST (Future Internet Testing).
El método DataME proporcionará una solución holística a los cuatro desafíos. Como aplicación industrial se validará el método en el
desarrollo de una herramienta para la gestión de información genómica con organizaciones relevantes del sector.