COMPUTACION BIG DATA Y DE ALTAS PRESTACIONES SOBRE MULTI-CLOUDS ELASTICOS

Año de inicio 2016
Organismo financiador AGENCIA ESTATAL DE INVESTIGACION
Tipo de proyecto INV. COMPETITIVA PROYECTOS
Responsable científico Moltó Martínez Germán
Resumen Este proyecto persigue el desarrollo de una plataforma para el despliegue de entornos de procesamiento de datos masivos (Big Data) y de entornos de Computación de Altas Prestaciones basados en contenedores, suplementados con capacidades de elasticidad, a través de múltiples infraestructuras Cloud que persiguen la optimización de recursos energéticos y de cómputo. También se persigue aislar la ejecución trabajos y el acceso a hardware de computación específica (e.g. GPGPUs, FPGAs) mediante contenedores. En primer lugar, el proyecto dotará a las infraestructuras Cloud on-premises de servicios avanzados de Green Computing combinados con técnicas de elasticidad vertical (memory ballooning y CPU bursting), junto al desarrollo de algoritmos para optimizar el número de recursos hardware en función de la carga de trabajo. También se abordará el uso de redes virtuales dinámicamente configuradas (Software Defined Networks) para desplegar infraestructuras híbridas que se extiendan entre diferentes Clouds. En segundo lugar, se abordará el diseño e implementación de modelos de elasticidad para diferentes frameworks de Big Data, principalmente Apache Hadoop y Spark; para diferentes plataformas de orquestación de contenedores, como es el caso de Apache Mesos y Docker Swarm y herramientas de cómputo de altas prestaciones, como es el caso de HTCondor. Esto permitirá adaptar de forma dinámica los nodos necesarios para cada uno de los diferentes frameworks e incorporará elasticidad en la nube a herramientas ampliamente utilizadas en el ámbito científico y empresarial. Esto posibilita un reducido consumo de recursos que se traduce en un menor consumo energético en el caso de desplegar sobre plataformas Cloud on-premises y en un menor gasto económico cuando se utilizan Cloud públicos como Amazon Web Services (AWS) o Microsoft Azure. En tercer lugar se desarrollará una plataforma de código abierto, basada en estándares, expuesta a través de APIs e interfaces web para el despliegue automatizado de los frameworks sobre diferentes infraestructuras Cloud, incluyendo despliegues híbridos entre Clouds. Finalmente, el proyecto introducirá contenedores, principalmente LXC y Docker, en el ámbito de la Computación de Altas Prestaciones para conseguir aislamientos efectivos de cargas de trabajo sobre clusters de PCs. Esto permitirá resolver los problemas derivados de soportar múltiples aplicaciones, con librerías potencialmente incompatibles y posibilitando la migración de trabajos entre infraestructuras utilizando checkpointing. También se abordarán mecanismos eficientes para la encapsulación de cargas de trabajo y que requieren hardware específico como es el caso de FPGAs y GPGPUs. Finalmente, el proyecto aplicará estos resultados sobre cuatro casos de uso con interés tanto para investigación como para la empresa (Biomarcadores de Imagen, recomendación de rutas de transporte, cálculo estructural y análisis genómico), y que validarán los diferentes escenarios tecnológicos abordados. En definitiva, la realización de este ambicioso proyecto supondrá el diseño, implementación, despliegue y validación de una plataforma abierta para el aprovisionamiento automatizado de entornos elásticos de cómputo y procesamiento de datos masivo en multi-Clouds, así como una mejora de las plataformas Cloud on-premises orientados a una racionalización del consumo de recursos, redundando en un menor consumo energético, así como el aislamiento de cargas de trabajo mediante contenedores.