Resumen
Este proyecto persigue el desarrollo de una plataforma para el despliegue de entornos de procesamiento de datos masivos (Big Data) y
de entornos de Computación de Altas Prestaciones basados en contenedores, suplementados con capacidades de elasticidad, a través
de múltiples infraestructuras Cloud que persiguen la optimización de recursos energéticos y de cómputo. También se persigue aislar la
ejecución trabajos y el acceso a hardware de computación específica (e.g. GPGPUs, FPGAs) mediante contenedores.
En primer lugar, el proyecto dotará a las infraestructuras Cloud on-premises de servicios avanzados de Green Computing combinados
con técnicas de elasticidad vertical (memory ballooning y CPU bursting), junto al desarrollo de algoritmos para optimizar el número de
recursos hardware en función de la carga de trabajo. También se abordará el uso de redes virtuales dinámicamente configuradas
(Software Defined Networks) para desplegar infraestructuras híbridas que se extiendan entre diferentes Clouds.
En segundo lugar, se abordará el diseño e implementación de modelos de elasticidad para diferentes frameworks de Big Data,
principalmente Apache Hadoop y Spark; para diferentes plataformas de orquestación de contenedores, como es el caso de Apache
Mesos y Docker Swarm y herramientas de cómputo de altas prestaciones, como es el caso de HTCondor. Esto permitirá adaptar de forma
dinámica los nodos necesarios para cada uno de los diferentes frameworks e incorporará elasticidad en la nube a herramientas
ampliamente utilizadas en el ámbito científico y empresarial. Esto posibilita un reducido consumo de recursos que se traduce en un menor
consumo energético en el caso de desplegar sobre plataformas Cloud on-premises y en un menor gasto económico cuando se utilizan
Cloud públicos como Amazon Web Services (AWS) o Microsoft Azure.
En tercer lugar se desarrollará una plataforma de código abierto, basada en estándares, expuesta a través de APIs e interfaces web para
el despliegue automatizado de los frameworks sobre diferentes infraestructuras Cloud, incluyendo despliegues híbridos entre Clouds.
Finalmente, el proyecto introducirá contenedores, principalmente LXC y Docker, en el ámbito de la Computación de Altas Prestaciones
para conseguir aislamientos efectivos de cargas de trabajo sobre clusters de PCs. Esto permitirá resolver los problemas derivados de
soportar múltiples aplicaciones, con librerías potencialmente incompatibles y posibilitando la migración de trabajos entre infraestructuras
utilizando checkpointing. También se abordarán mecanismos eficientes para la encapsulación de cargas de trabajo y que requieren
hardware específico como es el caso de FPGAs y GPGPUs. Finalmente, el proyecto aplicará estos resultados sobre cuatro casos de uso
con interés tanto para investigación como para la empresa (Biomarcadores de Imagen, recomendación de rutas de transporte, cálculo
estructural y análisis genómico), y que validarán los diferentes escenarios tecnológicos abordados.
En definitiva, la realización de este ambicioso proyecto supondrá el diseño, implementación, despliegue y validación de una plataforma
abierta para el aprovisionamiento automatizado de entornos elásticos de cómputo y procesamiento de datos masivo en multi-Clouds, así
como una mejora de las plataformas Cloud on-premises orientados a una racionalización del consumo de recursos, redundando en un
menor consumo energético, así como el aislamiento de cargas de trabajo mediante contenedores.