Comparativa de políticas de selección de GPUs remotas en clusters HPC

Autores UPV
Año
CONGRESO Comparativa de políticas de selección de GPUs remotas en clusters HPC

Abstract

La notable evolución que han sufrido las unidades de procesamiento gráfico (GPUs), unido a la buena relación coste/prestaciones que ofrecen y también a la excelente relación prestaciones/energía que presentan, ha hecho que la computación basada en estos dispositivos se haya generalizado en la actualidad. Sin embargo, aunque las GPUs presentan numerosas ventajas, también tienen algunos inconvenientes. Uno de ellos es que, en general, presentan una baja utilización. Con el fin de aumentar la utilización de estos aceleradores se han creado diversos entornos de virtualización de GPUs. Entre ellos destaca rCUDA por ser el más moderno y proporcionar las mejores prestaciones. rCUDA permite a un proceso que se está ejecutando en un nodo del cluster usar GPUs remotas que se encuentras en otro nodo. No obstante, al entorno de virtualización de GPUs debe acompañarle el correspondiente planificador de trabajos del cluster, como SLURM, el cual necesita ser extendido para que pueda planificar de forma adecuada el uso de las GPUs remotas. En este trabajo presentamos un estudio en el que extendemos SLURM para que utilice diferentes políticas para asignar GPUs remotas a trabajos. La evaluación de prestaciones se ha llevado a cabo en un cluster compuesto por 9 nodos interconectados por InfiniBand FDR. Cada nodo posee una GPU NVIDIA Tesla K20.