Este mes ha sido bastante complicado. Quedé con mis amigos para ver en un bar la ida del Real Madrid – Atlético de Madrid en la eliminatoria de la liga de campeones. Dejé mi plumas en un gancho pero cuando terminó el partido un cenutrio se llevó mi plumas, con mis llaves y un usb con mi CV completo, dirección incluida. Cómo tras un par de días no lo devolvió, me cogí vacaciones para poner la denuncia, llamar al seguro, esperar a que me cambiaran el bombín, quedarme en casa mientras esperaba a que vinieran a cambiarlo, etc… Por supuesto, en cuando cogí vacaciones, al día siguiente se cayó todo el clúster. Así que en cuanto pude tuve que venir a ver que había pasado (a pesar de estar de vacaciones) Además como fui un viernes y tenía un montón de trabajo acumulado apenas me dio tiempo a examinar los BMC (Baseboard Management Controller) y todos los nodos de la partición se habían apagado con el mismo tipo de error. Uno además no lograba arrancar. Arranqué y puse de nuevo el clúster a funcionar y me fui. Cuando llegué el lunes todos los nodos se habían caído de nuevo. Me puse serio a mirar los logs del gestor y vi que todos caían cuando entraban trabajos pertenecientes al mismo usuario. cancelé esos trabajos y le dije al usuario que no mandara ese código al clúster y que me lo mandara a mí. De momento, el clúster sigue funcionando sin fallos. Arreglamos el servidor roto, al que hubo que cambiarle un riser y la tarjeta Infiniband. Y todavía estoy esperando a que el usuario me mande ese código. Que es un código en python y no debería provocar tales fallos. Pero seguro que usa librerías que utilizan C a bajo nivel porque es necesario para que tenga un alto rendimiento. Y ahí provocará casi seguro un fallo de memoria. Por eso están ganando terreno lenguajes como Rust, que están diseñados para tener un acceso seguro a memoria. Pero en HPC el rendimiento suele ser (o solía ser, si no no se usaría python) fundamental y eso va a lastrar su incorporación.
Conclusión, a usar Fortran 😉
0 comentarios