Y por eso viene el óxido

por | Mar 30, 2025 | Blog | 0 comentarios

Este mes ha sido bastante complicado. Quedé con mis amigos para ver en un bar la ida del Real Madrid – Atlético de Madrid en la eliminatoria de la liga de campeones. Dejé mi plumas en un gancho pero cuando terminó el partido un cenutrio se llevó mi plumas, con mis llaves y un usb con mi CV completo, dirección incluida. Cómo tras un par de días no lo devolvió, me cogí vacaciones para poner la denuncia, llamar al seguro, esperar a que me cambiaran el bombín, quedarme en casa mientras esperaba a que vinieran a cambiarlo, etc… Por supuesto, en cuando cogí vacaciones, al día siguiente se cayó todo el clúster. Así que en cuanto pude tuve que venir a ver que había pasado (a pesar de estar de vacaciones) Además como fui un viernes y tenía un montón de trabajo acumulado apenas me dio tiempo a examinar los BMC (Baseboard Management Controller) y todos los nodos de la partición se habían apagado con el mismo tipo de error. Uno además no lograba arrancar. Arranqué y puse de nuevo el clúster a funcionar y me fui. Cuando llegué el lunes todos los nodos se habían caído de nuevo. Me puse serio a mirar los logs del gestor y vi que todos caían cuando entraban trabajos pertenecientes al mismo usuario. cancelé esos trabajos y le dije al usuario que no mandara ese código al clúster y que me lo mandara a mí. De momento, el clúster sigue funcionando sin fallos. Arreglamos el servidor roto, al que hubo que cambiarle un riser y la tarjeta Infiniband. Y todavía estoy esperando a que el usuario me mande ese código. Que es un código en python y no debería provocar tales fallos. Pero seguro que usa librerías que utilizan C a bajo nivel porque es necesario para que tenga un alto rendimiento. Y ahí provocará casi seguro un fallo de memoria. Por eso están ganando terreno lenguajes como Rust, que están diseñados para tener un acceso seguro a memoria. Pero en HPC el rendimiento suele ser (o solía ser, si no no se usaría python) fundamental y eso va a lastrar su incorporación.

Conclusión, a usar Fortran 😉

Written by Emilio Ambite

Related Posts

La peor pesadilla de un sysadmin

Hay muchas cosas que preocupan a un administrador de sistemas, caídas de los sistemas, servidores averiados, problemas en la red, vulnerabilidades de seguridad... Pero lo peor que puede pasar es perder los datos del almacenamiento, pero si además ese almacenamiento es...

Cuidado con los bugs

Dice la leyenda que el 9 de septiembre de 1947, la física y matemática Grace Murray Hopper y informó de que el ordenador sufrió un fallo en el relé electromagnético #70 del panel F. Cuando se investigó ese relé, el equipo encontró una polilla (bug) electrocutada que...

0 comentarios

Enviar comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Utilizamos cookies en este sitio para mejorar su experiencia de usuario. Más información

ACEPTAR
Aviso de cookies