Je diagnostiquerai et résoudrai les problèmes de performance de votre cluster HPC
À propos de ce service
La plupart des clusters HPC fonctionnent à 30 à 40 % de leur capacité réelle.
Ce n’est pas parce que le matériel est défectueux. C’est parce que la configuration n’a jamais été optimisée pour la charge de travail réelle.
J’ai déjà diagnostiqué ce problème précis dans des institutions de recherche, des laboratoires d’IA et des équipes d’ingénierie. Les solutions se trouvent presque toujours dans le logiciel et la configuration, pas dans le matériel.
Ce que couvre l’audit :
Les lacunes de configuration de Slurm (DefMemPerCPU, cgroup, fairshare)
La santé du fabric InfiniBand et la validation de la vitesse des liens
Le débit du stockage (configuration de stripe Lustre/BeeGFS/NFS)
Le binding des processus MPI et la topologie NUMA
L’efficacité HPL par rapport au pic théorique
La santé des nœuds et la détection silencieuse de défaillances matérielles
Ce que vous recevrez :
Un diagnostic écrit avec une évaluation de la gravité pour chaque point
Les commandes exactes pour corriger chaque problème, avec les chiffres de benchmark avant/après
Un ordre de priorité : ce qu’il faut corriger en premier pour un impact maximal
Ce dont j’ai besoin de votre part : accès SSH au nœud de connexion, vos spécifications de cluster, et 2 heures de faible activité pour le benchmarking.
Délai de réalisation : 24 à 48 heures après réception de l’accès.
Appareil:
Serveur
Système opérateur:
Linux
