Je diagnostiquerai et résoudrai les problèmes de performance de votre cluster HPC

Certaines informations ont été traduites automatiquement.

Inde

Je parle Anglais

En tant qu’architecte de solutions HPC, j’ai configuré sept systèmes HPC en Inde, intégrant du matériel et des logiciels de pointe pour des tâches computationnelles exigeantes. Je me spécialise dans l...

Plus d’infos

À propos de ce service

La plupart des clusters HPC fonctionnent à 30 à 40 % de leur capacité réelle.

Ce n’est pas parce que le matériel est défectueux. C’est parce que la configuration n’a jamais été optimisée pour la charge de travail réelle.

J’ai déjà diagnostiqué ce problème précis dans des institutions de recherche, des laboratoires d’IA et des équipes d’ingénierie. Les solutions se trouvent presque toujours dans le logiciel et la configuration, pas dans le matériel.

Ce que couvre l’audit :

Les lacunes de configuration de Slurm (DefMemPerCPU, cgroup, fairshare)

La santé du fabric InfiniBand et la validation de la vitesse des liens

Le débit du stockage (configuration de stripe Lustre/BeeGFS/NFS)

Le binding des processus MPI et la topologie NUMA

L’efficacité HPL par rapport au pic théorique

La santé des nœuds et la détection silencieuse de défaillances matérielles

Ce que vous recevrez :

Un diagnostic écrit avec une évaluation de la gravité pour chaque point

Les commandes exactes pour corriger chaque problème, avec les chiffres de benchmark avant/après

Un ordre de priorité : ce qu’il faut corriger en premier pour un impact maximal

Ce dont j’ai besoin de votre part : accès SSH au nœud de connexion, vos spécifications de cluster, et 2 heures de faible activité pour le benchmarking.

Délai de réalisation : 24 à 48 heures après réception de l’accès.

Plus d’infos