Je vais configurer un cluster HPC Linux avec openhpc, slurm et infiniband
À propos de ce service
Configurer correctement un cluster HPC dès le départ permet d’économiser des mois de débogage et d’éviter la dette de configuration qui cause 80 % des problèmes de performance du cluster par la suite.
J’ai commandé des clusters HPC allant de 4 à 600 nœuds dans le cadre de la Mission nationale de supercalcul en Inde, du matériel nu à l’acceptation HPL.
Stack complet avec lequel je travaille :
Provisioning : Warewulf 4, xCAT, PXE
Système d’exploitation : Rocky Linux 8/9, AlmaLinux, CentOS Stream
Planificateur : Slurm avec comptabilité complète et cgroup
MPI : OpenMPI, IntelMPI, MVAPICH2
Réseau : InfiniBand HDR/NDR/EDR, Ethernet RDMA
Stockage : Lustre, BeeGFS, GPFS, NFS
Surveillance : Grafana, Prometheus, Ganglia
Ce que vous recevez :
Nœuds de calcul entièrement provisionnés
File d’attente Slurm opérationnelle avec des jobs de test vérifiés
Réseau InfiniBand validé avec ibdiagnet
Test MPI hello world et bande passante réussi
Documentation complète de la configuration
Appel de transfert pour vous guider dans le système
Avant de commander : envoyez-moi par message le nombre de nœuds, les spécifications matérielles et les charges de travail que vous prévoyez d’exécuter. Je confirmerai la faisabilité et le calendrier avant que vous ne payiez.
Serveur:
Autres
Système opérateur:
Linux
