Je concevrai des tableaux de bord Grafana professionnels pour Kubernetes, Linux et HPC
Ingénieur en systèmes HPC et Linux à haute performance
À propos de ce service
À propos de cette offre
Optimisez votre infrastructure ! Obtenez une visibilité de niveau entreprise avec des tableaux de bord Grafana personnalisés conçus par un expert en AI & HPC.
Dans l'AI et le calcul haute performance, la performance est essentielle. Je crée des stacks d'observabilité avancés pour des environnements complexes. Que vous gériez un cluster d'entraînement AI, Kubernetes (K8s), ou un système HPC Linux, je fournis les insights en temps réel dont vous avez besoin.
Ce que je propose :
- Surveillance HPC & AI : Métriques approfondies pour l'utilisation GPU (NVIDIA/AMD), jobs Slurm, et InfiniBand.
- Observabilité Kubernetes : Surveillance complète pour K8s (GKE, EKS, AKS) axée sur la santé des ressources et la mise à l'échelle.
- Maîtrise Linux : Tableaux de bord détaillés pour CPU, RAM, disque I/O, et débit réseau.
- Alertes intelligentes : Configuration d'alertes Slack ou Email pour détecter précocement les goulets d'étranglement.
- PromQL avancé : Requêtes Prometheus expertes pour une visualisation rapide des données.
Pourquoi me choisir ?
Spécialiste AI : Je comprends la formation LLM et les charges de travail d'inférence AI. Performance HPC : Tableaux de bord optimisés pour un grand volume de données. Technologies modernes : Expert en Prometheus, Loki, et OpenTelemetry.
Transformons vos métriques brutes en performances exploitables dès aujourd'hui !
Mon portfolio
FAQ
Traduction automatique
Pouvez-vous surveiller l'utilisation GPU pour l'entraînement de modèles AI ?
Oui ! Je me spécialise dans le suivi des métriques GPU NVIDIA et AMD, y compris l'utilisation mémoire, la température et la consommation d'énergie. Cela est essentiel pour optimiser les clusters d'entraînement AI et assurer un fonctionnement efficace de votre matériel.
Quelles sources de données prenez-vous en charge ?
Je travaille avec une large gamme de sources de données, notamment Prometheus, VictoriaMetrics, InfluxDB, Loki (pour les logs), et des outils cloud-native comme AWS CloudWatch et Google Stackdriver. Je peux également intégrer des exportateurs de métriques AI/ML personnalisés.
Pouvez-vous configurer des alertes pour Slack ou Email ?
Absolument. Je configure des règles d'alerte intelligentes pour vous notifier immédiatement en cas de charge élevée CPU/GPU, de crash de pod dans Kubernetes ou d'échec de job dans votre cluster HPC. Je peux aussi mettre en place une gestion des rotations d'astreinte.
Supportez-vous les planificateurs HPC comme Slurm ?
Oui. Je peux créer des tableaux de bord qui visualisent les files d'attente de jobs Slurm, la disponibilité des nœuds et la santé des partitions. Cela offre aux administrateurs HPC et chercheurs une vue claire de l'utilisation de leur cluster.
Dois-je fournir le serveur pour Grafana ?
Je peux travailler avec votre configuration existante ou vous aider à déployer une nouvelle instance sur AWS, GCP, Azure ou Bare Metal. Je supporte également Grafana Cloud si vous préférez une solution gérée.

