Je fournirai des conseils en aiops et sre pour devops et la fiabilité du cloud
Ingénieur en infrastructure GPU LLMOps NVIDIA Kubernetes Neo Cloud
À propos de ce service
Vous déployez des produits LLM mais avez des difficultés avec l'infrastructure GPU, la montée en charge et la fiabilité ? J'aide les équipes à construire des plateformes GPU de niveau production de bout en bout.
Ce que vous obtenez : configuration du cloud GPU Neo et renforcement du cluster, planification GPU Kubernetes et autoscaling pour l'entraînement et l'inférence LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD pour modèles et pipelines de données, surveillance GPU et alertes avec NVIDIA DCGM + Prometheus + Grafana, optimisation des coûts, planification de capacité et meilleures pratiques d'observabilité.
Les livrables peuvent inclure une revue de l'architecture, un plan de déploiement et une mise en œuvre pratique selon le niveau du package.
Outils:
Docker
•
GitLab
•
Jenkins
•
GitHub
•
CircleCI
Frameworks:
Terraform
•
Ansible
Langage de programmation:
Bash
•
Python
•
Golang
Expertise:
Installation
•
Migration
•
Configuration
