Je fournirai des conseils en aiops et sre pour devops et la fiabilité du cloud

Certaines informations ont été traduites automatiquement.

États-Unis

Je parle Anglais

Ingénieur en infrastructure GPU LLMOps NVIDIA Kubernetes Neo Cloud

Je conçois une infrastructure GPU NVIDIA évolutive pour l'entraînement et l'inférence en IA. Je me spécialise dans les clusters GPU Kubernetes, l'entraînement et l'inférence de LLM, ainsi que l'obser...
À propos de ce service

Vous déployez des produits LLM mais avez des difficultés avec l'infrastructure GPU, la montée en charge et la fiabilité ? J'aide les équipes à construire des plateformes GPU de niveau production de bout en bout.

Ce que vous obtenez : configuration du cloud GPU Neo et renforcement du cluster, planification GPU Kubernetes et autoscaling pour l'entraînement et l'inférence LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD pour modèles et pipelines de données, surveillance GPU et alertes avec NVIDIA DCGM + Prometheus + Grafana, optimisation des coûts, planification de capacité et meilleures pratiques d'observabilité.

Les livrables peuvent inclure une revue de l'architecture, un plan de déploiement et une mise en œuvre pratique selon le niveau du package.

Outils:

Docker

GitLab

Jenkins

GitHub

CircleCI

Frameworks:

Terraform

Ansible

Fournisseur de services cloud:

Amazon Web Services

Langage de programmation:

Bash

Python

Golang

Expertise:

Installation

Migration

Configuration