Je vais faire le déploiement local de LLM sur site en utilisant vllm sglang ollama et llamacpp

C
cortexforge_ai
C
cortexforge_ai
IMRAN ULLAH
Certaines informations ont été traduites automatiquement.

À propos de ce service

Traduction automatique

Déploiement avancé local et d'entreprise de LLM avec une infrastructure AI sécurisée sur site et API compatible OpenAI.


Si vous souhaitez exécuter des modèles de langage open source sur vos propres serveurs avec une confidentialité totale, une grande rapidité et sans dépendance au cloud, vous êtes au bon endroit.

Je déploie et optimise LLM, mélange d'experts, modèles d'embedding, embeddings multi-modèles et systèmes VLM en utilisant vLLM, SGLang, Ollama, TGI et llama.cpp pour faible latence et haut débit de tokens par seconde, accessibles via une API compatible OpenAI pour une intégration facile.

Je travaille avec des modèles modernes de Qwen3, DeepSeek 4.5 et GLM 4.5 pour des charges de travail texte, vision et embedding.


Des modèles locaux légers aux déploiements importants jusqu'à 500 milliards+ de paramètres, je construis des serveurs d'inférence prêts pour la production avec support multi-utilisateur, traitement par lots et surveillance en temps réel.


Contactez-moi avant de commander pour discuter de votre système et de vos objectifs.

Découvrez IMRAN ULLAH

IMRAN ULLAH

Building intelligent AI systems with NLP and Vision

  • DePakistan
  • Membre depuismai 2026
  • Temps de réponse moy.1 heure
  • Langues

    Anglais, Ourdou, Coréen, Espagnol, Français, Arabe, Bengali, Kurde
I am a Senior AI ML Engineer. I am new here but bring years of enterprise experience designing deep learning architectures. I build multi agent systems with agent2agent and MCP workflows. For NLP and vision, I create smart systems hybrid RAG and OCR pipelines using Qwen3 YOLOv12 and SAM3. I specialize in synthetic dataset generation and model fine tuning using PEFT LoRA QLoRA DoRA and Unsloth. I apply the latest reinforcement learning algorithms like RLHF DPO ORPO GRPO and DR GRPO. I optimize deployments using lightning-fast inference frameworks like vLLM SGLang TGI ONNX and TensorFlow.

Traduction automatique