Je vais créer une chaîne personnalisée de reconnaissance et de synthèse vocale avec whisper et elevenlabs

S
shhahhussain
S
shhahhussain
Shah

Level 1

4,8
4,8
Certaines informations ont été traduites automatiquement.

À propos de ce service

Traduction automatique

Description :

Assurez un traitement vocal précis en temps réel avec un pipeline personnalisé STT/TTS. Je vais créer un système de streaming de reconnaissance vocale et de synthèse vocale utilisant Whisper/Deepgram pour le STT et ElevenLabs/Azure/Google pour le TTS, avec des mécanismes de secours pour garantir la fiabilité.

Ce que vous obtenez :

  • Un pipeline de streaming STT/TTS entièrement fonctionnel pour les données vocales
  • Intégration de Whisper ou Deepgram pour la transcription
  • Intégration d’ElevenLabs, Azure ou Google pour un TTS de haute qualité
  • Streaming WebSocket à faible latence pour une performance en temps réel
  • Gestion des erreurs et tentatives pour assurer la fiabilité

Comment je travaille :

  • Discuter des besoins (langues, charge attendue, fournisseurs)
  • Concevoir l’architecture du pipeline pour l’audio en streaming
  • Implémenter l’intégration STT/TTS dans le code backend
  • Ajouter des fournisseurs de secours pour la tolérance aux pannes et la résilience
  • Tester de bout en bout avec des flux d’échantillons et des métriques

Ce dont j’ai besoin de votre part :

  • Langues cibles et accents pour la transcription
  • Services STT/TTS principaux et de secours préférés
  • Fichiers audio d’exemple pour les tests
  • Modèles d’utilisation attendus (flux simultanés, trafic de pointe)
  • Objectifs et contraintes de latence/précision

Livrables :

  • Code Python pour le pipeline STT/TTS avec instructions d’installation
  • Configuration pour les fournisseurs STT et TTS sélectionnés

Découvrez Shah

Shah

I build production grade Voice AI agents LiveKit Twilio Python deployed on AWS

5,0(9)

Level 1

  • DePakistan
  • Membre depuisjuil. 2022
  • Temps de réponse moy.1 heure
  • Dernière commande1 semaine
  • Langues

    Anglais
I build production-grade Voice AI agents using LiveKit, Twilio, and Python. I’ve implemented real-time inbound/outbound call flows with low-latency streaming, clean turn-taking, and barge-in handling. I improve reliability by tuning VAD, handling jitter/packet loss, and adding retries plus consistent call-state. I containerize and deploy voice agents on AWS so they run stable in production with logging and monitoring.

Traduction automatique

Mon portfolio

Avis

2 avis concernant ce service
4,8

(2)
(0)
(0)
(0)
(0)
Détails de la notation
  • Niveau de communication avec le freelance
    5
  • Qualité de la livraison
    4,5
  • Valeur de la livraison
    5
Trier par
Les plus pertinents
  • C

    carsten_lemche

    DK

    Danemark

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    200 $US-400 $US

    Prix

    1 jour

    Durée

    Utile?
    Oui
    Non
  • P

    plaglobal

    Client récurrent

    US

    États-Unis

    5

    Shah is a professional and great to work with. I highly recommend him!

    100 $US-200 $US

    Prix

    2 jours

    Durée

    Utile?
    Oui
    Non
Avis

2 avis concernant ce service
4,8

(2)
(0)
(0)
(0)
(0)
Détails de la notation
  • Niveau de communication avec le freelance
    5
  • Qualité de la livraison
    4,5
  • Valeur de la livraison
    5
Trier par
Les plus pertinents
  • C

    carsten_lemche

    DK

    Danemark

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    200 $US-400 $US

    Prix

    1 jour

    Durée

    Utile?
    Oui
    Non
  • P

    plaglobal

    Client récurrent

    US

    États-Unis

    5

    Shah is a professional and great to work with. I highly recommend him!

    100 $US-200 $US

    Prix

    2 jours

    Durée

    Utile?
    Oui
    Non