Je vais développer des pipelines ETL Azure Databricks et des jobs Pyspark
Ingénieur Data Azure pour pipelines ETL sur Databricks
À propos de ce service
Bienvenue dans mon service de consulting en Azure Data Engineering !
Souhaitez-vous transformer vos données brutes en insights clairs et exploitables ? Je me spécialise dans la conception et la construction de pipelines de données robustes et évolutifs en utilisant la Azure Data Stack moderne, avec un accent particulier sur Azure Databricks et PySpark.
Que vous ayez besoin d'une feuille de route architecturale, d'un script simple optimisé ou d'un pipeline ETL/ELT complet de A à Z, je suis là pour faire en sorte que vos données circulent de manière fluide et sécurisée.
Ce que je propose dans ce gig :
- Configuration de Data Lake : Organisation de votre stockage selon les meilleures pratiques comme l'architecture Bronze/Silver/Gold (Medallion).
- Développement de pipeline ETL : Rédaction de code PySpark ou SQL propre et efficace pour extraire, transformer et charger vos données.
- Orchestration : Conception du flux automatisé de vos données avec des outils comme Azure Data Factory.
- Optimisation des performances : Débogage et accélération de notebooks Spark lents.
- Diagrammes d'architecture & audits : Fourniture de documentation visuelle claire et de recommandations professionnelles pour votre configuration actuelle.
FAQ
Traduction automatique
Dois-je fournir mon propre environnement Azure ?
Oui, vous devrez me donner un accès sécurisé à votre abonnement Azure (comme un compte Guest avec des permissions spécifiques sur le groupe de ressources) afin que je puisse construire, tester et déployer les pipelines directement dans votre espace de travail.
Qu'est-ce que l'architecture Medallion que vous avez mentionnée ?
C'est un modèle de conception de données très efficace utilisé dans Databricks. Il organise logiquement les données dans un lakehouse en trois couches distinctes : Bronze (données brutes, ingérées), Silver (données nettoyées et filtrées) et Gold (agrégats au niveau métier prêts pour l'analyse et le reporting).
Pouvez-vous corriger un bug dans mon code PySpark existant ?
Absolument ! Le package Basic est parfait pour cela. Je peux auditer votre notebook actuel, identifier le goulot d'étranglement ou l'erreur, et fournir un code optimisé et corrigé.
Devons-nous faire un appel vidéo pour la consultation ?
Pas du tout ! Bien que Fiverr fournisse un lien Zoom, nous pouvons garder nos caméras éteintes pour un appel uniquement audio, ou utiliser ce temps pour discuter en détail par texte pendant que je passe en revue votre architecture et vos objectifs de données.
