Je développerai des pipelines ETL évolutifs en utilisant Databricks
À propos de ce service
Vous avez besoin d’un pipeline ETL robuste et évolutif basé sur Databricks ? Vous êtes au bon endroit !
Je suis Gajendra, ingénieur en données certifié et analyste de données avec plus de 6 ans d’expérience dans la création de solutions de données complètes pour des clients d’entreprise. Que vous travailliez avec des données batch ou streaming, je me spécialise dans la conception de pipelines ETL propres, efficaces et prêts pour la production en utilisant Databricks, PySpark et AWS.
Ce que je propose :
- Développement de pipelines ETL/ELT de bout en bout sur Databricks
- Ingestion de données depuis plusieurs sources (S3, RDS, APIs, etc.)
- Nettoyage, transformation et enrichissement des données avec PySpark
- Intégration avec Delta Lake, SQL et stockage cloud
- Orchestration des workflows avec Databricks Jobs ou Apache Airflow
- Déploiement avec contrôle de version (Git, CI/CD)
- Documentation et livraison sous forme de notebooks
Outils & Technologies : Databricks (Jobs, Notebooks, Delta Lake), PySpark, SQL, AWS (S3, Glue, Lambda, RDS), Airflow / Workflows Databricks, Git, CI/CD, DBFS
Pourquoi travailler avec moi ?
- Certifié en Databricks et AWS
- Plus de 6 ans d’expérience en ingénierie et analyse de données
- Communication rapide et claire
- Code de niveau production avec une conception réutilisable
Automatisons et faisons évoluer vos workflows de données de la bonne manière !
FAQ
Traduction automatique
De quoi avez-vous besoin de ma part pour commencer ?
Juste un bref aperçu de vos sources de données, des résultats attendus et de la configuration cloud (si applicable).
Pouvez-vous travailler avec des données sur site ou d’autres fournisseurs cloud ?
Oui, mais AWS est mon domaine d’expertise principal. Nous pouvons discuter d’autres options.
