Je vais construire une pipeline ETL avec Python, Airflow et dbt
Ingénieur de données, pipelines ETL, Python, Airflow et dbt
À propos de ce service
Vos données sont dispersées entre différentes sources sans pipeline fiable pour les déplacer, nettoyer et les livrer là où elles doivent aller ?
Je crée des pipelines ETL et ELT prêts pour la production en utilisant Python, Apache Airflow et dbt, automatisés, testés et documentés pour que votre équipe puisse les maintenir sans moi.
CE QUE VOUS OBTENEZ :
- Pipeline ETL/ELT personnalisé adapté à vos sources de données
- DAGs Apache Airflow avec planification et logique de nouvelle tentative
- Modèles de transformation dbt avec tests de qualité des données
- Modèles de chargement incrémental et complet
- Code versionné avec Git, documenté
- Livraison vers Snowflake, BigQuery, Redshift ou Postgres
POURQUOI ME CHOISIR :
Ingénieur de données certifié Microsoft. Conception du Medallion Lakehouse sur Microsoft Fabric. Maîtrise de Python, SQL, PySpark, Airflow, dbt, Kafka, Snowflake et BigQuery.
Chaque pipeline que je livre fonctionne en production, pas seulement dans un notebook.
Contactez-moi avant de commander pour confirmer que votre stack correspond.
FAQ
Traduction automatique
À quelles sources de données pouvez-vous vous connecter ?
Je peux créer des pipelines ETL à partir d’API REST, PostgreSQL, MySQL, MongoDB, fichiers plats (CSV, JSON, Parquet), Google Sheets, S3 et la plupart des plateformes SaaS. Si vous avez une source spécifique, contactez-moi avant de commander.
Quels entrepôts de données prenez-vous en charge ?
Je livre vers Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, Microsoft Fabric et Azure Synapse. Je peux également cibler les formats Delta Lake ou Apache Iceberg sur stockage cloud.
Utilisez-vous Apache Airflow pour l’orchestration ?
Oui. Je crée des DAGs Airflow avec planification, logique de nouvelle tentative, alertes et gestion des dépendances. Je peux aussi utiliser Prefect si vous préférez un outil d’orchestration plus léger.
Qu’est-ce que dbt et en ai-je besoin ?
dbt (data build tool) gère la couche de transformation dans votre pipeline ELT en utilisant SQL. Il ajoute des tests de qualité des données, une auto-documentation et un contrôle de version. Je le recommande pour tout projet basé sur un entrepôt de données.
Le pipeline s’exécutera-t-il automatiquement selon un calendrier ?
Oui. Tous les pipelines incluent une planification automatisée via Airflow ou cron. Vous choisissez la fréquence — horaire, quotidienne ou déclenchée par événement — et je le configure en conséquence.
Fournissez-vous de la documentation?
Oui. Chaque livraison comprend un README, une documentation auto-générée par dbt et des commentaires dans le code. Vous pourrez comprendre, étendre et maintenir le pipeline sans moi.
Pouvez-vous travailler avec ma stack de données existante ?
Oui. Envoyez-moi votre stack actuelle avant de commander et je confirmerai la compatibilité. J’ai travaillé avec des environnements AWS, GCP et Azure et peux m’intégrer à la plupart des configurations existantes.
Gérez-vous des pipelines de streaming en temps réel ?
Oui. Le package Premium inclut Apache Kafka pour des pipelines événementiels en temps réel. Si vous avez besoin de streaming sur une portée plus petite, contactez-moi pour un devis.
De quoi avez-vous besoin de ma part pour commencer ?
J’ai besoin de vos sources de données, de l’entrepôt de destination, de la logique de transformation ou des règles métier, et des identifiants d’accès. Je fournirai une liste de contrôle après votre commande.
Le code est-il versionné ?
Oui. Tout le code est livré via un dépôt Git avec un historique de commits propre. Je suis les meilleures pratiques en ingénierie logicielle — pas de fichiers zip de scripts dispersés.

