Je vais construire des pipelines de données évolutifs en utilisant dagster, AWS, postgresql et redshift
À propos de ce service
Vous cherchez un ingénieur de données fiable pour construire des pipelines de données évolutifs et de qualité production ?
Je me spécialise dans la création de plateformes de données modernes en utilisant :
- Dagster (orchestration de workflow et pipelines basés sur les assets)
- PostgreSQL (source et base de métadonnées)
- Amazon S3 (stockage de data lake)
- Amazon Redshift (entrepôt analytique)
- Python (développement ETL/ELT)
Ce que je peux faire pour vous
Construire des pipelines ETL/ELT de bout en bout
Concevoir des assets et jobs Dagster
Charger des données depuis des API / bases de données S3 Redshift
Mettre en œuvre des pipelines incrémentiels (CDC, watermarking)
Optimiser les performances pour des millions d’enregistrements
Gérer l’évolution du schéma et la validation des données
Configurer la partition des données (quotidienne / horaire)
Créer une architecture de data lake basée sur S3
Déboguer et corriger les pipelines existants
Mes compétences incluent
- pipelines multi-assets avec Dagster
- migration de PostgreSQL vers Redshift
- partitionnement Parquet sur S3
- chargements incrémentiels (sans doublons)
- ingestion de données à grande échelle (millions de lignes)
- qualité et validation des données
- tests unitaires et d’intégration
- gestion des erreurs et retries
Approche prête pour la production
Je suis les meilleures pratiques du secteur :
- structure modulaire du code
- journalisation et surveillance
- gestion des retries et des échecs
- pipelines idempotents
- conception compatible CI/CD
Fournisseur de services cloud:
Amazon Web Services
Frameworks:
Terraform
•
Ansible

