Je vais construire un data lake AWS et un pipeline ETL avec pyspark
Ingénieur Data cloud construisant des pipelines ETL évolutifs
À propos de ce service
En tant qu'ingénieur data, je conçois des architectures cloud-native robustes et des pipelines ETL évolutifs. Que ce soit pour traiter des logs à volume élevé ou pour construire des data lakes Medallion, je fournis des solutions propres et optimisées.
️ Ce que je propose :
- Pipeline ETL de bout en bout : Extraction, transformation et chargement automatisés des données avec Python et PySpark.
- Data lakes cloud : Architecture de data lakes Medallion sans serveur (Bronze, Silver, Gold) sur AWS (S3, Glue, Athena).
- Architecture de bases de données : Conception de bases relationnelles (3NF) et optimisation de requêtes SQL complexes (CTEs, fonctions de fenêtrage) dans PostgreSQL.
- Optimisation des performances : Réduction des temps de traitement et des coûts de stockage en utilisant des formats comme Apache Parquet.
Pile technologique : AWS (S3, Glue, Athena) | PySpark | Python | PostgreSQL | SQL avancé | Git/GitHub
Pourquoi me choisir ? Je rédige du code prêt pour la production, garantis des designs évolutifs, et respecte strictement les meilleures pratiques en ingénierie des données.
Veuillez m’envoyer un message avant de commander pour discuter de votre projet précis !
Mon portfolio
FAQ
Traduction automatique
Fournissez-vous des diagrammes d’architecture avant de commencer le projet ?
Oui ! Pour les packages Standard et Premium, je fournis un diagramme d’architecture cloud complet (par exemple, flux AWS S3, Glue, Athena) avant d’écrire le code pour que nous soyons alignés.
Quelles technologies utilisez-vous pour la transformation des données ?
J’utilise principalement PySpark (via AWS Glue) pour les transformations de big data et SQL avancé (PostgreSQL) pour les moteurs de données relationnelles, garantissant performance et évolutivité.

