Je vais nettoyer et automatiser vos données en tant qu'ingénieur data
Ingénieur en données cloud
À propos de ce service
Je vais nettoyer, formater et transformer des ensembles de données allant de quelques milliers à des dizaines de millions de lignes de manière efficace en utilisant Python et PySpark pour une analyse précise.
Supprimer les valeurs nulles et les doublons
Standardiser le texte, les dates et les chiffres
Travailler avec CSV, Excel et JSON (plat/semi-structuré)
Automatisation avec Python/PySpark pour plus d’efficacité
Grâce à mon expertise en ingénierie des données, vos données seront cohérentes, précises et prêtes pour l’analyse.
Plateforme de stockage:
Azure Synapse
•
Databricks
Type de projet:
New Build
Mon portfolio
Autres services de Data engineering I Offre
FAQ
Traduction automatique
Que dois-je fournir avant de passer une commande ?
Vous devez partager votre jeu de données (CSV, Excel, JSON(semi-structuré), etc.) avec des instructions claires sur le nettoyage ou les transformations nécessaires.
Quels outils/technologies utilisez-vous ?
J’utilise principalement Python et PySpark pour les jeux de données volumineux.
Pouvez-vous gérer de grands jeux de données (millions de lignes) ?
Oui, pour le package Premium, je conçois des workflows évolutifs utilisant PySpark capables de traiter efficacement des millions de lignes.
Vais-je recevoir le script/code avec les données nettoyées ?
Oui, je livrerai le jeu de données final et le script Python/PySpark dans le package premium pour que vous puissiez le réutiliser à tout moment.
Pouvez-vous intégrer avec des bases de données ou du stockage cloud ?
Oui, en tant que Data Engineer, j’utilise le stockage cloud (Azure Blob, Databricks, etc.) si nécessaire (pour les packages Standard et Premium).
Fournissez-vous de la documentation?
Oui, pour le package Premium, je fournis une documentation étape par étape pour que vous puissiez exécuter et gérer facilement le workflow.

