Je vais créer un script ETL en Python pour nettoyer, fusionner et consolider vos données CSV

Certaines informations ont été traduites automatiquement.

Inde

Je parle Anglais, Japonais, Français

1 commande terminée

Données et logiciels

Je suis un data engineer Python spécialisé dans les pipelines ETL, le nettoyage de données et la consolidation CSV/Excel. Je transforme des exports désordonnés et incohérents de plusieurs sources en u...
À propos de ce service

Avez-vous des feuilles de calcul provenant de différentes équipes, outils ou départements, chacune avec des noms de colonnes différents, des formats de date variés, des doublons et des valeurs incorrectes ? Les nettoyer et les fusionner manuellement est lent et sujet à erreur. Je vais automatiser tout cela avec Python + Pandas.

Ce que je fais

Je construis un flux de travail ETL réutilisable qui :

  • Extrait les données de tous vos fichiers CSV/Excel en une seule opération
  • Mappe les noms de colonnes sources différents en un schéma standard
  • Nettoie et standardise supprime les espaces, met en majuscule la première lettre, convertit toutes les dates au format YYYY-MM-DD, enlève les symboles $/unités et convertit les montants et quantités en nombres propres
  • Standardise les catégories (par exemple, un ensemble cohérent pour les valeurs de statut)
  • Valide les enregistrements et supprime les lignes manquant des champs obligatoires
  • Supprime les doublons pour que chaque enregistrement n'apparaisse qu'une fois
  • Consolide tout dans un seul fichier maître, encodé UTF-8, prêt pour le reporting

Ce que vous obtenez

  • Un script Python propre, bien documenté et dont vous êtes propriétaire
  • Votre fichier de sortie consolidé (CSV/Excel)
  • Un README avec instructions d’installation et d’utilisation
  • Un code réutilisable pour les fichiers du mois prochain sans rework

Pourquoi me choisir

  • Spécialiste en data engineering & ETL, pas un généraliste
  • Code propre, lisible, commenté (pas de boîtes noires)
  • Résultats cohérents et reproductibles à chaque exécution
  • Réponses rapides, disponibles en temps réel

Technologie:

Amazon Redshift

Apache Spark

Excel

MATLAB

Python

Expertise:

Classification

Extraction des données

Flux de données

Mon portfolio