Je vais effectuer un nettoyage avancé ou une préparation de données prêtes pour ML, du niveau basique au professionnel

Certaines informations ont été traduites automatiquement.

Inde

Je parle Bengali, Hindi, Anglais

Data Scientist, analytique, Python, SQL, ML, spécialiste du nettoyage de données !

Bonjour ! Je suis Soham, data scientist et expert en Python, dédié à aider les entreprises à exploiter tout le potentiel de leurs données. Que vous ayez besoin de modèles prédictifs ou de workflows au...
À propos de ce service

Vous avez besoin que vos données désordonnées soient transformées en un format propre, prêt à l’analyse ou à l’apprentissage automatique ?


Je me spécialise dans trois niveaux de nettoyage de données, allant des corrections basiques à la prétraitement avancé pour les modèles ML.


NETTOYAGE BASIQUE (Parfait pour les rapports et la visualisation)

- Suppression des doublons et des colonnes non pertinentes

- Gestion des valeurs manquantes (suppression ou imputation simple)

- Correction des types de données (dates, nombres, catégories)

  • Analyse statistique

- Standardisation du texte (majuscules/minuscules, suppression des espaces)


NETTOYAGE AVANCÉ (Pour l’analyse approfondie et les tableaux de bord)

- Tout ce qui est dans le niveau basique +

- Analyse des valeurs aberrantes (IQR, Z-score)

- Imputation avancée des valeurs manquantes (KNN, médiane, mode)

- Fusion ou jointure de plusieurs jeux de données

- Création de caractéristiques dérivées (ratios, agrégats)

- Correction des incohérences dans les catégories et erreurs d’encodage


Données prêtes pour ML (pour l’entraînement des modèles)

- Tout ce qui est dans le niveau avancé +

- Encodage des variables catégoriques (One-Hot, Label, Ordinal)

- Mise à l’échelle des caractéristiques (MinMax, StandardScaler, RobustScaler)

- Division en ensembles d’entraînement/validation/test (70-20-10 ou personnalisé)

- Gestion du déséquilibre des classes (suréchantillonnage/sous-échantillonnage si nécessaire)

- Suppression des fuites de cible

- Format compatible TensorFlow ou sklearn


CE QUE VOUS FOURNISSEZ :

- Fichier(s) de données brutes CSV, Excel ou SQL.

-

Plateforme:

Jupyter Notebook

Technologie de développement:

Python

Power BI

Expertise:

Formatage

Fonctions

Graphiques

Nettoyage