Je vais construire des pipelines big data et traiter des ensembles de données avec pyspark et sql

Certaines informations ont été traduites automatiquement.

Pakistan

Je parle Anglais, Français

Ingénieur en IA, Data et Web3

Je suis ingénieur en ML et Data avec un master en Data et Intelligence de l'Université Claude Bernard Lyon 1. Je me spécialise dans la création de ponts entre la recherche avancée en IA et des logicie...
À propos de ce service

Vous avez du mal avec de gros ensembles de données ou des temps de traitement lents ?


Je suis un ingénieur en données spécialisé dans le traitement à grande échelle de Big Data, ETL et analytique. Je crée des pipelines de données hautement optimisés pour ingérer, nettoyer et transformer des gigaoctets de données efficacement en utilisant PySpark et Python. Que vous ayez besoin d'agrégations complexes, de cartographie géospatiale ou de visualisations claires, je fournis du code prêt pour la production.


Mes services principaux :


  • pipelines Big Data : flux ETL haute performance utilisant Apache Spark, PySpark et Python.
  • Transformations avancées : requêtes Spark SQL optimisées, fonctions de fenêtre complexes, UDFs et jointures à grande échelle.
  • Intégration de données : nettoyage et formatage de données structurées ou semi-structurées pour l’analyse en aval.
  • Données géospatiales : traitement de données basées sur la localisation et séries temporelles.
  • Visualisations : transformer de gros volumes de données en visualisations exploitables avec Pandas et Matplotlib.


Pile technologique : Python | Apache Spark | PySpark | Spark SQL | Pandas | Matplotlib


Pourquoi me choisir ?

Je rédige un code propre, évolutif et entièrement documenté, garantissant que vos opérations de données soient précises et optimisées en termes de calcul.


Veuillez me contacter avant de commander pour discuter de votre ensemble de données !

Destination Platform:

Databricks Lakehouse

PostgreSQL

Outils et plateformes:

Autres