Je vais configurer le Unity catalog de databricks, les couches medallion et les pipelines ETL pyspark
Ingénieur data, développeur Python, automatisation IA et agents IA
Certifié par Fiverr Pro
Hamza Anwar a été sélectionné par l'équipe Fiverr Pro pour son expertise.
Certifié pour
Data engineering
À propos de ce service
Vetted Pro
La plupart des projets de data lake échouent au niveau Silver. Les données brutes arrivent en Bronze et restent là, désordonnées, non fiables, inutilisables. Je construis l'ensemble du pipeline, de l'ingestion brute à une couche Gold que vos outils BI peuvent réellement interroger.
Je suis un ingénieur en données Python avec une expérience pratique de Databricks couvrant toute la stack lakehouse, l'architecture medallion, les pipelines PySpark, Delta Lake, Unity Catalog et Databricks Workflows. Je possède également un Master en Business Intelligence, ce qui me permet de comprendre à quoi doit ressembler la couche Gold pour que le reporting fonctionne réellement.
Ce que je vais réaliser pour vous :
- Architecture medallion (Bronze / Silver / Gold) conçue autour de vos sources de données et de votre logique métier
- Notebooks PySpark documentés, testés, prêts pour la production
- Tables Delta avec partitionnement approprié, Z-ordering et vacuuming
- Configuration du Unity Catalog avec schémas, catalogues et politiques d'accès
- Databricks Workflows pour planifier, surveiller et réessayer automatiquement vos pipelines
- Une couche Gold prête pour le BI que votre équipe peut interroger dès le premier jour
Vous n'êtes pas sûr de ce dont vous avez besoin ? Envoyez-moi vos sources de données et votre objectif final, je vous dirai exactement ce qui a du sens à construire.
Plateforme de stockage:
Databricks
Type de projet:
New Build
Clients avec lesquels j’ai travaillé
Acuity Healthcare
Built an automated healthcare executive leads pipeline in Python that scrapes Indeed, enriches contacts via Apollo, anymailfinder, verifies emails through Million Verifier, and delivers 2,000 job-matched leads per batch to Excel.
mars 2026-mai 2026
Mon portfolio
Autres services de Data engineering I Offre
FAQ
Traduction automatique
Qu'est-ce que l'architecture medallion et en ai-je besoin ?
Medallion est une approche en couches pour organiser les données dans un lakehouse. Bronze contient les données brutes. Silver les nettoie et les conforme. Gold les agrège en tables prêtes pour le business. Si vous avez plusieurs sources de données et que vous avez besoin de données fiables et interrogeables pour le reporting ou le ML, c'est le bon modèle.
Ai-je besoin d'un espace de travail Databricks existant ?
Oui, vous devrez disposer d'un espace de travail Databricks configuré sur Azure, AWS ou GCP. Je travaille dans votre environnement pour que tout reste dans votre compte. Si vous ne savez pas quoi configurer en premier, contactez-moi et je pourrai vous orienter.
Quelles sources de données pouvez-vous ingérer dans Bronze ?
APIs REST, bases de données relationnelles (PostgreSQL, MySQL, SQL Server), fichiers de stockage cloud (CSV, JSON, Parquet, Avro sur S3 ou ADLS), sources en streaming via Auto Loader, et plateformes tierces. Dites-moi vos sources et je vous confirmerai ce qui est simple ou ce qui nécessite plus de travail.
Qu'est-ce que Unity Catalog et pourquoi est-ce important ?
Unity Catalog est la couche de gouvernance des données de Databricks. Elle vous permet de contrôler qui peut accéder à quelles tables, de suivre la traçabilité des données et de gérer les schémas à travers plusieurs espaces de travail en un seul endroit. Pour les équipes avec plusieurs utilisateurs ou des exigences réglementaires, il vaut mieux le mettre en place dès le départ.
La couche Gold peut-elle se connecter à Power BI ou Tableau ?
Oui. Les tables Delta Gold se connectent nativement à Power BI via le connecteur Databricks, et à Tableau et Looker Studio de la même manière. Je structure la couche Gold pour que votre outil BI puisse l'interroger directement sans transformation supplémentaire.

