Je vais configurer le Unity catalog de databricks, les couches medallion et les pipelines ETL pyspark

Name: configuration du Unity catalog de databricks, couches medallion et pipelines ETL pyspark
Brand: Fiverr
Availability: InStock

Certaines informations ont été traduites automatiquement.

Hamza Anwar

Vetted Pro

Pakistan

Je parle Ourdou, Anglais, Hindi, Polonais

7 commandes terminées

Ingénieur data, développeur Python, automatisation IA et agents IA

Lead Data Architect et Senior Data Engineer avec plus de 6 ans d'expérience dans l'aide aux entreprises pour concevoir, faire évoluer et stabiliser leurs plateformes de données. Je collabore avec des...

Plus d’infos

Certifié par Fiverr Pro

Hamza Anwar a été sélectionné par l'équipe Fiverr Pro pour son expertise.

Certifié pour

Data engineering

À propos de ce service

Vetted Pro

La plupart des projets de data lake échouent au niveau Silver. Les données brutes arrivent en Bronze et restent là, désordonnées, non fiables, inutilisables. Je construis l'ensemble du pipeline, de l'ingestion brute à une couche Gold que vos outils BI peuvent réellement interroger.

Je suis un ingénieur en données Python avec une expérience pratique de Databricks couvrant toute la stack lakehouse, l'architecture medallion, les pipelines PySpark, Delta Lake, Unity Catalog et Databricks Workflows. Je possède également un Master en Business Intelligence, ce qui me permet de comprendre à quoi doit ressembler la couche Gold pour que le reporting fonctionne réellement.

Ce que je vais réaliser pour vous :

Architecture medallion (Bronze / Silver / Gold) conçue autour de vos sources de données et de votre logique métier
Notebooks PySpark documentés, testés, prêts pour la production
Tables Delta avec partitionnement approprié, Z-ordering et vacuuming
Configuration du Unity Catalog avec schémas, catalogues et politiques d'accès
Databricks Workflows pour planifier, surveiller et réessayer automatiquement vos pipelines
Une couche Gold prête pour le BI que votre équipe peut interroger dès le premier jour

Vous n'êtes pas sûr de ce dont vous avez besoin ? Envoyez-moi vos sources de données et votre objectif final, je vous dirai exactement ce qui a du sens à construire.

Plus d’infos

setup databricks unity catalog, medallion layers and pyspark etl pipelines

Plein écran

Voir la présentation

Plateforme de stockage:

Databricks

Type de projet:

New Build

Clients avec lesquels j’ai travaillé

Acuity Healthcare

Built an automated healthcare executive leads pipeline in Python that scrapes Indeed, enriches contacts via Apollo, anymailfinder, verifies emails through Million Verifier, and delivers 2,000 job-matched leads per batch to Excel.

mars 2026-mai 2026

Mon portfolio

Autres services de Data engineering I Offre

ETL de données
À partir de 150 $US

FAQ

Traduction automatique

Qu'est-ce que l'architecture medallion et en ai-je besoin ?

Medallion est une approche en couches pour organiser les données dans un lakehouse. Bronze contient les données brutes. Silver les nettoie et les conforme. Gold les agrège en tables prêtes pour le business. Si vous avez plusieurs sources de données et que vous avez besoin de données fiables et interrogeables pour le reporting ou le ML, c'est le bon modèle.

Ai-je besoin d'un espace de travail Databricks existant ?

Oui, vous devrez disposer d'un espace de travail Databricks configuré sur Azure, AWS ou GCP. Je travaille dans votre environnement pour que tout reste dans votre compte. Si vous ne savez pas quoi configurer en premier, contactez-moi et je pourrai vous orienter.

Quelles sources de données pouvez-vous ingérer dans Bronze ?

APIs REST, bases de données relationnelles (PostgreSQL, MySQL, SQL Server), fichiers de stockage cloud (CSV, JSON, Parquet, Avro sur S3 ou ADLS), sources en streaming via Auto Loader, et plateformes tierces. Dites-moi vos sources et je vous confirmerai ce qui est simple ou ce qui nécessite plus de travail.

Qu'est-ce que Unity Catalog et pourquoi est-ce important ?

Unity Catalog est la couche de gouvernance des données de Databricks. Elle vous permet de contrôler qui peut accéder à quelles tables, de suivre la traçabilité des données et de gérer les schémas à travers plusieurs espaces de travail en un seul endroit. Pour les équipes avec plusieurs utilisateurs ou des exigences réglementaires, il vaut mieux le mettre en place dès le départ.

La couche Gold peut-elle se connecter à Power BI ou Tableau ?

Oui. Les tables Delta Gold se connectent nativement à Power BI via le connecteur Databricks, et à Tableau et Looker Studio de la même manière. Je structure la couche Gold pour que votre outil BI puisse l'interroger directement sans transformation supplémentaire.

Besoin d'activer votre créativité ?

Vous cherchez un expert en technologie ?

Prêt à atteindre et convertir les consommateurs ?

Vous cherchez des rédacteurs ?

Faites fonctionner votre entreprise plus intelligemment