Je vais construire un pipeline de data lakehouse en temps réel

Certaines informations ont été traduites automatiquement.

Sri Lanka

Je parle Cinghalais, Anglais

Développeur Python, FastAPI, Web scraping, automatisation IA, ingénierie des données

Je suis un ingénieur en données avec plus de 3 ans d'expérience dans le secteur, spécialisé dans la création d'API RESTful, de systèmes de web scraping et d'applications alimentées par l'IA. Je maîtri...
À propos de ce service

Vous souhaitez créer un pipeline de données en temps réel qui maintient votre data warehouse toujours à jour sans jobs ETL manuels ?


Je concevrai et livrerai un pipeline de data lakehouse entièrement automatisé, de bout en bout, qui capture chaque changement dans votre base de données au moment où il se produit, le stream via Kafka, et le dépose sous forme de tables Delta Lake consultables, le tout orchestré et surveillé par Apache Airflow.

Ce que vous obtenez :


  • CDC en direct depuis votre base MySQL (sans interruption, sans export manuel)
  • Traitement de flux évolutif avec Apache Spark
  • Stockage Delta Lake compatible S3 (MinIO) consultable avec Trino ou Spark SQL
  • Workflow Airflow pour vérifications de santé automatisées et surveillance du pipeline
  • Exécution entièrement Dockerisée sur votre serveur ou VM cloud
  • Guide d’installation et documentation inclus


Idéal pour startups, équipes de données et entreprises qui ont besoin d’une disponibilité en temps réel fiable sans gérer une infrastructure complexe dès le départ.

Destination Platform:

Databricks Lakehouse

PostgreSQL

mySQL

Outils et plateformes:

Airbyte

Kafka Connect

Debezium

Apache NiFi

Mon portfolio