Je vais construire des pipelines de données GCP de bout en bout en utilisant pubsub, kafka et dataform
À propos de ce service
Une plateforme de données moderne nécessite une ingestion robuste et une modélisation analytique précise. En tant qu'ingénieur de données certifié Google Cloud, je conçois des systèmes de bout en bout garantissant l'intégrité des données depuis la source jusqu'au tableau de bord.
Je développe des pipelines événementiels à haut volume avec une livraison stricte au moins une fois, tout en architecturant des modèles BigQuery centralisés unifiant des tables disparates provenant de plus de 19 unités commerciales.
Ce que je peux faire pour vous :
- Ingestion en temps réel : Concevoir des systèmes sécurisés utilisant Apache Kafka et GCP Pub/Sub en Java Spring Boot.
- Traitement sans serveur : Concevoir des microservices découplés via Cloud Run pour transformer de grands ensembles de données.
- Modélisation dimensionnelle : Transformer les données brutes de BigQuery en schémas en étoile avec Dataform, en appliquant SCD Type 2 et 4.
- Orchestration : Orchestrer des workflows ELT multi-étapes via Cloud Composer (Airflow) pour automatiser les jobs Dataform.
Technologies que j'utilise : Pub/Sub GCP, Kafka, BigQuery, Dataform, Java (Spring Boot), Cloud Run, Airflow et Terraform.
Pourquoi me choisir ? Vous bénéficiez d’un expert cloud certifié qui met en œuvre des cadres de qualité des données robustes, en enregistrant les échecs d’assertion dans des tables d’erreur persistantes pour que vos analyses restent fiables.
Discutons avant votre commande pour définir ensemble le périmètre !
FAQ
Traduction automatique
Comment gérez-vous la différence entre les données en streaming et la modélisation par lots ?
J’utilise une approche moderne où Pub/Sub et Cloud Run gèrent l’ingestion en temps réel, en déposant les données en toute sécurité dans des tables BigQuery brutes. Ensuite, je programme Dataform via Cloud Composer (Airflow) pour nettoyer, tester et modéliser périodiquement ces données brutes en tables prêtes à l’usage métier.
Pouvez-vous garantir qu’aucun message en streaming ne sera perdu ?
Oui. Je conçois des systèmes avec des garanties strictes de livraison au moins une fois, utilisant une logique de retry robuste et un stockage intermédiaire pour assurer une tolérance totale aux pannes.
Utilisez-vous Dataform ou dbt pour la modélisation BigQuery ?
Je recommande fortement Dataform pour les stacks GCP natives, car il est entièrement géré dans BigQuery et s’intègre parfaitement avec Cloud Composer. Cependant, je maîtrise les deux outils selon votre environnement.
Comment garantissez-vous que les données modélisées sont précises ?
Je mets en place un cadre de qualité des données robuste dans Dataform pour détecter les échecs d’assertion. Toute erreur de validation est automatiquement dirigée vers une table d’erreurs BigQuery persistante pour revue.

