Je vais créer des bots selenium pour l'ocr et le web scraping
Développeur Full Stack, ingénieur Python, spécialiste UI UX
À propos de ce service
Vous développez un modèle LLM ou IA personnalisé ? Vous savez que des données de haute qualité, parfaitement structurées, sont la partie la plus critique du processus.
Je suis Syed M. A. Raza, développeur en IA spécialisé dans les pipelines de données pour Generative AI. Ayant entraîné des modèles personnalisés de manière professionnelle, je sais exactement comment structurer vos données brutes. Je m’occupe de la préparation du jeu de données pour que vous puissiez vous concentrer sur l’entraînement.
Ce que vous obtiendrez :
- Développement personnalisé de bot Selenium pour scraper des sites web complexes et dynamiques.
- Extraction OCR de haute précision pour extraire du texte d’images et de documents.
- Chunking professionnel pour formater votre texte en vue de l’ingestion par le modèle.
- Génération d’embeddings AI pour votre cas d’usage spécifique.
Pourquoi me choisir ? Mon expérience ne se limite pas au simple scraping ; elle concerne aussi Generative AI. Je comprends parfaitement les exigences en matière de formatage, de chunking et d’embeddings nécessaires pour que votre modèle personnel ou d’entreprise fonctionne parfaitement sans hallucinations.
Préparons vos données de la bonne manière. Envoyez-moi un message pour commencer !
Technologie:
Python
•
Excel
•
sélénium
•
Beautiful Soup
•
Pandas
Technique:
Automatisé(e)
Mon portfolio
FAQ
Traduction automatique
Le site web bloquera-t-il mon adresse IP ?
J’utilise un comportement « humain » avec des délais aléatoires et la rotation de User-Agent pour minimiser la détection. Pour les sites très agressifs (comme Cloudflare), je peux intégrer la rotation de proxy si vous fournissez le service de proxy.
Pouvez-vous scraper des données derrière un écran de connexion ?
Oui. Mes scripts peuvent se connecter en toute sécurité avec les identifiants fournis, naviguer vers le tableau de bord et extraire les données privées nécessaires. J’utilise des sessions cryptées pour sécuriser votre connexion.
Fournissez-vous le code source Python ?
Oui ! Contrairement à d’autres vendeurs, j’inclus le code source Python complet et modifiable (ainsi que les instructions pour l’exécuter) avec chaque commande pour que vous puissiez utiliser le bot à l’avenir.
Pouvez-vous télécharger des images ou des fichiers (PDF) ?
Oui. Je peux programmer le bot pour télécharger des images, les renommer de manière systématique et les organiser dans des dossiers. Je peux aussi utiliser OCR pour lire le texte à l’intérieur des images si nécessaire. Je peux également créer un dataset à partir d’eux pour des modèles YOLO.

