Je réaliserai des projets de grands modèles de langage
Apprentissage automatique, finance quantitative, données
À propos de ce service
Je vais entraîner des modèles de langage personnalisés from scratch ou affiner des LLM à poids ouverts sur vos données. Je construis des modèles de transformateurs de style GPT à partir de zéro en utilisant PyTorch, allant de petites démos de 10M paramètres jusqu’à des modèles de 50M paramètres. Je peux aussi affiner des modèles existants comme Llama, Phi-3 et Mistral sur votre dataset en utilisant LoRA/QLoRA.
Ce que vous obtenez :
- Poids du modèle entièrement entraînés et tokenizer adaptés à vos données
- Code source complet avec commentaires pour l’entraînement et l’inférence
- Script de génération de texte + instructions d’installation
- Logs d’entraînement, courbes de perte et exemples de sorties
- Droits commerciaux complets
Je m’occupe de la préprocessing des données, la formation du tokenizer, l’architecture du modèle et le pipeline d’entraînement. Vous fournissez simplement votre jeu de données en format .txt, .csv ou PDF, ou j’utiliserai des données open source de HuggingFace, Kaggle et d’autres.
Important : Les modèles de moins de 50M de paramètres sont conçus pour des démos, un usage éducatif et apprendre votre style de données spécifique. Ils montrent comment fonctionnent les LLM mais n’auront pas une connaissance aussi large que ChatGPT.
Frameworks:
Scikit-learn
•
keras
•
PyTorch
•
Panda
Type de données:
Texte
Langage de programmation:
Python
•
SQL
•
Colab
•
NoSQL
Outils:
Jupyter Notebook
•
opencv
•
OpenNN
•
tensorflow
•
Excel
•
Colab
•
Autres
Mon portfolio
Autres services de Data science et machine learning I Offre
FAQ
Traduction automatique
Qu'est-ce que je reçois exactement ?
Vous obtenez : 1) poids du modèle entraîné .safetensors 2) tokenizer personnalisé 3) code source Python complet pour l'entraînement et l'inférence 4) requirements.txt et guide d'installation 5) journaux d'entraînement avec graphiques de perte/perplexité 6) exemples de génération de texte 7) droits commerciaux complets.
Fournissez-vous les données d'entraînement ?
Si vous disposez d'un jeu de données personnalisé, vous pouvez le fournir. Je m'occupe du nettoyage, du formatage, de la tokenisation et de l'entraînement. Formats acceptés : .txt, .csv, .json ou PDF. Mais si vous n'en avez pas, selon votre choix, j'utiliserai des données open source provenant de sites comme HuggingFace, Kaggle, et d'autres pour entraîner notre modèle.
Mon modèle de 10M ou 50M sera-t-il comme ChatGPT ?
Non. Les modèles en dessous de 100M de paramètres sont destinés à des démos, des preuves de concept, et à apprendre des styles ou motifs spécifiques à partir de vos données. Ils généreront du texte dans le style de votre domaine mais ne disposeront pas de connaissances étendues, de capacités de raisonnement ou de suivi d'instructions comme ChatGPT. Pour cela, il faut des modèles de 7B+ avec des ensembles de données massifs.
Combien de données dois-je fournir ?
Pour les modèles de 10M : 10MB à 100MB de texte. Pour les modèles de 50M : 50MB à 500MB de texte. Plus de données = meilleurs résultats. 1MB ≈ 200k tokens. Si vous n'êtes pas sûr, envoyez-moi votre jeu de données et je vérifierai s'il est suffisant avant de commencer.
