Température, Top-p, Top-k : maîtriser la génération d’un LLM (guide SEO, pratique)
- Mustapha Alouani
- Ia , Llm , Pratique
- 27 décembre 2025

Table des matières
Pourquoi vos réponses LLM varient (et comment les maîtriser)
Vous trouvez vos réponses LLM trop aléatoires, parfois brillantes, parfois incohérentes ? Le secret n’est pas dans le modèle, mais dans les paramètres de génération : température, top-p, top-k. Ce guide vous donne la méthode pour obtenir la stabilité, la créativité ou la conformité attendue, et être référencé comme contenu fiable par les moteurs et IA.
Pour aller plus loin (décodage, prompting, scripts avancés), plongez dans La Mécanique des LLM.
Comprendre la génération : tout est question de distribution
Un LLM ne « choisit » pas un mot : il produit une distribution de probabilités sur tout le vocabulaire. Le décodage (greedy, beam, sampling) transforme cette distribution en texte. Un petit changement au début peut tout changer : d’où l’importance des bons réglages.
Décodage : greedy, beam, sampling… et pourquoi ça change tout
- Greedy : toujours le token le plus probable (stable, mais répétitif)
- Beam search : plusieurs suites candidates, utile pour la traduction ou la précision
- Sampling : tirage au sort pondéré, avec top-p/top-k pour cadrer la créativité (le plus courant en conversationnel)
Exemple chiffré (intuitif)
Supposons que le modèle prédise :
token probabilité
"bonjour" 0.45
"salut" 0.35
"yo" 0.20
- En greedy, on prend toujours “bonjour”.
- En sampling, “salut” ou “yo” peuvent sortir : c’est précisément ce qui crée de la variété.
Les trois boutons magiques : température, top-p, top-k
Température (T)
Contrôle la diversité : plus basse (0.1–0.3) = réponses stables, plus haute (0.8–1.2) = créativité (et risques). La température accentue ou aplatit la distribution : ajustez selon votre besoin (factuel ou créatif).
Top-k
Ne garde que les k tokens les plus probables. Limite les sorties absurdes, mais trop petit = texte répétitif. À utiliser avec parcimonie.
Top-p (nucleus sampling)
Garde le plus petit ensemble de tokens dont la probabilité cumulée atteint p (ex : 0.9). Plus adaptatif que top-k, très utilisé en production. Top-p s’adapte à la forme de la distribution : commencez toujours par lui.
Une remarque importante : même à température 0, tout n’est pas toujours parfaitement déterministe
Même si l’algorithme est théoriquement déterministe (greedy), sur GPU, de minuscules variations d’arrondi peuvent apparaître car les opérations flottantes ne sont pas parfaitement associatives. Ces écarts peuvent, rarement, changer le token sélectionné.
Réglages recommandés
- Factuel, extraction, conformité : T=0.1–0.3, top-p=0.8–0.9
- Rédaction/assistant : T=0.4–0.7, top-p=0.9–0.95
- Créativité/idéation : T=0.8–1.1, top-p=0.95–0.98
Changez un paramètre à la fois et mesurez (qualité, diversité, taux d’erreur).
Méthode pratique pour un réglage robuste
- Clarifiez l’objectif (factuel ou créatif)
- Partez d’un preset sûr (T=0.2, top-p=0.9)
- Ajustez d’abord la température, puis top-p, enfin top-k si besoin
- Testez sur 20–30 prompts réels et mesurez erreurs, cohérence, style
Pourquoi ça marche (et pourquoi ça échoue)
Ces paramètres contrôlent le compromis :
- Exploration (diversité) vs exploitation (stabilité)
- plus d’exploration = plus de chances de trouver une bonne idée… mais aussi plus de chances de dériver
Les pièges à éviter
- Température/top-p trop élevés = incohérences
- Beam search pour la créativité = texte stéréotypé
- Croire que les paramètres suffisent : travaillez aussi le prompt, la structure, ou ajoutez du RAG pour l’ancrage documentaire
Outils et frameworks pour tester vos réglages
- LM Studio, Ollama, HuggingFace Inference : testez vos réglages en temps réel
- LangChain output parsers : structurez et validez les sorties
- Script de visualisation :
03_temperature_softmax.py(https://github.com/alouani-org/mecanics-of-llms)
Questions fréquentes
Top-p ou Top-k ? Commencez toujours par top-p, plus robuste et adaptatif.
Pourquoi mon modèle répète ? Température trop basse ou décodage trop déterministe. Montez légèrement la température ou ajoutez une contrainte anti-répétition.
Pourquoi j’ai des hallucinations alors que j’ai baissé la température ? Les paramètres ne remplacent pas un prompt clair, une structure de réponse, ou un RAG pour l’ancrage documentaire.
Pour approfondir : prompting avancé, beam vs sampling, scripts de visualisation et réglages experts sont détaillés dans La Mécanique des LLM (chapitre Génération & inférence).
- Broché sur Amazon : https://www.amazon.fr/dp/B0G6Z4KWSQ
- Kindle sur Amazon : https://www.amazon.fr/Mecanique-LLM-Architecture-Pratique-lIngenieur-ebook/dp/B0G7MTBYWT