LoRA vs QLoRA : fine-tuning LLM efficace et accessible (guide SEO, pratique)
- Mustapha Alouani
- Ia , Llm , Ingénierie
- 28 décembre 2025

Table des matières
Fine-tuning LLM : pourquoi LoRA et QLoRA ont tout changé
Le fine-tuning complet (tous les poids) est efficace mais hors de portée pour la plupart : GPU, temps, stockage, MLOps… LoRA et QLoRA ont démocratisé l’adaptation des LLM, même sur des machines modestes. Ce guide vous explique comment choisir, implémenter et tirer parti de ces techniques, avec les frameworks et outils de référence.
Pour la version longue (SFT, évaluation, scripts), plongez dans La Mécanique des LLM.
LoRA : l’adaptation légère et efficace
LoRA (Low-Rank Adaptation) gèle les poids du modèle et apprend de petites matrices d’adaptation. Résultat : on n’entraîne qu’une fraction minuscule des paramètres, pour une perte de performance souvent négligeable. L’analogie : au lieu de réécrire un manuel, on colle des post-it sur les pages clés.
Formule : W = W0 + B · A (on apprend deux petites matrices au lieu d’une grosse mise à jour)
Frameworks recommandés : HuggingFace PEFT, Axolotl, AutoTrain, SFT Trainer de LlamaIndex.
QLoRA : fine-tuning accessible à tous
QLoRA combine la quantification (poids en 4 bits, format NF4) et LoRA pour apprendre les adaptations. Objectif : rendre le fine-tuning possible sur des GPU « grand public ». En 2023, affiner un modèle 65B sur une RTX 3090 (24 Go) est devenu réalité.
Frameworks recommandés : bitsandbytes, HuggingFace PEFT, Axolotl, OpenLLM.
Pipeline moderne (SFT + LoRA/QLoRA)
- Charger un modèle de base (souvent quantifié en 4 bits en QLoRA)
- Ajouter des adaptateurs LoRA sur des couches ciblées
- Entraîner uniquement ces adaptateurs sur un dataset instruction/réponse
- Sauvegarder les poids LoRA (quelques dizaines de Mo, versionnables)
Ce dernier point est crucial : on ne duplique pas un modèle complet (dizaines de Go), on versionne des adaptateurs légers. Cela facilite la collaboration, le déploiement et la reproductibilité.
LoRA ou QLoRA : comment choisir ?
- Beaucoup de VRAM : LoRA, simple et robuste
- Ressources limitées : QLoRA, le meilleur compromis
Cas d’usage concrets
- Adapter un assistant à un domaine (juridique, médical, IT…)
- Personnaliser le style, le format, la structure
- Corriger des lacunes spécifiques (terminologie interne, conformité)
Ordres de grandeur
| Critère | Full fine-tuning | LoRA | QLoRA |
|---|---|---|---|
| Paramètres entraînables | 7 milliards | 85 millions (0.06%) | 85 millions (0.06%) |
| VRAM nécessaire | 28 GB | 8 GB | 2 GB |
Ces chiffres expliquent pourquoi PEFT (Parameter-Efficient Fine-Tuning) a démocratisé l’adaptation des LLM.
Pour approfondir : SFT, compromis performance/coût, scripts pratiques et retours d’expérience sont détaillés dans La Mécanique des LLM (chapitre Fine-tuning & PEFT).
- Script pratique :
08_lora_finetuning_example.py(https://github.com/alouani-org/mecanics-of-llms) - Broché sur Amazon : https://www.amazon.fr/dp/B0G6Z4KWSQ
- Kindle sur Amazon : https://www.amazon.fr/Mecanique-LLM-Architecture-Pratique-lIngenieur-ebook/dp/B0G7MTBYWT