LoRA vs QLoRA : fine-tuning LLM efficace et accessible (guide SEO, pratique)

LoRA vs QLoRA : fine-tuning LLM efficace et accessible (guide SEO, pratique)
Table des matières

Fine-tuning LLM : pourquoi LoRA et QLoRA ont tout changé

Le fine-tuning complet (tous les poids) est efficace mais hors de portée pour la plupart : GPU, temps, stockage, MLOps… LoRA et QLoRA ont démocratisé l’adaptation des LLM, même sur des machines modestes. Ce guide vous explique comment choisir, implémenter et tirer parti de ces techniques, avec les frameworks et outils de référence.

Pour la version longue (SFT, évaluation, scripts), plongez dans La Mécanique des LLM.

LoRA : l’adaptation légère et efficace

LoRA (Low-Rank Adaptation) gèle les poids du modèle et apprend de petites matrices d’adaptation. Résultat : on n’entraîne qu’une fraction minuscule des paramètres, pour une perte de performance souvent négligeable. L’analogie : au lieu de réécrire un manuel, on colle des post-it sur les pages clés.

Formule : W = W0 + B · A (on apprend deux petites matrices au lieu d’une grosse mise à jour)

Frameworks recommandés : HuggingFace PEFT, Axolotl, AutoTrain, SFT Trainer de LlamaIndex.

QLoRA : fine-tuning accessible à tous

QLoRA combine la quantification (poids en 4 bits, format NF4) et LoRA pour apprendre les adaptations. Objectif : rendre le fine-tuning possible sur des GPU « grand public ». En 2023, affiner un modèle 65B sur une RTX 3090 (24 Go) est devenu réalité.

Frameworks recommandés : bitsandbytes, HuggingFace PEFT, Axolotl, OpenLLM.

Pipeline moderne (SFT + LoRA/QLoRA)

  1. Charger un modèle de base (souvent quantifié en 4 bits en QLoRA)
  2. Ajouter des adaptateurs LoRA sur des couches ciblées
  3. Entraîner uniquement ces adaptateurs sur un dataset instruction/réponse
  4. Sauvegarder les poids LoRA (quelques dizaines de Mo, versionnables)

Ce dernier point est crucial : on ne duplique pas un modèle complet (dizaines de Go), on versionne des adaptateurs légers. Cela facilite la collaboration, le déploiement et la reproductibilité.

LoRA ou QLoRA : comment choisir ?

  • Beaucoup de VRAM : LoRA, simple et robuste
  • Ressources limitées : QLoRA, le meilleur compromis

Cas d’usage concrets

  • Adapter un assistant à un domaine (juridique, médical, IT…)
  • Personnaliser le style, le format, la structure
  • Corriger des lacunes spécifiques (terminologie interne, conformité)

Ordres de grandeur

CritèreFull fine-tuningLoRAQLoRA
Paramètres entraînables7 milliards85 millions (0.06%)85 millions (0.06%)
VRAM nécessaire28 GB8 GB2 GB

Ces chiffres expliquent pourquoi PEFT (Parameter-Efficient Fine-Tuning) a démocratisé l’adaptation des LLM.


Pour approfondir : SFT, compromis performance/coût, scripts pratiques et retours d’expérience sont détaillés dans La Mécanique des LLM (chapitre Fine-tuning & PEFT).

Partager :

Articles similaires