Andrej Karpathy : L'introduction aux LLM pour les gens pressés (L'explication virale de 30 minutes)
Perspective
Voici l’introduction définitive aux grands modèles de langage - Karpathy a réenregistré sa conférence virale de 30 minutes pour YouTube après que l’original n’ait pas été capturé. Si vous comprenez cette conférence, vous comprenez les fondamentaux.
“Un grand modèle de langage, c’est juste deux fichiers.” Le fichier de paramètres (140 Go pour Llama 2 70B - 70 milliards de paramètres × 2 octets chacun en float16) et un fichier d’exécution (~500 lignes de C sans dépendances). Prenez ces deux fichiers, compilez, et vous pouvez parler au modèle hors ligne sur un MacBook. C’est tout le package.
L’entraînement est de la compression. Prenez 10 To de texte internet, 6 000 GPU pendant 12 jours (~2 M$), et compressez-le en 140 Go de paramètres. C’est environ 100x de compression - mais c’est de la compression avec perte. Le modèle a une “gestalt” des données d’entraînement, pas une copie identique. “C’est un peu comme un fichier zip d’internet.”
La malédiction de l’inversion montre à quel point cette connaissance est étrange. GPT-4 sait que la mère de Tom Cruise est Mary Lee Pfeiffer. Mais demandez “Qui est le fils de Mary Lee Pfeiffer ?” et il ne sait pas. “Cette connaissance est bizarre et en quelque sorte unidimensionnelle. Vous devez demander dans une certaine direction.”
“Les LLM sont principalement des artefacts impénétrables.” Nous connaissons l’architecture exacte, chaque opération mathématique. Mais nous ne savons pas ce que font les 100 milliards de paramètres. “Nous pouvons mesurer qu’il s’améliore dans la prédiction du mot suivant, mais nous ne savons pas comment ces paramètres collaborent pour effectuer cela.” Contrairement à une voiture où nous comprenons toutes les pièces.
Pré-entraînement vs fine-tuning. Pré-entraînement : quantité massive, données internet de qualité moindre, construit la connaissance. Fine-tuning : quantité plus petite (~100K exemples), paires Q&R de très haute qualité, donne au modèle son “format” d’assistant. Le pré-entraînement est coûteux (des mois, des millions de dollars, une fois par an). Le fine-tuning est bon marché (itérations quotidiennes possibles).
RLHF utilise des comparaisons car comparer est plus facile que générer. Écrire un haïku est difficile. Choisir le meilleur haïku parmi plusieurs options est plus facile. Le fine-tuning de l’étape 3 exploite cela avec l’apprentissage par renforcement à partir de retours humains.
Les lois d’échelle sont l’insight clé. La performance est une “fonction remarquablement lisse, bien comportée et prévisible de seulement deux variables : N (paramètres) et D (données d’entraînement).” Aucun signe de plafonnement. “Le progrès algorithmique n’est pas nécessaire - nous pouvons obtenir des modèles plus puissants gratuitement en entraînant des modèles plus grands plus longtemps.”
Points clés
- Deux fichiers - Paramètres (140 Go pour modèle 70B) + run.c (~500 lignes)
- Compression avec perte 100x - 10 To internet → 140 Go paramètres
- Prédiction du mot suivant - Tâche fondamentale ; force l’apprentissage du monde
- Malédiction de l’inversion - La connaissance est unidimensionnelle ; la direction compte
- “Principalement impénétrable” - Nous connaissons l’architecture mais pas ce que font les paramètres
- Pré-entraînement = connaissance - Coûteux, des mois, données à l’échelle d’internet
- Fine-tuning = alignement - Bon marché, possible quotidiennement, 100K exemples de qualité
- RLHF - Comparer est plus facile que générer ; optimisation de l’étape 3
- Lois d’échelle - Performance prévisible à partir de paramètres × données ; pas de plateau
- Ouvert vs fermé - Fermé (GPT-4, Claude) fonctionne mieux ; ouvert (Llama) rattrapable
- “Hallucination” - Le modèle ne sait pas ce qu’il a mémorisé vs généré
Vue d’ensemble
Un LLM est une version compressée 100x de la connaissance humaine qui tient sur un laptop. Nous l’avons construit, nous pouvons l’exécuter, mais nous ne comprenons pas vraiment comment 100 milliards de paramètres collaborent pour produire l’intelligence. Nous sommes dans la position étrange d’avoir créé quelque chose de puissant avant de le comprendre pleinement.