Generalization

/ˌdʒenərəlaɪˈzeɪʃən/

Also known as: out-of-distribution generalization, transfer learning, domain adaptation

research intermediate

Qu’est-ce que la généralisation ?

La généralisation est la capacité d’un modèle à bien performer sur des données nouvelles, jamais vues auparavant, plutôt que de simplement mémoriser les exemples d’entraînement. C’est sans doute la propriété la plus importante de tout système d’apprentissage automatique—un modèle qui ne fonctionne que sur des données qu’il a vues auparavant a une valeur pratique limitée.

La question fondamentale : Le modèle apprend-il les modèles et principes sous-jacents, ou mémorise-t-il simplement des exemples spécifiques ?

Pourquoi la généralisation est importante

Entraînement vs. Réalité : Les modèles sont entraînés sur des ensembles de données fixes, mais déployés dans des environnements dynamiques et imprévisibles. Une bonne généralisation comble cet écart.

Situations nouvelles : Les cas d’usage du monde réel impliquent des combinaisons et contextes que le modèle n’a jamais vus pendant l’entraînement.

Vraie compréhension : Un modèle qui généralise bien comprend probablement des modèles plus profonds plutôt que des corrélations de surface.

Types de généralisation

Dans la distribution : Bien performer sur de nouveaux exemples similaires aux données d’entraînement. La plupart des benchmarks testent cela.

Hors distribution (OOD) : Gérer des exemples qui diffèrent significativement des données d’entraînement. Beaucoup plus difficile.

Zero-shot : Effectuer des tâches jamais explicitement entraînées.

Few-shot : Apprendre de nouvelles tâches à partir de quelques exemples seulement.

Transfert : Appliquer des connaissances d’un domaine à un autre.

Le problème de généralisation dans les LLM

Les grands modèles de langage présentent un modèle déroutant. Ils peuvent :

  • Obtenir un score supérieur à la moyenne humaine à l’examen du barreau
  • Écrire du code sophistiqué
  • Expliquer des concepts scientifiques complexes

Pourtant ils :

  • Échouent à des énigmes logiques simples
  • Font des erreurs arithmétiques de base
  • Manquent des contradictions évidentes

Cette incohérence—ce que Demis Hassabis appelle “l’intelligence irrégulière”—révèle que les modèles actuels ne généralisent pas uniformément à travers les domaines.

Mémorisation vs. Compréhension

Un débat persistant : Les LLM généralisent-ils vraiment, ou font-ils de la correspondance de motifs contre les données d’entraînement mémorisées ?

Preuves de généralisation :

  • Combinaisons créatives nouvelles
  • Résolution de problèmes non dans les données d’entraînement
  • Transfert inter-domaines

Preuves de mémorisation :

  • La performance se dégrade avec des formulations nouvelles
  • Difficultés avec des scénarios vraiment nouveaux
  • Préoccupations de contamination des benchmarks

La vérité est probablement quelque part entre les deux—les modèles généralisent certains modèles tout en mémorisant d’autres.

Tester la généralisation

Ensembles de test retenus : Données retenues de l’entraînement pour évaluer la performance.

Exemples adverses : Entrées conçues pour tromper les modèles, testant la robustesse.

Décalages de distribution : Tests sur des données provenant de différentes sources ou périodes.

Types de tâches nouvelles : Évaluation sur des catégories de tâches non présentes dans l’entraînement.

Pourquoi c’est difficile

La malédiction de la dimensionnalité : À mesure que la complexité d’entrée augmente, l’espace des entrées possibles explose exponentiellement.

Corrélations parasites : Les modèles peuvent apprendre des raccourcis qui fonctionnent sur les données d’entraînement mais échouent généralement.

Biais des données : Les données d’entraînement peuvent ne pas représenter la distribution complète des scénarios du monde réel.

Défis d’évaluation : Difficile de savoir si un modèle généralise vraiment ou a simplement vu des exemples similaires pendant l’entraînement.

Le chemin à suivre

Améliorer la généralisation nécessitera probablement :

  • Meilleures architectures : Modèles de monde, raisonnement causal
  • Entraînement plus riche : Multimodal, apprentissage incarné
  • Apprentissage curriculaire : Exposition progressive à des exemples plus difficiles
  • Quantification de l’incertitude : Savoir quand le modèle est hors de sa profondeur

Lectures connexes