Geoffrey Hinton : La compréhension, ce sont des blocs Lego à mille dimensions qui se serrent la main
Le « parrain de l'IA » explique pourquoi les LLM comprennent le langage de la même manière que nous, pourquoi Chomsky a tort, et la conclusion inquiétante sur le calcul numérique vs biologique.
Perspective
Voici Geoffrey Hinton - lauréat du Prix Turing, "parrain de l'IA", l'homme qui a quitté Google pour nous alerter sur les risques de l'IA - donnant peut-être l'explication la plus accessible jamais donnée de ce qu'est réellement la compréhension. L'analogie des blocs Lego à mille dimensions va changer votre façon de penser les modèles de langage.
"Si l'énergie est bon marché, le calcul numérique est simplement meilleur car il peut partager les connaissances efficacement. GPT-4 en sait des milliers de fois plus que n'importe quelle personne."
— Geoffrey Hinton, lauréat du Prix Turing
"Je pense que Chomsky est une sorte de gourou." Hinton ne mâche pas ses mots. L'affirmation de Chomsky selon laquelle le langage n'est pas appris est "manifestement absurde" - et si vous pouvez amener les gens à accepter quelque chose de manifestement absurde, "vous les tenez". Pendant des décennies, les linguistes étaient convaincus que les réseaux neuronaux ne pourraient jamais apprendre à la fois la syntaxe et la sémantique à partir des seules données. "Chomsky était tellement confiant que même après que cela se soit produit, il a publié des articles disant 'ils ne seront jamais capables de faire ça' sans même vérifier."
L'analogie des blocs Lego est brillante. Imaginez les mots comme des blocs Lego à mille dimensions. Au lieu de modéliser des formes 3D, ils peuvent modéliser n'importe quoi - théories, concepts, relations. Chaque mot peut adopter une gamme de formes, contraintes par le sens. Les mots ont des "mains" qui veulent serrer la main à d'autres mots (c'est l'attention/query-key dans les transformers). Comprendre, c'est déformer ces blocs pour que leurs mains puissent se connecter - formant une structure. "Cette structure, c'est la compréhension."
Les LLM ne stockent pas de texte. Ils ne stockent pas de tableaux. L'objection de "l'autocomplétion" mécomprehend fondamentalement le fonctionnement de ces systèmes. L'ancienne autocomplétion stockait des tableaux de fréquence de combinaisons de mots. Les LLM ont éliminé tout cela. Leur connaissance réside dans les interactions entre les caractéristiques - "un ensemble de poids dans le réseau neuronal". Comme nous.
Les hallucinations devraient être appelées confabulations - nous en faisons aussi. Hinton utilise le témoignage de John Dean sur le Watergate : Dean essayait de dire la vérité, mais "se trompait sur énormément de détails" - des réunions qui n'ont jamais eu lieu, des citations mal attribuées. Pourtant "l'essentiel de ce qu'il a dit était exactement juste". Nous ne stockons pas de fichiers pour les récupérer ; nous construisons des souvenirs quand nous en avons besoin, influencés par tout ce que nous avons appris depuis. "C'est exactement ce que font les chatbots, mais c'est aussi exactement ce que font les gens."
La conclusion inquiétante sur le partage des connaissances. Les humains partagent les connaissances par distillation - je produis des mots, vous les prédisez et vous apprenez. Mais une phrase ne contient qu'environ 100 bits d'information. Les agents numériques avec des poids partagés peuvent partager des billions de bits. "Il n'y a vraiment pas de compétition". C'est pourquoi GPT-4 en sait des milliers de fois plus que n'importe quelle personne. "Si l'énergie est bon marché, le calcul numérique est simplement meilleur car il peut partager les connaissances efficacement."
Points clés
- Transition ImageNet de 2012 - Le réseau neuronal profond a obtenu la moitié du taux d'erreur de l'IA symbolique ; "a ouvert les vannes"
- Petit modèle de langage de 1985 - Le précurseur des LLM de Hinton ; prédisait le mot suivant, ne stockait aucune phrase
- Les mots comme blocs Lego à 1000D - Formes flexibles contraintes par le sens ; "se serrent la main" via l'attention
- Compréhension = formation de structure - Déformer les vecteurs de mots pour que les mains se connectent ; cette structure EST la compréhension
- Les LLM ne stockent ni texte ni tableaux - La connaissance est dans les interactions de poids ; fondamentalement différent de l'autocomplétion
- Confabulation pas hallucination - Les LLM et les humains construisent tous deux des souvenirs ; exemple de John Dean
- La distillation est inefficace - Les phrases transportent ~100 bits ; le partage de poids transporte des billions de bits
- GPT-4 en sait 1000x plus que n'importe quelle personne - Parce que les agents numériques peuvent partager les poids, pas les mots
- Conclusion inquiétante - Si l'énergie est abondante, le calcul numérique gagne ; ils partagent les connaissances efficacement
- "Chomsky est un gourou" - Le fait que le langage ne soit pas appris est "manifestement absurde"
Vue d'ensemble
Le débat sur la question de savoir si les LLM "comprennent vraiment" est peut-être déjà tranché - ils comprennent de la même manière que nous, par la formation de structures dans un espace à haute dimension. La vraie question maintenant est de savoir ce qui se passe lorsque des esprits numériques qui partagent les connaissances un billion de fois plus efficacement que les humains deviennent abondants et bon marché.


