Hinton & Jeff Dean : La Collaboration Qui a Construit l'IA Moderne
Perspective
C’est l’une de ces rares conversations où vous entendez l’histoire directement des personnes qui l’ont faite. Geoffrey Hinton (lauréat du prix Nobel, “parrain de l’IA”) et Jeff Dean (scientifique en chef de Google, co-responsable de Gemini) collaborent depuis 2012, et leur partenariat a essentiellement créé l’IA moderne.
Les anecdotes à elles seules valent le visionnage. AlexNet - le modèle qui a lancé la révolution du deep learning - a été entraîné sur deux GPU dans la chambre d’Alex Krizhevsky chez ses parents. “La bonne nouvelle était que nous avons payé pour les cartes GPU mais ses parents ont payé pour l’électricité,” plaisante Hinton. Quand ils ont décidé de vendre, ils se sont constitués en “DNN Research” spécifiquement pour obtenir de l’argent d’acquisition plutôt que de l’argent de salaire (“l’un est 10 fois plus important que l’autre”). La vente aux enchères s’est déroulée pendant NeurIPS dans un casino du lac Tahoe - “à l’étage nous faisions cette vente aux enchères et vous deviez surenchérir d’un million” pendant que les machines à sous sonnaient en bas.
L’insight sur la mise à l’échelle est fascinant rétrospectivement. Dean admet qu’il a intégré le parallélisme de données dans sa thèse de licence de 1990 mais “ne l’ai même pas vraiment réalisé moi-même” - il a fait “une énorme erreur” en n’augmentant pas la taille du modèle alors qu’il ajoutait des processeurs. Hinton confesse qu’il “n’a pas vraiment compris la leçon jusqu’en 2014” que les modèles plus grands fonctionnent tout simplement mieux. Ils avaient un mantra simple chez Google Brain : “modèle plus grand, plus de données, plus de calcul.”
L’histoire de Research in Motion (Blackberry) est un conte préventif pour chaque entreprise. Hinton leur a offert une meilleure technologie de reconnaissance vocale gratuitement via un stagiaire. Ils ont refusé, disant qu’ils “n’étaient pas intéressés par la reconnaissance vocale.” La réponse ironique de Dean : “Eh bien, vous n’en aviez pas besoin. Vous aviez un clavier.” Cela vient de l’entreprise canadienne dont les propriétaires se sont plus tard plaints que la recherche canadienne n’est “jamais exploitée au Canada.”
Sur les transformers, Hinton admet qu’il n’a “pas fait assez attention” initialement parce qu’il s’intéresse aux mécanismes plausibles pour le cerveau. Le problème de dépendance séquentielle des LSTM a conduit à l’insight de simplement “sauvegarder tous les états et y prêter attention.” Combinées au mixture-of-experts, ces améliorations algorithmiques se sont “multipliées ensemble” - nous faisons maintenant des milliards de fois plus de calcul qu’il y a 10 ans.
Points Clés
- Le budget d’entraînement d’AlexNet était deux GPU et la chambre d’un adolescent - les percées ne nécessitent pas initialement une infrastructure à un milliard de dollars
- “Modèle plus grand, plus de données, plus de calcul” était la loi de mise à l’échelle informelle chez Google Brain des années avant que les lois de mise à l’échelle formelles ne soient publiées
- L’aveuglement corporatif a tué Blackberry : ils ont rejeté une technologie de reconnaissance vocale gratuite parce qu’ils avaient des claviers
- Les améliorations algorithmiques (transformers, modèles épars) se multiplient avec les améliorations matérielles - l’augmentation du calcul est “des milliards de fois” sur une décennie