Stanford CME295 | Automne 2025 | Cours 1 : Introduction aux Transformers et LLMs

Stanford Online
transformersllmeducationnlpembeddings

Perspective

C’est le point de départ idéal pour quiconque souhaite comprendre les LLMs à partir des premiers principes. Afin et Shervin - des frères jumeaux qui ont travaillé chez Uber, Google, et maintenant Netflix sur les LLMs - décomposent les fondamentaux sans présupposer d’expertise préalable en deep learning.

Ce qui rend ce cours précieux :

Les instructeurs enseignent ce contenu sous forme d’ateliers depuis 2020, itérant à travers l’explosion de ChatGPT et au-delà. Ils apportent à la fois la rigueur académique et l’expérience industrielle d’avoir réellement déployé des produits LLM.

Les trois catégories du NLP qu’ils introduisent créent un modèle mental clair :

  1. Classification - Sentiment, détection d’intention, identification de langue
  2. Multi-classification - Reconnaissance d’entités nommées (NER), étiquetage morpho-syntaxique
  3. Génération - Traduction, Q&R, résumé (où se situe toute l’action aujourd’hui)

Les compromis de la tokenisation sont particulièrement bien expliqués :

  • Au niveau des mots est simple mais crée des problèmes OOV (out-of-vocabulary)
  • Au niveau des sous-mots exploite les racines des mots mais augmente la longueur des séquences
  • Au niveau des caractères gère les fautes d’orthographe mais rend les séquences très longues et les représentations sans signification

L’insight clé sur les embeddings : L’encodage one-hot rend tous les tokens orthogonaux (également dissimilaires), ce qui est inutile. Nous avons besoin de représentations apprises où les tokens sémantiquement similaires ont une similarité cosinus élevée. C’est la fondation qui permet tout, de Word2Vec aux transformers modernes.

Points Clés

  • Cours Stanford de deux unités : 50% examen de mi-parcours, 50% final, pas de devoirs - purement conceptuel
  • Les tâches proxy comptent : Les tâches skip-gram et CBOW de Word2Vec ne sont pas l’objectif - ce sont les embeddings appris qui le sont
  • Taille du vocabulaire : ~10K-50K pour une langue unique, 100K+ pour les modèles multilingues/code
  • La longueur de séquence est du calcul : Des séquences plus longues issues de la tokenisation caractère/sous-mot impactent directement la vitesse du modèle
  • Qualité > quantité : Avoir la bonne représentation compte plus qu’avoir plus de données

Vue d’Ensemble

Comprendre les LLMs à partir des premiers principes commence par les compromis de tokenisation et les embeddings appris. L’encodage one-hot rend tous les tokens également dissimilaires - inutile. Nous avons besoin de représentations où les tokens sémantiquement similaires ont une similarité cosinus élevée. Cette fondation permet tout, de Word2Vec aux transformers modernes.