Stanford CME295 | Herbst 2025 | Vorlesung 1: Transformers & LLMs Einführung
Perspektive
Dies ist der ideale Ausgangspunkt für jeden, der LLMs von Grund auf verstehen möchte. Afin und Shervin - Zwillingsbrüder, die bei Uber, Google und jetzt Netflix an LLMs gearbeitet haben - erklären die Grundlagen, ohne vorherige tiefgreifende Deep Learning-Kenntnisse vorauszusetzen.
Was macht diese Vorlesung wertvoll:
Die Dozenten unterrichten dieses Material seit 2020 in Workshops, haben dabei die ChatGPT-Explosion und darüber hinaus durchlaufen. Sie bringen sowohl akademische Genauigkeit als auch Industrieerfahrung aus der praktischen Umsetzung von LLM-Produkten mit.
Die drei Bereiche der NLP, die sie einführen, schaffen ein klares Mentalmodell:
- Klassifizierung - Sentiment-Analyse, Intent-Erkennung, Spracherkennung
- Mehrklassen-Klassifizierung - Named Entity Recognition (NER), Part-of-Speech Tagging
- Generierung - Übersetzung, Frage-Antwort, Zusammenfassung (wo heute die ganze Action stattfindet)
Die Tokenisierungs-Kompromisse werden besonders gut erklärt:
- Wort-Ebene ist einfach, erzeugt aber OOV-Probleme (Out-of-Vocabulary)
- Subwort nutzt Wort-Wurzeln, erhöht aber die Sequenzlänge
- Zeichen-Ebene behebt Tippfehler, macht Sequenzen aber sehr lang und Darstellungen bedeutungslos
Die Schlüsseleinsicht zu Embeddings: One-Hot-Codierung macht alle Token orthogonal (gleich ähnlich), was nutzlos ist. Wir benötigen gelernte Darstellungen, bei denen semantisch ähnliche Token eine hohe Kosinus-Ähnlichkeit aufweisen. Dies ist die Grundlage, die alles von Word2Vec bis zu modernen Transformern ermöglicht.
Wichtigste Erkenntnisse
- Zwei-Einheiten Stanford-Kurs: 50% Zwischenprüfung, 50% Abschlussprüfung, keine Hausaufgaben - rein konzeptionell
- Proxy-Aufgaben zählen: Die Skip-Gram- und CBOW-Aufgaben von Word2Vec sind nicht das Ziel - die gelernten Embeddings sind es
- Wortschatzgröße: ~10K-50K für eine einzelne Sprache, 100K+ für mehrsprachige/Code-Modelle
- Sequenzlänge ist Berechnung: Längere Sequenzen aus Zeichen-/Subwort-Tokenisierung beeinflussen die Modellgeschwindigkeit direkt
- Qualität > Quantität: Die richtige Darstellung zu haben, ist wichtiger als mehr Daten zu haben
Großes Bild
Das Verständnis von LLMs von Grund auf beginnt mit Tokenisierungs-Kompromissen und gelernten Embeddings. One-Hot-Codierung macht alle Token gleich unterschiedlich - nutzlos. Wir benötigen Darstellungen, bei denen semantisch ähnliche Token eine hohe Kosinus-Ähnlichkeit aufweisen. Diese Grundlage ermöglicht alles von Word2Vec bis zu modernen Transformern.