Stanford CME295 | Herbst 2025 | Vorlesung 1: Transformers & LLMs Einführung

2025-10-17 Stanford Online

transformersllmeducationnlpembeddings

Perspektive

Dies ist der ideale Ausgangspunkt für jeden, der LLMs von Grund auf verstehen möchte. Afin und Shervin - Zwillingsbrüder, die bei Uber, Google und jetzt Netflix an LLMs gearbeitet haben - erklären die Grundlagen, ohne vorherige tiefgreifende Deep Learning-Kenntnisse vorauszusetzen.

Was macht diese Vorlesung wertvoll:

Die Dozenten unterrichten dieses Material seit 2020 in Workshops, haben dabei die ChatGPT-Explosion und darüber hinaus durchlaufen. Sie bringen sowohl akademische Genauigkeit als auch Industrieerfahrung aus der praktischen Umsetzung von LLM-Produkten mit.

Die drei Bereiche der NLP, die sie einführen, schaffen ein klares Mentalmodell:

Klassifizierung - Sentiment-Analyse, Intent-Erkennung, Spracherkennung
Mehrklassen-Klassifizierung - Named Entity Recognition (NER), Part-of-Speech Tagging
Generierung - Übersetzung, Frage-Antwort, Zusammenfassung (wo heute die ganze Action stattfindet)

Die Tokenisierungs-Kompromisse werden besonders gut erklärt:

Wort-Ebene ist einfach, erzeugt aber OOV-Probleme (Out-of-Vocabulary)
Subwort nutzt Wort-Wurzeln, erhöht aber die Sequenzlänge
Zeichen-Ebene behebt Tippfehler, macht Sequenzen aber sehr lang und Darstellungen bedeutungslos

Die Schlüsseleinsicht zu Embeddings: One-Hot-Codierung macht alle Token orthogonal (gleich ähnlich), was nutzlos ist. Wir benötigen gelernte Darstellungen, bei denen semantisch ähnliche Token eine hohe Kosinus-Ähnlichkeit aufweisen. Dies ist die Grundlage, die alles von Word2Vec bis zu modernen Transformern ermöglicht.

Wichtigste Erkenntnisse

Zwei-Einheiten Stanford-Kurs: 50% Zwischenprüfung, 50% Abschlussprüfung, keine Hausaufgaben - rein konzeptionell
Proxy-Aufgaben zählen: Die Skip-Gram- und CBOW-Aufgaben von Word2Vec sind nicht das Ziel - die gelernten Embeddings sind es
Wortschatzgröße: ~10K-50K für eine einzelne Sprache, 100K+ für mehrsprachige/Code-Modelle
Sequenzlänge ist Berechnung: Längere Sequenzen aus Zeichen-/Subwort-Tokenisierung beeinflussen die Modellgeschwindigkeit direkt
Qualität > Quantität: Die richtige Darstellung zu haben, ist wichtiger als mehr Daten zu haben

Großes Bild

Das Verständnis von LLMs von Grund auf beginnt mit Tokenisierungs-Kompromissen und gelernten Embeddings. One-Hot-Codierung macht alle Token gleich unterschiedlich - nutzlos. Wir benötigen Darstellungen, bei denen semantisch ähnliche Token eine hohe Kosinus-Ähnlichkeit aufweisen. Diese Grundlage ermöglicht alles von Word2Vec bis zu modernen Transformern.