Stanford CME295 | Podzim 2025 | Přednáška 1: Transformery a úvod do LLM

2025-10-17 Stanford Online

transformersllmeducationnlpembeddings

Perspektiva

Toto je ideální výchozí bod pro kohokoli, kdo chce pochopit LLM od základů. Afin a Shervin - dvojčata, která pracovala na LLM v Uberu, Googlu a nyní v Netflixu - vysvětlují základy bez předpokladu předchozích znalostí z deep learningu.

Proč je tato přednáška cenná:

Instruktoři vyučují tento obsah jako semináře od roku 2020, iterují se přes ChatGPT boom a dále. Přinášejí jak akademickou přesnost, tak zkušenosti z průmyslu získané při skutečném nasazování LLM produktů.

Tři segmenty NLP, které představují, vytvářejí čistý mentální model:

Klasifikace - Sentiment, detekce záměru, identifikace jazyka
Multiklasifikace - Rozpoznávání pojmenovaných entit (NER), tagging částí řeči
Generování - Překlad, otázky a odpovědi, sumarizace (kde se dnes děje veškerá akce)

Kompromisy tokenizace jsou zvlášť dobře vysvětleny:

Úroveň slov je jednoduchá, ale vytváří problémy OOV (out-of-vocabulary)
Subword využívá kořeny slov, ale zvyšuje délku sekvence
Úroveň znaků zvládá překlepy, ale vytváří velmi dlouhé sekvence a zbytečné reprezentace

Klíčová pozorování o embeddingu: One-hot encoding činí všechny tokeny ortogonální (stejně nepodobné), což je zbytečné. Potřebujeme naučené reprezentace, kde jsou sémanticky podobné tokeny vysoce podobné podle kosinové podobnosti. Toto je základ, který umožňuje vše od Word2Vec až po moderní transformery.

Klíčové poznatky

Dvousemestrální kurz na Stanfordu: 50% zápočtový test, 50% závěrečná zkouška, žádné domácí úkoly - čistě konceptuální
Proxy úkoly mají význam: Úkoly skip-gram a CBOW z Word2Vec nejsou cílem - naučené embeddingy jsou
Velikost slovníku: ~10K-50K pro jeden jazyk, 100K+ pro vícejazyčné/kódové modely
Délka sekvence je výpočet: Delší sekvence z tokenizace na úrovni znaků/subword přímo ovlivňují rychlost modelu
Kvalita > kvantita: Mít správnou reprezentaci je důležitější než mít více dat

Velký obrázek

Pochopení LLM od základů začíná kompromisy tokenizace a naučenými embeddingy. One-hot encoding činí všechny tokeny stejně nepodobné - zbytečné. Potřebujeme reprezentace, kde jsou sémanticky podobné tokeny vysoce podobné podle kosinové podobnosti. Tento základ umožňuje vše od Word2Vec až po moderní transformery.