Stanford CME295 | Podzim 2025 | Přednáška 1: Transformery a úvod do LLM

Stanford Online
transformersllmeducationnlpembeddings

Perspektiva

Toto je ideální výchozí bod pro kohokoli, kdo chce pochopit LLM od základů. Afin a Shervin - dvojčata, která pracovala na LLM v Uberu, Googlu a nyní v Netflixu - vysvětlují základy bez předpokladu předchozích znalostí z deep learningu.

Proč je tato přednáška cenná:

Instruktoři vyučují tento obsah jako semináře od roku 2020, iterují se přes ChatGPT boom a dále. Přinášejí jak akademickou přesnost, tak zkušenosti z průmyslu získané při skutečném nasazování LLM produktů.

Tři segmenty NLP, které představují, vytvářejí čistý mentální model:

  1. Klasifikace - Sentiment, detekce záměru, identifikace jazyka
  2. Multiklasifikace - Rozpoznávání pojmenovaných entit (NER), tagging částí řeči
  3. Generování - Překlad, otázky a odpovědi, sumarizace (kde se dnes děje veškerá akce)

Kompromisy tokenizace jsou zvlášť dobře vysvětleny:

  • Úroveň slov je jednoduchá, ale vytváří problémy OOV (out-of-vocabulary)
  • Subword využívá kořeny slov, ale zvyšuje délku sekvence
  • Úroveň znaků zvládá překlepy, ale vytváří velmi dlouhé sekvence a zbytečné reprezentace

Klíčová pozorování o embeddingu: One-hot encoding činí všechny tokeny ortogonální (stejně nepodobné), což je zbytečné. Potřebujeme naučené reprezentace, kde jsou sémanticky podobné tokeny vysoce podobné podle kosinové podobnosti. Toto je základ, který umožňuje vše od Word2Vec až po moderní transformery.

Klíčové poznatky

  • Dvousemestrální kurz na Stanfordu: 50% zápočtový test, 50% závěrečná zkouška, žádné domácí úkoly - čistě konceptuální
  • Proxy úkoly mají význam: Úkoly skip-gram a CBOW z Word2Vec nejsou cílem - naučené embeddingy jsou
  • Velikost slovníku: ~10K-50K pro jeden jazyk, 100K+ pro vícejazyčné/kódové modely
  • Délka sekvence je výpočet: Delší sekvence z tokenizace na úrovni znaků/subword přímo ovlivňují rychlost modelu
  • Kvalita > kvantita: Mít správnou reprezentaci je důležitější než mít více dat

Velký obrázek

Pochopení LLM od základů začíná kompromisy tokenizace a naučenými embeddingy. One-hot encoding činí všechny tokeny stejně nepodobné - zbytečné. Potřebujeme reprezentace, kde jsou sémanticky podobné tokeny vysoce podobné podle kosinové podobnosti. Tento základ umožňuje vše od Word2Vec až po moderní transformery.