Stanford CME295 | Jeseň 2025 | Prednáška 1: Transformers a Úvod do LLM

Stanford Online
transformersllmeducationnlpembeddings

Perspektíva

Toto je ideálny východiskový bod pre všetkých, ktorí chcú pochopiť LLM od základov. Afin a Shervin - dvojičky, ktoré pracovali v Uber, Google a teraz v Netflixe na LLM - rozkladajú základy bez predpokladu predchádzajúcich hlbokých znalostí strojového učenia.

Čo robí túto prednášku hodnotnou:

Inštruktori učili tento materiál ako workshopy od roku 2020 a iterovali cez explóziu ChatGPT a ďalej. Prináša so sebou akademickú prísnosť aj skúsenosti z priemyslu z reálneho nasadzovania LLM produktov.

Tri kategórie NLP, ktoré predstavujú, vytvárajú čistý mentálny model:

  1. Klasifikácia - Analýza sentimentu, detekcia zámeru, identifikácia jazyka
  2. Viactriedna klasifikácia - Rozpoznávanie pomenovaných entít (NER), určovanie časti reči
  3. Generácia - Preklad, otázky a odpovede, zhrnutie (kde sa dnes deje všetka akcia)

Kompromisy tokenizácie sú obzvlášť dobre vysvetlené:

  • Úroveň slov je jednoduchá, ale vytvára problémy OOV (out-of-vocabulary)
  • Podslovo využíva korene slov, ale zvyšuje dĺžku sekvencie
  • Úroveň znakov riešiteľnosť preklepov, ale robí sekvencie veľmi dlhé a reprezentácie bezmyšlienkovité

Kľúčový vhľad do vložení: One-hot kódovanie robí všetky tokeny ortogonálne (rovnako nepodobné), čo je zbytočné. Potrebujeme naučené reprezentácie, kde majú sémanticky podobné tokeny vysokú kosínusovú podobnosť. Toto je základ, ktorý umožňuje všetko od Word2Vec až po moderné transformátory.

Kľúčové poznatky

  • Dvojčinný Stanford kurz: 50% polrok, 50% finále, žiadne domáce úlohy - čisto konceptuálny
  • Proxy úlohy sú dôležité: Skip-gram a CBOW úlohy Word2Vec nie sú cieľom - naučené vloženia sú
  • Veľkosť slovníka: ~10K-50K pre jeden jazyk, 100K+ pre multilingválne/kódové modely
  • Dĺžka sekvencie je výpočet: Dlhšie sekvencie z tokenizácie na znakoch/podslove priamo ovplyvňujú rýchlosť modelu
  • Kvalita > Kvantita: Správna reprezentácia má väčší význam ako väčšie množstvo údajov

Veľký obrázok

Pochopenie LLM od prvých princípov začína s kompromismi tokenizácie a naučenými vloženiami. One-hot kódovanie robí všetky tokeny rovnako nepodobné - zbytočné. Potrebujeme reprezentácie, kde majú sémanticky podobné tokeny vysokú kosínusovú podobnosť. Tento základ umožňuje všetko od Word2Vec až po moderné transformátory.