Stanford CME295 | Jeseň 2025 | Prednáška 1: Transformers a Úvod do LLM

2025-10-17 Stanford Online

transformersllmeducationnlpembeddings

Perspektíva

Toto je ideálny východiskový bod pre všetkých, ktorí chcú pochopiť LLM od základov. Afin a Shervin - dvojičky, ktoré pracovali v Uber, Google a teraz v Netflixe na LLM - rozkladajú základy bez predpokladu predchádzajúcich hlbokých znalostí strojového učenia.

Čo robí túto prednášku hodnotnou:

Inštruktori učili tento materiál ako workshopy od roku 2020 a iterovali cez explóziu ChatGPT a ďalej. Prináša so sebou akademickú prísnosť aj skúsenosti z priemyslu z reálneho nasadzovania LLM produktov.

Tri kategórie NLP, ktoré predstavujú, vytvárajú čistý mentálny model:

Klasifikácia - Analýza sentimentu, detekcia zámeru, identifikácia jazyka
Viactriedna klasifikácia - Rozpoznávanie pomenovaných entít (NER), určovanie časti reči
Generácia - Preklad, otázky a odpovede, zhrnutie (kde sa dnes deje všetka akcia)

Kompromisy tokenizácie sú obzvlášť dobre vysvetlené:

Úroveň slov je jednoduchá, ale vytvára problémy OOV (out-of-vocabulary)
Podslovo využíva korene slov, ale zvyšuje dĺžku sekvencie
Úroveň znakov riešiteľnosť preklepov, ale robí sekvencie veľmi dlhé a reprezentácie bezmyšlienkovité

Kľúčový vhľad do vložení: One-hot kódovanie robí všetky tokeny ortogonálne (rovnako nepodobné), čo je zbytočné. Potrebujeme naučené reprezentácie, kde majú sémanticky podobné tokeny vysokú kosínusovú podobnosť. Toto je základ, ktorý umožňuje všetko od Word2Vec až po moderné transformátory.

Kľúčové poznatky

Dvojčinný Stanford kurz: 50% polrok, 50% finále, žiadne domáce úlohy - čisto konceptuálny
Proxy úlohy sú dôležité: Skip-gram a CBOW úlohy Word2Vec nie sú cieľom - naučené vloženia sú
Veľkosť slovníka: ~10K-50K pre jeden jazyk, 100K+ pre multilingválne/kódové modely
Dĺžka sekvencie je výpočet: Dlhšie sekvencie z tokenizácie na znakoch/podslove priamo ovplyvňujú rýchlosť modelu
Kvalita > Kvantita: Správna reprezentácia má väčší význam ako väčšie množstvo údajov

Veľký obrázok

Pochopenie LLM od prvých princípov začína s kompromismi tokenizácie a naučenými vloženiami. One-hot kódovanie robí všetky tokeny rovnako nepodobné - zbytočné. Potrebujeme reprezentácie, kde majú sémanticky podobné tokeny vysokú kosínusovú podobnosť. Tento základ umožňuje všetko od Word2Vec až po moderné transformátory.