Stanford CME295 | Otoño 2025 | Lección 1: Introducción a Transformers y LLMs

2025-10-17 Stanford Online

transformersllmeducaciónnlpembeddings

Perspectiva

Este es el punto de partida ideal para cualquiera que quiera entender los LLMs desde los primeros principios. Afin y Shervin - hermanos gemelos que han trabajado en Uber, Google, y ahora en Netflix en LLMs - desglosan los fundamentos sin asumir experiencia previa en aprendizaje profundo.

Lo que hace valiosa esta lección:

Los instructores han estado enseñando este material como talleres desde 2020, iterando a través de la explosión de ChatGPT y más allá. Aportan tanto rigor académico como experiencia industrial de productos LLM realmente implementados.

Los tres tipos de NLP que presentan crean un modelo mental limpio:

Clasificación - Sentimiento, detección de intención, identificación de idioma
Multiclasificación - Reconocimiento de entidades nombradas (NER), etiquetado de partes del discurso
Generación - Traducción, preguntas y respuestas, resumen (donde está toda la acción hoy)

Los trade-offs de tokenización se explican particularmente bien:

A nivel de palabra es simple pero crea problemas de OOV (fuera de vocabulario)
Subword aprovecha las raíces de palabras pero aumenta la longitud de secuencia
A nivel de carácter maneja errores ortográficos pero hace las secuencias muy largas y las representaciones sin sentido

La perspectiva clave sobre incrustaciones: La codificación one-hot hace que todos los tokens sean ortogonales (igualmente disímiles), lo que es inútil. Necesitamos representaciones aprendidas donde tokens semánticamente similares tengan alta similitud coseno. Esta es la base que permite todo, desde Word2Vec hasta transformers modernos.

Puntos Clave

Curso de Stanford de dos unidades: 50% examen parcial, 50% examen final, sin tareas - puramente conceptual
Las tareas proxy importan: Las tareas skip-gram y CBOW de Word2Vec no son el objetivo - las incrustaciones aprendidas sí lo son
Tamaño del vocabulario: ~10K-50K para un solo idioma, 100K+ para modelos multilingües/código
La longitud de secuencia es cómputo: Las secuencias más largas de tokenización a nivel de carácter/subword impactan directamente la velocidad del modelo
Calidad > cantidad: Tener la representación correcta importa más que tener más datos

Panorama General

Entender los LLMs desde los primeros principios comienza con trade-offs de tokenización e incrustaciones aprendidas. La codificación one-hot hace que todos los tokens sean igualmente disímiles - inútil. Necesitamos representaciones donde tokens semánticamente similares tengan alta similitud coseno. Esta base permite todo, desde Word2Vec hasta transformers modernos.