Pre-entrenamiento
/priː ˈtreɪnɪŋ/
Also known as: pretraining, foundation model training, base model training
¿Qué es el Pre-entrenamiento?
El pre-entrenamiento es la primera fase de entrenamiento de un modelo de lenguaje grande, donde el modelo aprende comprensión general del lenguaje de cantidades masivas de texto. Piensa en ello como leer miles de millones de libros, artículos y sitios web para aprender gramática, hechos y patrones en el lenguaje.
Durante el pre-entrenamiento, el modelo procesa miles de millones de palabras y predice repetidamente el próximo token en una secuencia. Este enfoque auto-supervisado—aprender de la estructura de los datos mismos en lugar de etiquetas humanas—es lo que permite a los LLMs desarrollar capacidades amplias.
El Pipeline de Pre-entrenamiento
1. Recolección de Datos Reunir texto diverso de libros, artículos, sitios web, repositorios de código y otras fuentes. El dataset FineWeb de Hugging Face, por ejemplo, contiene 15 billones de tokens (44TB) de 96 snapshots de CommonCrawl.
2. Limpieza de Datos Eliminar duplicados, elementos no textuales, problemas de formato y contenido de baja calidad. La calidad de los datos afecta dramáticamente la calidad del modelo.
3. Tokenización Convertir texto en tokens numéricos que el modelo puede procesar. El texto se divide en subpalabras o caracteres y se mapea a números únicos.
4. Entrenamiento La tarea central: predecir el próximo token en una secuencia. El modelo ve “El gato se sentó en el” y aprende a predecir “tapete” (o similar). Repetido miles de millones de veces, esto construye una comprensión profunda del lenguaje.
Recursos Requeridos
El pre-entrenamiento es extraordinariamente intensivo en recursos:
- Tiempo: Semanas a meses de entrenamiento continuo
- Cómputo: Miles de GPUs ejecutándose en paralelo
- Datos: Billones de tokens
- Costo: Millones de dólares para modelos frontera
Por esto la mayoría de las organizaciones ajustan finamente modelos existentes en lugar de pre-entrenar desde cero.
Pre-entrenamiento vs. Ajuste Fino
| Aspecto | Pre-entrenamiento | Ajuste Fino |
|---|---|---|
| Objetivo | Comprensión general del lenguaje | Tarea o comportamiento específico |
| Datos | Billones de tokens, diversos | Miles a millones, dirigidos |
| Tiempo | Semanas a meses | Horas a días |
| Costo | Millones de dólares | Cientos a miles |
| Quién lo hace | Laboratorios de modelos de fundación | Cualquiera con un caso de uso |
El Paradigma de Dos Fases
El desarrollo moderno de LLM se describe en dos fases:
- Pre-entrenamiento: Construye capacidades de lenguaje de propósito general
- Post-entrenamiento: Refina y alinea estas capacidades (incluye ajuste fino, RLHF, DPO)
Como lo describe Andrej Karpathy, el pre-entrenamiento es “una forma mediocre de evolución”—seleccionar modelos que predicen bien el texto de internet. El post-entrenamiento luego moldea esta capacidad cruda en algo útil y seguro.
Desarrollos de 2025
Pre-entrenamiento por Refuerzo (RPT): Investigadores de Microsoft reformularon la predicción del próximo token como un problema de toma de decisiones secuencial, potencialmente mejorando cómo los modelos aprenden durante el pre-entrenamiento.
Escasez de datos: Los datos de texto de alta calidad se están volviendo escasos. Los laboratorios están explorando datos sintéticos, datos multimodales y métodos de entrenamiento más eficientes.
Límites de escalado: El escalado puro del pre-entrenamiento está mostrando retornos decrecientes, cambiando el enfoque a innovaciones de post-entrenamiento.
Lecturas Relacionadas
- Leyes de Escalado - La relación entre cómputo de pre-entrenamiento y rendimiento
- Andrej Karpathy - Llama al pre-entrenamiento “evolución mediocre”
- John Schulman - Pionero en técnicas de post-entrenamiento