Jeff Dean: Un Recorrido de 15 Años por Cómo Surgieron los Modelos de IA Modernos

AI Engineer
lectureresearchtrainingdeepmindtutorial

Perspectiva

Este es Jeff Dean - empleado #30 de Google, creador de MapReduce y BigTable, fundador de Google Brain, ahora Científico Jefe en DeepMind - ofreciendo la historia definitiva de cómo surgieron los modelos de IA modernos. Es esencialmente la historia desde adentro del auge del deep learning de alguien que estuvo allí para todo.

La humildad de equivocarse en la escala. En 1990, Dean estaba tan emocionado por las redes neuronales que hizo su tesis de maestría sobre entrenamiento paralelo usando una máquina hipercubo de 32 procesadores. “Estaba completamente equivocado. Necesitabas aproximadamente un millón de veces más poder de procesamiento para hacer redes neuronales realmente buenas, no 32 veces.” Ese instinto sobre la escala resultaría ser correcto - solo estaba equivocado por órdenes de magnitud.

La historia de origen de Google Brain es deliciosamente casual. En 2012, Dean se encontró con Andrew Ng en una micro cocina de Google. Ng mencionó que sus estudiantes de Stanford estaban obteniendo buenos resultados con redes neuronales en reconocimiento de voz. La respuesta de Dean: “Oh, eso es genial. Deberíamos entrenar redes neuronales realmente grandes.” Esa conversación se convirtió en Google Brain y el sistema de incredulidad (nombrado “en parte porque la gente no creía que iba a funcionar”).

El cálculo de espalda de sobre que lanzó los TPUs. Dean se dio cuenta de que si Google implementaba su nuevo modelo de reconocimiento de voz de alta calidad y 100 millones de personas hablaban en sus teléfonos 3 minutos diarios, necesitarían duplicar la capacidad completa del centro de datos de Google. El hardware especializado no era opcional - era existencial. TPU v1 entregó una aceleración de 15-30x sobre CPUs/GPUs y eficiencia energética de 30-80x. El artículo ahora es el más citado en la historia de 50 años de ISCA.

Cada avance importante obtiene una diapositiva. Word2vec y el descubrimiento de que las direcciones de vectores son significativas (rey - hombre + mujer = reina). Modelos secuencia-a-secuencia para traducción. Transformers mostrando eficiencia de cómputo 10-100x superior a los LSTMs. Aprendizaje autosupervisado en texto produciendo “casi infinitos ejemplos de entrenamiento”. Vision Transformers logrando lo último con 4-20x menos cómputo. Modelos sparse que activan solo 1-5% de parámetros por predicción. Chain-of-thought prompting. Destilación. RLHF.

El marco de progreso es sobrecogedor. “Hace tres años estábamos realmente emocionados de haber obtenido un 15% de precisión en problemas de matemáticas de octavo grado.” Ese benchmark GSM8K - problemas de palabras de escuela media como “Sean tiene cinco juguetes y para Navidad recibió dos más” - ahora está esencialmente resuelto.

Puntos Clave

  • Google Brain comenzó en una micro cocina - Dean se reunió con Andrew Ng, decidieron “entrenar redes neuronales realmente grandes”
  • Incredulidad: “matemáticamente incorrecto pero funcionó” - Entrenamiento asincrónico con 200 réplicas de modelo actualizando parámetros compartidos
  • Paper del gato (2012) - 10M fotogramas de YouTube, aprendizaje no supervisado, las neuronas aprendieron el concepto de “gato” sin etiquetas
  • Las direcciones Word2vec son semánticas - Rey - hombre + mujer = reina; direcciones de tiempo pasado/futuro
  • Imperativo de TPU - Implementar mejor reconocimiento de voz habría duplicado los centros de datos de Google
  • TPUv1 - 15-30x más rápido, 30-80x más eficiente en energía que CPUs/GPUs
  • Transformers (2017) - 10-100x menos cómputo que LSTMs para la misma precisión; atención sobre recurrencia
  • Modelos sparse - Solo 1-5% de parámetros activados por predicción; Gemini usa esto
  • Chain of thought - El modelo hace más cómputo por token “mostrando su trabajo”
  • Destilación - 3% de datos de entrenamiento con objetivos suaves coincide con 100% de datos con etiquetas duras
  • Pathways - Un proceso Python único puede direccionar 10,000 dispositivos TPU en áreas metropolitanas
  • Progreso GSM8K - Precisión del 15% hace 3 años en matemáticas de 8º grado; ahora esencialmente resuelto

Panorama General

Quince años de avances compuestos - desde el paper del gato hasta los transformers y modelos sparse - crearon la IA moderna. Cada paso parecía incremental; juntos son transformadores. La persona que construyó MapReduce ahora dirige sistemas que resuelven problemas considerados imposibles hace tres años.