Jeff Dean en NeurIPS: El Boceto en la Servilleta que Lanzó TPUs y Por Qué la Investigación Académica de IA Necesita Financiación

AI Engineer
interviewresearchdeepmindtrainingenterprise

Perspectiva

Este es Jeff Dean en NeurIPS 2024, anunciando recientemente TPU v7 (Ironwood), y es un lado diferente de él - menos conferencia técnica, más reflexión estratégica sobre cómo sucede realmente la innovación en IA y por qué necesita apoyo institucional.

El boceto en la servilleta que cambió el hardware para siempre. En 2013, Dean hizo un cálculo al dorso del sobre: si Google implementara su mejor modelo de reconocimiento de voz a 100 millones de usuarios durante unos minutos diarios, necesitarían duplicar toda la capacidad de centros de datos de Google - solo para una mejora de una característica. “Los requisitos de computación se volvieron bastante aterradores.” Ese experimento mental lanzó el programa TPU. Para 2015, TPUv1 estaba en centros de datos - 30-70x más eficiente en energía que CPUs/GPUs, 15-30x más rápido. Pre-transformer.

El co-diseño de hardware/software está pronosticando todo el campo del ML. Cada generación de TPU requiere predecir dónde estarán los cálculos de ML de 2.5-6 años en el futuro. “No es algo muy fácil.” La estrategia: agregar características de hardware pequeñas que podrían importar. Si dan resultado, estás listo. Si no, has perdido un pequeño pedazo de área de chip. La arquitectura transformer nació en Google en una “línea de tiempo muy similar” a los TPUs - serendipia en el co-diseño.

La abstracción Pathways está subestimada. Un único proceso Python puede direccionar 20,000 dispositivos TPU en múltiples pods, múltiples edificios, múltiples áreas metropolitanas. Pathways automáticamente averigua qué red usar - interconexión de alta velocidad dentro de pods, red de centro de datos a través de pods, enlaces de larga distancia en ciudades. Todo el entrenamiento de Gemini se ejecuta en Jax → Pathways → XLA → TPUs.

La financiación de investigación académica es el proyecto de pasión de Dean. “Toda la revolución del deep learning se construyó sobre investigación académica de hace 30-40 años.” Las redes neuronales y la retropropagación vinieron de la academia. Google en sí se construyó sobre TCP/IP, procesadores RISC, y el Proyecto de Biblioteca Digital de Stanford (que financió PageRank). Dean aboga por el modelo del Instituto Lo: subvenciones moonshot de 3-5 años con 3-5 PIs y 30-50 estudiantes de doctorado dirigidas a impactos sociales específicos.

Moonshot de IA en Salud: aprender de cada decisión pasada para informar cada una futura. El objetivo aspiracional de Dean: usar cada decisión de salud pasada para ayudar a cada clínico y a cada persona a tomar mejores decisiones. “Super difícil” debido a privacidad, fragmentación regulatoria e inconsistencias en formatos de datos. Requiere aprendizaje federado y ML preservador de privacidad porque “no vas a poder mover datos de salud de donde están.”

Conclusiones Clave

  • TPU v7 (Ironwood) - 9,216 chips por pod, soporte de precisión FP4, rendimiento máximo de 3,600x vs TPUv2
  • El boceto en la servilleta - Implementar un mejor reconocimiento de voz habría duplicado los centros de datos de Google; los TPUs eran existenciales
  • TPUv1 (2015) - 30-70x más eficiente en energía, 15-30x más rápido que CPUs/GPUs; era pre-transformer
  • Pronóstico de hardware - Cada generación de TPU requiere predecir necesidades de ML 2.5-6 años adelante
  • Pathways - Un único proceso Python direcciona 20,000 dispositivos a través de áreas metropolitanas; todo el entrenamiento de Gemini usa esto
  • Continuo de publicación - No es binario publicar/no publicar; las características de Pixel se lanzan primero, los trabajos de SIGGRAPH siguen después
  • Conferencia de investigación interna de Google - 6,000 asistentes; “podría parecer un año adelante” de NeurIPS
  • Moonshots de 3-5 años - Horizonte temporal preferido de Dean: “no tan distante que no tenga impacto, no tan corto que no puedas ser ambicioso”
  • Documento Titan - Transformer híbrido + recurrencia; “idea interesante para explorar” pero no en Gemini todavía
  • Moonshot de Salud - Aprender de cada decisión pasada; requiere aprendizaje federado, no se puede mover datos de salud

Visión General

Los TPUs existen porque un cálculo al dorso del sobre mostró que implementar un mejor reconocimiento de voz duplicaría los centros de datos de Google. El co-diseño de hardware/software requiere predecir necesidades de ML 2.5-6 años adelante. Hoy, un único proceso Python puede direccionar 20,000 dispositivos a través de múltiples ciudades. Esa es la infraestructura que habilita los modelos de frontera.