Hinton y Jeff Dean: La Colaboración Que Construyó la IA Moderna

Radical Ventures
interviewresearchenterprisefuture-of-work

Perspectiva

Esta es una de esas raras conversaciones donde estás escuchando historia directamente de las personas que la hicieron. Geoffrey Hinton (laureado Nobel, “padrino de la IA”) y Jeff Dean (científico jefe de Google, co-líder de Gemini) han estado colaborando desde 2012, y su asociación esencialmente creó la IA moderna.

Las anécdotas por sí solas valen la pena verlo. AlexNet - el modelo que inició la revolución del aprendizaje profundo - fue entrenado en dos GPUs en el dormitorio de Alex Krizhevsky en la casa de sus padres. “La buena noticia fue que pagamos por las tarjetas GPU pero sus padres pagaron la electricidad”, bromea Hinton. Cuando decidieron vender, se incorporaron como “DNN Research” específicamente para obtener dinero de adquisición en lugar de dinero salarial (“uno es 10 veces más grande que el otro”). La subasta ocurrió durante NeurIPS en un casino de Lake Tahoe - “arriba estábamos haciendo esta subasta y tenías que aumentar por un millón” mientras las máquinas tragamonedas sonaban abajo.

El insight del escalamiento es fascinante en retrospectiva. Dean admite que construyó paralelismo de datos en su tesis de pregrado de 1990 pero “ni siquiera lo realicé yo mismo” - cometió “un gran error” al no aumentar el tamaño del modelo a medida que agregaba procesadores. Hinton confiesa que “no entendí completamente la lección hasta 2014” de que los modelos más grandes simplemente funcionan mejor. Tenían un mantra simple en Google Brain: “modelo más grande, más datos, más cómputo”.

La historia de Research in Motion (Blackberry) es una historia de advertencia para cada empresa. Hinton les ofreció mejor tecnología de reconocimiento de voz gratis a través de un pasante. Declinaron, diciendo que “no estaban interesados en el reconocimiento de voz”. La respuesta irónica de Dean: “Bueno, no lo necesitabas. Tenías un teclado”. Esto de la empresa canadiense cuyos dueños luego se quejaron de que la investigación canadiense “nunca se explota en Canadá”.

Sobre los transformers, Hinton admite que “no presté suficiente atención” inicialmente porque está interesado en mecanismos plausibles para el cerebro. El problema de dependencia secuencial de los LSTMs llevó al insight de simplemente “guardar todos los estados y atenderlos”. Combinadas con mixture-of-experts, estas mejoras algorítmicas se han “multiplicado juntas” - ahora estamos haciendo miles de millones de veces más cómputo que hace 10 años.

Puntos Clave

  • El presupuesto de entrenamiento de AlexNet fue dos GPUs y el dormitorio de un adolescente - los avances no requieren infraestructura de miles de millones de dólares inicialmente
  • “Modelo más grande, más datos, más cómputo” fue la ley de escalamiento informal en Google Brain años antes de que se publicaran las leyes de escalamiento formales
  • La ceguera corporativa mató a Blackberry: rechazaron tecnología de reconocimiento de voz gratis porque tenían teclados
  • Las mejoras algorítmicas (transformers, modelos dispersos) se multiplican con las mejoras de hardware - el aumento de cómputo es “miles de millones de veces” en una década