Los agentes de IA de larga duración ya están aquí: Cómo construir agentes que trabajen por horas
Algo notable está ocurriendo.
Los agentes de IA ya no están limitados a tareas rápidas. Están construyendo aplicaciones completas. Procesando miles de documentos. Ejecutando proyectos de investigación de varios días.
Anthropic acaba de publicar investigación sobre agentes que construyeron un clon completo de Claude.ai — más de 200 características a lo largo de múltiples sesiones.
Este es el cambio de “asistente de IA” a “trabajador de IA”. Y está ocurriendo ahora.
El avance: Agentes que sostienen el trabajo
Durante años, los agentes de IA estuvieron atrapados en el modo de conversación única. Podías obtener resultados impresionantes en una sesión, pero ¿cualquier cosa que requiriera esfuerzo sostenido? No era posible.
Eso cambió.
El insight clave de la investigación de Anthropic: con la infraestructura correcta, los agentes pueden trabajar de manera confiable durante horas, días, incluso semanas.
No teóricamente. En la práctica. Lo demostraron haciendo que los agentes construyeran una aplicación web lista para producción desde cero.
“El harness proporciona capacidades de gestión de contexto que permiten a los agentes trabajar sin agotar los límites de tokens.”
Esta es una capacidad fundamentalmente nueva. Veamos qué la hace posible.
Qué hace posibles a los agentes de larga duración
El patrón Agent Harness
El avance no es un mejor modelo — es una mejor infraestructura alrededor del modelo.
Un agent harness es el andamiaje que permite el trabajo sostenido:
| Componente | Qué hace |
|---|---|
| Gestión de contexto | Resume el trabajo anterior para liberar tokens para nuevas tareas |
| Persistencia de estado | Recuerda decisiones y progreso entre sesiones |
| Configuración del entorno | Cada sesión comienza desde un estado limpio y conocido |
| Seguimiento de progreso | Archivos estructurados muestran qué está hecho y qué sigue |
Piénsalo como documentación de traspaso de turno para IA. Cada “turno” (sesión) hereda todo del anterior.
Cómo se conectan las sesiones
Sesión 1: Inicializar
├── Configurar entorno
├── Crear seguimiento de progreso
├── Completar primer hito
└── Documentar estado
Sesiones 2-N: Continuar
├── Cargar estado anterior
├── Retomar donde se dejó
├── Completar siguiente hito
└── Documentar estado
Sesión final: Completar
├── Terminar trabajo restante
├── Verificar que todo funcione
└── Traspaso limpio
La magia: Cada sesión es independiente, pero el harness crea continuidad.
Cinco patrones que desbloquean el trabajo de larga duración
La investigación de Anthropic identificó lo que separa a los agentes que sostienen el trabajo de los que no lo hacen. Aquí están los patrones:
1. El patrón inicializador
Comienza cada proyecto con estructura.
La primera sesión es especial — establece la base:
# init.sh - Cómo ejecutar este proyecto
npm install && npm run dev
# progress.txt - Dónde estamos
Proyecto: Portal del cliente
Estado: Inicializado
Completado: Configuración del entorno
Siguiente: Implementar autenticación
Por qué funciona: Cada sesión posterior sabe exactamente cómo retomar el trabajo.
2. Requisitos estructurados (JSON > prosa)
Dale a los agentes una lista de verificación, no una novela.
{
"features": [
{"name": "Registro de usuario", "status": "complete", "verified": true},
{"name": "Restablecimiento de contraseña", "status": "in_progress", "verified": false},
{"name": "Gestión de sesiones", "status": "pending", "verified": false}
]
}
Por qué funciona: La estructura clara previene el scope creep y hace visible el progreso.
3. Progreso basado en hitos
Divide los proyectos grandes en puntos de control claros.
En lugar de “construye la aplicación”, estructura el trabajo como:
- ✅ Flujo de autenticación
- ✅ Esquema de base de datos
- 🔄 Dashboard de usuario
- ⏳ Página de configuración
- ⏳ Funciones de exportación
Por qué funciona: Cada sesión tiene un objetivo claro y alcanzable. El progreso se acumula.
4. Verificación de extremo a extremo
Confía, pero verifica — automáticamente.
Los mejores resultados vienen de exigir verificación real:
// Antes de marcar como completo, los agentes ejecutan flujos de usuario reales
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Verificar que el flujo realmente funciona
Por qué funciona: Detecta problemas de integración que las pruebas unitarias pasan por alto. Anthropic vio 3,2× mejor detección de bugs con automatización del navegador.
5. Traspasos limpios
Termina cada sesión lista para la siguiente.
Lista de verificación al final de la sesión:
- ✅ Todas las pruebas pasando
- ✅ Archivo de progreso actualizado
- ✅ Sin cambios sin commit
- ✅ Próximos pasos documentados
Por qué funciona: La siguiente sesión empieza construyendo, no depurando.
Los resultados: Qué es realmente posible
La prueba de producción de Anthropic — construir un clon de Claude.ai:
| Métrica | Resultado |
|---|---|
| Características construidas | 200+ |
| Sesiones requeridas | 8-12 |
| Características por sesión | 8-12 |
| Tasa de aprobación end-to-end | 91 % |
La métrica clave: pass^3 (confiabilidad en intentos consecutivos) alcanzó 78 % — consistencia lista para producción.
Esto no es una demo. Es una prueba de que el trabajo sostenido de IA es alcanzable hoy.
Dos métricas que importan
Al evaluar el rendimiento de agentes de larga duración, enfócate en:
pass@k: “¿Puede tener éxito?”
Probabilidad de éxito en al menos uno de k intentos. Mide capacidad.
pass^k: “¿Tiene éxito consistentemente?”
Probabilidad de éxito en TODOS los k intentos. Mide confiabilidad.
La brecha entre estos revela la oportunidad. Un agente con 80 % pass@1 pero 51 % pass^3 tiene espacio para mejorar la consistencia — y ahí es donde el patrón harness más ayuda.
Lo que esto desbloquea para las organizaciones
Los agentes de larga duración abren nuevas posibilidades:
Proyectos de desarrollo
- Construir características a lo largo de múltiples sesiones
- Refactorizar bases de código sistemáticamente
- Tratar la deuda técnica de forma incremental
Procesamiento de documentos
- Analizar miles de documentos durante días
- Extraer y estructurar información a escala
- Mantener contexto en grandes corpus
Investigación y análisis
- Proyectos de investigación de varios días con síntesis
- Monitoreo y reporte continuos
- Inmersiones profundas que agotarían la atención humana
Operaciones
- Automatización continua de procesos
- Flujos de trabajo de múltiples pasos con verificación
- Tareas que abarcan horarios de trabajo
El cambio: De “la IA ayuda con tareas” a “la IA completa proyectos.”
Cómo empezar
Si quieres construir agentes que sostengan el trabajo:
1. Diseña para sesiones, no para conversaciones
Piensa en cada ventana de contexto como un turno. ¿Qué necesita saber el siguiente turno?
2. Invierte en gestión de estado
Archivos de progreso, commits de git, requisitos estructurados. Esta infraestructura es el habilitador.
3. Automatiza la verificación
No le preguntes a los agentes si tuvieron éxito. Verifica automáticamente.
4. Comienza con hitos claros
Divide el trabajo en partes alcanzables. Deja que el progreso se acumule.
5. Mide la confiabilidad (pass^k)
La capacidad es el requisito mínimo. La consistencia es lo que importa para producción.
La oportunidad por venir
Estamos en un punto de inflexión.
Los agentes de IA han pasado de “demos impresionantes” a “trabajo sostenido”. Los patrones de infraestructura están documentados. Los resultados están probados.
Lo que es posible ahora:
- Agentes que trabajen en tu base de código durante horas
- Procesamiento de documentos que se extiende por días
- Proyectos de investigación que agotarían el enfoque humano
- Operaciones que corren continuamente
La pregunta no es si los agentes de IA pueden hacer trabajo sostenido. Pueden.
La pregunta es: ¿qué construirás con ellos?
Pruébalo tú mismo
TeamDay construye flujos de trabajo de IA que corren de forma confiable — con gestión de estado, verificación y la infraestructura que hace posible el trabajo sostenido.
Construye agentes que completen proyectos, no solo que los comiencen.
Lectura relacionada
- Mejores modelos de IA en OpenRouter 2026 — Los agentes de larga duración consumen millones de tokens. Ve qué modelos ofrecen el mejor equilibrio costo/rendimiento, incluyendo opciones gratuitas para fases de exploración.
- Mejores prácticas de Claude Code — Domina la gestión de contexto y la optimización de tokens para sesiones sostenidas de Claude Code.
Fuentes:
- Demystifying Evals for AI Agents - Anthropic Engineering
- Effective Harnesses for Long-Running Agents - Anthropic Engineering