Los agentes de IA de larga duración ya están aquí: Cómo construir agentes que trabajen por horas

Algo notable está ocurriendo.

Los agentes de IA ya no están limitados a tareas rápidas. Están construyendo aplicaciones completas. Procesando miles de documentos. Ejecutando proyectos de investigación de varios días.

Anthropic acaba de publicar investigación sobre agentes que construyeron un clon completo de Claude.ai — más de 200 características a lo largo de múltiples sesiones.

Este es el cambio de "asistente de IA" a "trabajador de IA". Y está ocurriendo ahora.

El avance: Agentes que sostienen el trabajo

Durante años, los agentes de IA estuvieron atrapados en el modo de conversación única. Podías obtener resultados impresionantes en una sesión, pero ¿cualquier cosa que requiriera esfuerzo sostenido? No era posible.

Eso cambió.

El insight clave de la investigación de Anthropic: con la infraestructura correcta, los agentes pueden trabajar de manera confiable durante horas, días, incluso semanas.

No teóricamente. En la práctica. Lo demostraron haciendo que los agentes construyeran una aplicación web lista para producción desde cero.

"El harness proporciona capacidades de gestión de contexto que permiten a los agentes trabajar sin agotar los límites de tokens."

Esta es una capacidad fundamentalmente nueva. Veamos qué la hace posible.

Qué hace posibles a los agentes de larga duración

El patrón Agent Harness

El avance no es un mejor modelo — es una mejor infraestructura alrededor del modelo.

Un agent harness es el andamiaje que permite el trabajo sostenido:

Componente	Qué hace
Gestión de contexto	Resume el trabajo anterior para liberar tokens para nuevas tareas
Persistencia de estado	Recuerda decisiones y progreso entre sesiones
Configuración del entorno	Cada sesión comienza desde un estado limpio y conocido
Seguimiento de progreso	Archivos estructurados muestran qué está hecho y qué sigue

Piénsalo como documentación de traspaso de turno para IA. Cada "turno" (sesión) hereda todo del anterior.

Cómo se conectan las sesiones

Sesión 1: Inicializar
├── Configurar entorno
├── Crear seguimiento de progreso
├── Completar primer hito
└── Documentar estado

Sesiones 2-N: Continuar
├── Cargar estado anterior
├── Retomar donde se dejó
├── Completar siguiente hito
└── Documentar estado

Sesión final: Completar
├── Terminar trabajo restante
├── Verificar que todo funcione
└── Traspaso limpio

La magia: Cada sesión es independiente, pero el harness crea continuidad.

Cinco patrones que desbloquean el trabajo de larga duración

La investigación de Anthropic identificó lo que separa a los agentes que sostienen el trabajo de los que no lo hacen. Aquí están los patrones:

1. El patrón inicializador

Comienza cada proyecto con estructura.

La primera sesión es especial — establece la base:

# init.sh - Cómo ejecutar este proyecto
npm install && npm run dev

# progress.txt - Dónde estamos
Proyecto: Portal del cliente
Estado: Inicializado
Completado: Configuración del entorno
Siguiente: Implementar autenticación

Por qué funciona: Cada sesión posterior sabe exactamente cómo retomar el trabajo.

2. Requisitos estructurados (JSON > prosa)

Dale a los agentes una lista de verificación, no una novela.

{
  "features": [
    {"name": "Registro de usuario", "status": "complete", "verified": true},
    {"name": "Restablecimiento de contraseña", "status": "in_progress", "verified": false},
    {"name": "Gestión de sesiones", "status": "pending", "verified": false}
  ]
}

Por qué funciona: La estructura clara previene el scope creep y hace visible el progreso.

3. Progreso basado en hitos

Divide los proyectos grandes en puntos de control claros.

En lugar de "construye la aplicación", estructura el trabajo como:

✅ Flujo de autenticación
✅ Esquema de base de datos
🔄 Dashboard de usuario
⏳ Página de configuración
⏳ Funciones de exportación

Por qué funciona: Cada sesión tiene un objetivo claro y alcanzable. El progreso se acumula.

4. Verificación de extremo a extremo

Confía, pero verifica — automáticamente.

Los mejores resultados vienen de exigir verificación real:

// Antes de marcar como completo, los agentes ejecutan flujos de usuario reales
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Verificar que el flujo realmente funciona

Por qué funciona: Detecta problemas de integración que las pruebas unitarias pasan por alto. Anthropic vio 3,2× mejor detección de bugs con automatización del navegador.

5. Traspasos limpios

Termina cada sesión lista para la siguiente.

Lista de verificación al final de la sesión:

✅ Todas las pruebas pasando
✅ Archivo de progreso actualizado
✅ Sin cambios sin commit
✅ Próximos pasos documentados

Por qué funciona: La siguiente sesión empieza construyendo, no depurando.

Los resultados: Qué es realmente posible

La prueba de producción de Anthropic — construir un clon de Claude.ai:

Métrica	Resultado
Características construidas	200+
Sesiones requeridas	8-12
Características por sesión	8-12
Tasa de aprobación end-to-end	91 %

La métrica clave: pass^3 (confiabilidad en intentos consecutivos) alcanzó 78 % — consistencia lista para producción.

Esto no es una demo. Es una prueba de que el trabajo sostenido de IA es alcanzable hoy.

Dos métricas que importan

Al evaluar el rendimiento de agentes de larga duración, enfócate en:

pass@k: "¿Puede tener éxito?"

Probabilidad de éxito en al menos uno de k intentos. Mide capacidad.

pass^k: "¿Tiene éxito consistentemente?"

Probabilidad de éxito en TODOS los k intentos. Mide confiabilidad.

La brecha entre estos revela la oportunidad. Un agente con 80 % pass@1 pero 51 % pass^3 tiene espacio para mejorar la consistencia — y ahí es donde el patrón harness más ayuda.

Lo que esto desbloquea para las organizaciones

Los agentes de larga duración abren nuevas posibilidades:

Proyectos de desarrollo

Construir características a lo largo de múltiples sesiones
Refactorizar bases de código sistemáticamente
Tratar la deuda técnica de forma incremental

Procesamiento de documentos

Analizar miles de documentos durante días
Extraer y estructurar información a escala
Mantener contexto en grandes corpus

Investigación y análisis

Proyectos de investigación de varios días con síntesis
Monitoreo y reporte continuos
Inmersiones profundas que agotarían la atención humana

Operaciones

Automatización continua de procesos
Flujos de trabajo de múltiples pasos con verificación
Tareas que abarcan horarios de trabajo

El cambio: De "la IA ayuda con tareas" a "la IA completa proyectos."

Cómo empezar

Si quieres construir agentes que sostengan el trabajo:

1. Diseña para sesiones, no para conversaciones

Piensa en cada ventana de contexto como un turno. ¿Qué necesita saber el siguiente turno?

2. Invierte en gestión de estado

Archivos de progreso, commits de git, requisitos estructurados. Esta infraestructura es el habilitador.

3. Automatiza la verificación

No le preguntes a los agentes si tuvieron éxito. Verifica automáticamente.

4. Comienza con hitos claros

Divide el trabajo en partes alcanzables. Deja que el progreso se acumule.

5. Mide la confiabilidad (pass^k)

La capacidad es el requisito mínimo. La consistencia es lo que importa para producción.

La oportunidad por venir

Estamos en un punto de inflexión.

Los agentes de IA han pasado de "demos impresionantes" a "trabajo sostenido". Los patrones de infraestructura están documentados. Los resultados están probados.

Lo que es posible ahora:

Agentes que trabajen en tu base de código durante horas
Procesamiento de documentos que se extiende por días
Proyectos de investigación que agotarían el enfoque humano
Operaciones que corren continuamente

La pregunta no es si los agentes de IA pueden hacer trabajo sostenido. Pueden.

La pregunta es: ¿qué construirás con ellos?

Pruébalo tú mismo

TeamDay construye flujos de trabajo de IA que corren de forma confiable — con gestión de estado, verificación y la infraestructura que hace posible el trabajo sostenido.

Inicia tu prueba gratuita →

Construye agentes que completen proyectos, no solo que los comiencen.

Lectura relacionada

Mejores modelos de IA en OpenRouter 2026 — Los agentes de larga duración consumen millones de tokens. Ve qué modelos ofrecen el mejor equilibrio costo/rendimiento, incluyendo opciones gratuitas para fases de exploración.
Mejores prácticas de Claude Code — Domina la gestión de contexto y la optimización de tokens para sesiones sostenidas de Claude Code.

Fuentes:

Demystifying Evals for AI Agents - Anthropic Engineering
Effective Harnesses for Long-Running Agents - Anthropic Engineering

Los agentes de IA de larga duración ya están aquí: Cómo construir agentes que trabajen por horas

Los agentes de IA de larga duración ya están aquí: Cómo construir agentes que trabajen por horas

El avance: Agentes que sostienen el trabajo

Qué hace posibles a los agentes de larga duración

El patrón Agent Harness

Cómo se conectan las sesiones

Cinco patrones que desbloquean el trabajo de larga duración

1. El patrón inicializador

2. Requisitos estructurados (JSON > prosa)

3. Progreso basado en hitos

4. Verificación de extremo a extremo

5. Traspasos limpios

Los resultados: Qué es realmente posible

Dos métricas que importan

pass@k: "¿Puede tener éxito?"

pass^k: "¿Tiene éxito consistentemente?"

Lo que esto desbloquea para las organizaciones

Proyectos de desarrollo

Procesamiento de documentos

Investigación y análisis

Operaciones

Cómo empezar

1. Diseña para sesiones, no para conversaciones

2. Invierte en gestión de estado

3. Automatiza la verificación

4. Comienza con hitos claros

5. Mide la confiabilidad (pass^k)

La oportunidad por venir

Pruébalo tú mismo

Lectura relacionada

Turn the best models into shipped work