El Harness Inspirado en GANs de Anthropic para Construcción Autónoma de Aplicaciones

2026-03-24 Anthropic Engineering

agentsclaudeautomationagentic-codingenterprise

Cómo Anthropic Enseña a la IA a Construir Aplicaciones Completas

Prithvi Rajasekaran de Anthropic Labs comparte un análisis técnico detallado de los patrones de harness que permiten a Claude construir diseños frontend de calidad de producción y aplicaciones full-stack de forma autónoma. El enfoque se inspira directamente en las Redes Generativas Adversarias (GANs) — separando al creador del crítico.

La degradación del contexto es el asesino silencioso: La primera gran revelación es que los agentes ingenuos de larga ejecución no fallan por límites de capacidad, sino por contaminación del contexto. “Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.” (Los reinicios de contexto — limpiar y reiniciar con traspasos estructurados — resultaron más efectivos que la compactación sola.) En lugar de intentar resumir un contexto en constante crecimiento, el harness lo limpia periódicamente y traspasa el estado estructurado a una sesión nueva.

La autoevaluación no es confiable: El segundo modo de fallo es igualmente insidioso — los agentes elogian con confianza su propio trabajo incluso cuando la calidad es mediocre. “Separating generator and evaluator roles proved more tractable than making generators self-critical.” (Separar los roles de generador y evaluador resultó más manejable que hacer que los generadores sean autocríticos.) Esta es la lección de las GANs aplicada a la ingeniería de software: no confíes en que el constructor califique su propio trabajo.

El evaluador usa un navegador en vivo: El sistema no solo lee código — ejecuta Playwright para interactuar con la aplicación en vivo, calificando según cuatro criterios: calidad de diseño, originalidad, acabado y funcionalidad. Cada ciclo de generación ejecuta entre 5 y 15 rondas de evaluación antes de aceptar el resultado.

Arquitectura full-stack de tres agentes: Para aplicaciones completas, el harness despliega un Planificador (brief → especificación de producto), un Generador (implementa en sprints) y un Evaluador (pruebas end-to-end con Playwright con umbrales estrictos de aprobado/reprobado). El Planificador se mantiene intencionalmente en alto nivel para evitar errores de implementación en cascada.

La economía es real: Una ejecución individual de un agente en Opus 4.5 tomó 20 minutos y $9 — pero produjo funcionalidades no operativas. El harness completo tomó 6 horas y $200 — pero entregó una aplicación funcional con una UX significativamente mejor. El evaluador detectó problemas de ordenamiento de rutas, entidades sin conectar e implementaciones incorrectas de herramientas que el generador envió con total confianza.

5 Ideas Clave para Construir Trabajadores Autónomos de IA

Los criterios de evaluación codifican el gusto — Al definir “calidad de diseño” y “originalidad” como dimensiones calificables, los equipos pueden dirigir los resultados hacia preferencias estéticas y funcionales que de otro modo serían implícitas
La comunicación entre agentes basada en archivos funciona — Los agentes se comunican a través de archivos (especificaciones, progreso, requisitos) en lugar de paso de mensajes, manteniendo el trabajo fiel a las especificaciones sin sobrerestringir
La complejidad del harness debería disminuir con el tiempo — Con Opus 4.6, la descomposición en sprints se eliminó por completo manteniendo la calidad. Evalúa continuamente qué andamiaje sigue siendo estructuralmente necesario
El evaluador detecta las brechas de última milla — Incluso cuando el generador es excelente, el evaluador encuentra errores de integración, rutas faltantes y estados rotos que la autorrevisión pasa por alto
El costo escala con la ambición — $200 por una aplicación funcional es caro para una demo, barato para un producto. El harness hace explícita la compensación

Qué Significan los Bucles Generador-Evaluador para las Organizaciones de IA

Este es el plano más claro hasta ahora de cómo el trabajo autónomo de IA realmente entrega resultados de calidad. La lección no es “usa más agentes” — es que separar la creación de la evaluación es fundamental para un trabajo autónomo confiable. Las organizaciones que despliegan agentes de IA para tareas de producción deberían diseñar sus arquitecturas de agentes de la misma manera: nunca permitas que el agente que construyó algo sea el único que lo apruebe. A medida que los modelos mejoran, el andamiaje se simplifica — pero la separación de responsabilidades persiste.