Le harness d'Anthropic inspire des GAN pour la construction autonome d'applications

agentsclaudeautomationagentic-codingenterprise

Comment Anthropic apprend a l’IA a construire des applications completes

Prithvi Rajasekaran d’Anthropic Labs partage une analyse technique detaillee des patterns de harness qui permettent a Claude de construire des designs frontend de qualite production et des applications full-stack de maniere autonome. L’approche s’inspire directement des Generative Adversarial Networks (GANs) — en separant le createur du critique.

La degradation du contexte est le tueur silencieux : Le premier constat majeur est que les agents naifs fonctionnant sur de longues periodes echouent non pas a cause de limites de capacite, mais a cause de la pollution du contexte. “Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.” (Les reinitalisations de contexte — vider et redemarrer avec des transferts structures — se sont averees plus efficaces que la compaction seule.) Plutot que d’essayer de resumer un contexte en croissance perpetuelle, le harness l’efface periodiquement et transmet un etat structure a une nouvelle session.

L’auto-evaluation n’est pas fiable : Le deuxieme mode de defaillance est tout aussi insidieux — les agents louent avec assurance leur propre travail meme quand la qualite est mediocre. “Separating generator and evaluator roles proved more tractable than making generators self-critical.” (Separer les roles de generateur et d’evaluateur s’est avere plus praticable que de rendre les generateurs autocritiques.) C’est l’intuition des GAN appliquee au genie logiciel : ne faites pas confiance au constructeur pour noter son propre travail.

L’evaluateur utilise un navigateur en direct : Le systeme ne se contente pas de lire le code — il utilise Playwright pour interagir avec l’application en direct, en evaluant selon quatre criteres : qualite du design, originalite, finition et fonctionnalite. Chaque cycle de generation execute 5 a 15 tours d’evaluation avant que le resultat ne soit accepte.

Architecture full-stack a trois agents : Pour les applications completes, le harness deploie un Planificateur (brief → spec produit), un Generateur (implemente par sprints) et un Evaluateur (tests end-to-end avec Playwright avec des seuils stricts de reussite/echec). Le Planificateur reste intentionnellement a haut niveau pour eviter les erreurs d’implementation en cascade.

L’economie est reelle : Un agent seul sur Opus 4.5 a pris 20 minutes et coute 9 $ — mais a produit des fonctionnalites non fonctionnelles. Le harness complet a pris 6 heures et coute 200 $ — mais a livre une application fonctionnelle avec une UX nettement meilleure. L’evaluateur a detecte des problemes d’ordonnancement de routes, des entites manquantes et des implementations d’outils incorrectes que le generateur avait livrees avec assurance.

5 enseignements cles pour construire des travailleurs IA autonomes

  • Les criteres d’evaluation encodent le gout — En definissant la « qualite du design » et l’« originalite » comme des dimensions evaluables, les equipes peuvent orienter les resultats vers des preferences esthetiques et fonctionnelles qui seraient autrement implicites
  • La communication entre agents par fichiers fonctionne — Les agents communiquent via des fichiers (specs, avancement, exigences) plutot que par echange de messages, gardant le travail fidele aux specifications sans le sur-contraindre
  • La complexite du harness devrait diminuer avec le temps — Avec Opus 4.6, la decomposition en sprints a ete entierement supprimee tout en maintenant la qualite. Testez en permanence quel echafaudage est encore porteur
  • L’evaluateur detecte les lacunes du dernier kilometre — Meme quand le generateur est excellent, l’evaluateur trouve des bugs d’integration, des routes manquantes et des etats casses que l’auto-revision manque
  • Le cout evolue avec l’ambition — 200 $ pour une application fonctionnelle, c’est cher pour une demo, mais pas cher pour un produit. Le harness rend le compromis explicite

Ce que les boucles generateur-evaluateur signifient pour les organisations IA

C’est le plan le plus clair a ce jour sur la maniere dont le travail autonome de l’IA livre reellement des resultats de qualite. La lecon n’est pas « utilisez plus d’agents » — c’est que separer la creation de l’evaluation est fondamental pour un travail autonome fiable. Les organisations deployant des agents IA pour des taches de production devraient concevoir leurs architectures d’agents de la meme maniere : ne laissez jamais l’agent qui a construit quelque chose etre le seul a l’approuver. A mesure que les modeles s’ameliorent, l’echafaudage se simplifie — mais la separation des responsabilites persiste.