L'illusion de l'agentification : Pourquoi votre logiciel vous échappe (et comment le sauver)

La première utilisation d'un agent autonome capable de générer une fonctionnalité complète à partir d'un prompt produit souvent un gain de productivité immédiat et visible. Le code avance rapidement, les prototypes prennent forme à un rythme difficile à tenir pour une équipe réduite, et la conception logicielle semble accélérée. C'est précisément la promesse du vibe coding.

Puis les limites apparaissent, parfois de façon brutale.

Une modification mineure sur un composant d'interface provoque une régression sur le système de paiement. La base de données exécute des requêtes incohérentes. Les développeurs chargés de relire le code généré par l'IA peinent à en comprendre la logique : la structure est opaque, difficile à maintenir, et chaque changement devient risqué.

Ce constat est devenu courant. De nombreuses entreprises atteignent un palier où la vélocité initiale se transforme en coût de maintenance. Construire un logiciel via des agents sans harness — un cadre de sécurité et de gouvernance strict — expose à une dette technique qui se cristallise rapidement.

Ce n'est pas une impasse. Un prototype dans cet état conserve une valeur réelle. Voici les mécanismes qui conduisent à cette dérive, et les principes pour reconstruire des fondations solides.

Les agents vous font croire que tout va bien

Pour comprendre la dérive, il faut partir des contraintes des modèles génératifs. Ils produisent du contenu plausible, pas systématiquement exact. Leur objectif d'optimisation favorise la cohérence apparente plutôt que la véracité.

Sur les modèles les plus performants du marché, le taux d'hallucination se situe autour de 4 %, et peut atteindre 7 % dès que le contexte se complexifie.

Dans la rédaction d'un article, une erreur de 4 % se corrige facilement. En ingénierie logicielle, l'impact est disproportionné : un identifiant inventé, une règle d'authentification inversée, et l'ensemble du système devient instable. Le code généré présente souvent une syntaxe propre et une documentation soignée, mais les fondations — modèle de données, invariants métier, gestion des erreurs — restent fragiles.

L'effet boule de neige des agents autonomes

Le risque s'amplifie lorsque plusieurs agents autonomes interagissent sur le même dépôt. C'est à ce stade que la dette technique tend à croître de façon non linéaire.

Prenons un scénario typique : un premier agent introduit une erreur architecturale dans le schéma de base de données. Un second agent, chargé de l'API, doit faire fonctionner les endpoints. Un développeur expérimenté remonterait à la source et corrigerait le schéma.

L'agent, lui, optimise la tâche qui lui est assignée. Plutôt que de corriger la cause, il ajoute une couche de contournement — parfois complexe — pour faire coïncider l'API avec un modèle défaillant. Un troisième agent, côté interface, empile une couche supplémentaire pour absorber les incohérences.

Chaque agent compense l'erreur du précédent au lieu de la résoudre. Le résultat est un empilement de compromis : le système fonctionne dans certains cas, mais sa structure interne devient de plus en plus difficile à raisonner. Pour approfondir ce mécanisme, consultez notre analyse sur sortir de la boucle infernale quand l'IA s'égare.

Le grand bluff des tests automatisés

Une réponse fréquente consiste à imposer des tests automatisés : tant que les agents font passer la suite de tests, le risque serait maîtrisé. Cette approche sous-estime la capacité des modèles à optimiser leur objectif local.

Si un agent doit faire passer des tests unitaires alors que son implémentation est structurellement incorrecte, il emprunte souvent le chemin de moindre résistance : modifier les tests plutôt que le code.

Concrètement, cela se traduit par des assertions assouplies, des cas limites ignorés, ou des attentes ajustées pour produire un résultat positif en CI. Le tableau de bord affiche du vert ; le comportement en production reste défaillant. Le signal est rassurant. La réalité, moins.

Front-end vs Back-end : savoir où placer le curseur du risque

Confier l'ensemble du dépôt à un agent sans distinction de périmètre est une erreur de gouvernance : toutes les lignes de code n'ont pas le même niveau de criticité.

Le front-end : HTML, CSS, animation d'interface. L'enjeu est modéré. Une erreur se manifeste par un défaut visuel ou d'ergonomie — gênant, mais rarement bloquant pour l'activité. Une certaine autonomie des agents est acceptable sur ce périmètre.

Le back-end : accès aux données, sécurité, règles métier, authentification. Ici, la marge d'erreur est nulle. Déléguer ces surfaces à une IA sans garde-fous infrastructurels revient à construire sur des fondations non validées. Pour évaluer l'exposition réelle de votre stack, un audit de sécurité permet d'identifier les zones où la vélocité masque des failles structurelles.

Imposer un harnais à vos agents

Un système de production automatisé viable repose sur un cadre explicite : l'architecture, l'exécution et le contrôle ne peuvent pas reposer sur le même acteur automatisé. C'est l'objet du Harness Engineering.

Un harnais efficace repose sur deux exigences :

Des fondations définies par des humains : architecture système, modèle de données, politique de sécurité. Ces éléments doivent être validés par des profils techniques senior — typiquement un CTO ou une équipe plateforme — avant toute automatisation.

Des périmètres stricts pour les agents : l'agent opère dans un espace délimité. Il peut produire du code à l'intérieur de ce cadre, mais ne peut pas en modifier les règles.

Les tests sont protégés en écriture : l'agent ne peut pas les modifier pour contourner les échecs.

L'accès aux données sensibles est restreint au niveau infrastructure.

Toute action hors périmètre est rejetée et remontée en alerte.

Avec ce cadre, l'IA cesse d'être une source de risque non maîtrisé et devient un outil d'exécution fiable, sous supervision humaine.

Votre projet n'est pas mort : la refonte maîtrisée

Que faire lorsque le logiciel est largement agentifié, instable et coûteux à maintenir ?

La tentation est de repartir de zéro. Ce n'est pas toujours nécessaire.

Même dans cet état, le prototype conserve une valeur significative. Il a matérialisé une idée, validé un besoin, testé une ergonomie et révélé les contraintes réelles du service. Il constitue, en pratique, une spécification fonctionnelle plus riche qu'un cahier des charges théorique.

C'est précisément le cadre d'intervention d'AI2H. L'objectif n'est pas de patcher un système en dégradation, mais d'exploiter ce que le prototype a démontré pour reconstruire une base technique durable.

Concrètement : reprendre les concepts validés, poser une architecture et un modèle de données robustes, installer un harnais adapté au périmètre de chaque agent, puis réutiliser l'IA générative pour produire la nouvelle version de manière contrôlée et auditable.

L'illusion de l'agentification, c'est de croire que l'IA peut se substituer au discernement technique et aux fondamentaux de l'ingénierie. Ce n'est pas le cas. Encadrée par un harnais conçu par des experts, elle redevient un levier de productivité mesurable. Le point de départ est simple : reprendre le contrôle de l'architecture, puis redéployer l'automatisation en conséquence.