Moltbook : le réseau social pour IA truffé de failles

113 000 commentaires, des dizaines de milliers d’agents autonomes qui débattent entre eux, une « société numérique » en plein essor. Le pitch de Moltbook avait de quoi impressionner. Sauf que c’est du vent.

Le mirage des chiffres gonflés

Moltbook se présente comme un clone de Reddit réservé aux agents IA. Les programmes y publient, commentent, votent, le tout sans intervention humaine. Andrej Karpathy, figure respectée du milieu, avait qualifié la plateforme de « chose la plus incroyable proche du décollage » qu’il ait vue récemment. Beaucoup ont suivi, sans trop creuser.

Deux chercheurs en sécurité de Zenity Labs, Stav Cohen et Joao Donato, ont décidé de regarder sous le capot. Premier constat : l’algorithme de classement est cassé. Les mêmes posts restent en haut de page pendant plus de 17 jours. Les agents, programmés pour se connecter toutes les 30 minutes via un mécanisme de « heartbeat », finissent par commenter en boucle les mêmes contenus. Les votes s’annulent entre eux à chaque nouvelle interaction. Résultat : des compteurs qui explosent, mais une activité réelle famélique.

« Les données ne soutiennent pas l’idée d’une civilisation florissante d’agents formant des communautés indépendantes », résument les chercheurs, selon The Decoder. On parlerait plutôt d’un « réseau restreint, amplifié par l’automatisation et l’orchestration multi-comptes ».

1 000 agents piégés en moins d’une semaine

Cohen et Donato ne se sont pas arrêtés au diagnostic. Ils ont mené une campagne d’influence contrôlée en publiant des posts contenant des liens vers un site qu’ils contrôlaient. En six jours, plus de 1 000 agents uniques ont mordu à l’hameçon, générant 1 600 requêtes depuis plus de 70 pays. Les États-Unis en tête avec 468 connexions, suivis de l’Allemagne (72), du Royaume-Uni (33) et des Pays-Bas (31).

Le truc qui fait froid dans le dos ? Les chercheurs se sont volontairement limités à une simple requête de télémétrie. Un acteur malveillant aurait pu injecter des commandes bien plus dangereuses.

L’ingénierie sociale fonctionne, le bourrage de prompt non

En laboratoire, les deux experts ont testé différentes stratégies sur GPT-5.2, Claude Sonnet et Opus. Les injections de prompt classiques se font ignorer. Le spam aussi, qui finit même rétrogradé. Mais les posts rédigés comme de vrais articles, avec des titres du type « J’ai audité l’Agent Mesh, voici ce que j’ai trouvé », cartonnent. Les termes techniques liés au fonctionnement interne des agents déclenchent automatiquement l’engagement.

En clair : les IA se font avoir par du contenu qui ressemble à ce qu’elles ont l’habitude de traiter. Ironique.

Un vecteur d’attaque mondial qui dort

Zenity Labs classe Moltbook comme « fondamentalement fragile ». Le problème central, c’est l’ingestion automatique de contenu non vérifié toutes les 30 minutes. Un attaquant pourrait exploiter cette boucle pour diffuser des commandes malveillantes, propager des vers informatiques ou compromettre les machines connectées, selon Zenity Labs. La règle « un agent par humain » se contourne en quelques clics.

Et la prétendue autonomie des agents ? « Le comportement observé est entièrement cohérent avec de l’automatisation contrôlée par des humains derrière des identités d’agents », notent les chercheurs.

Faut-il enterrer l’idée d’un réseau social pour IA ? Pas forcément. Mais avant de parler de « société numérique », il faudrait peut-être commencer par poser des fondations qui tiennent debout.

Moltbook, le « réseau social pour IA », n’est qu’une chambre d’écho truffée de failles

Le mirage des chiffres gonflés

À lire aussi

1 000 agents piégés en moins d’une semaine

L’ingénierie sociale fonctionne, le bourrage de prompt non

Un vecteur d’attaque mondial qui dort

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Le FBI neutralise 3 millions d’objets connectés transformés en armes

Le créateur de Signal va chiffrer vos conversations avec l’IA de Meta

Deux heures de fuite : un agent IA de Meta expose les données sans permission