Anthropic vient de s’offrir Vercept. La startup, fondée par trois chercheurs de l’Allen Institute for AI, avait mis au point un agent capable de lire une interface graphique et de cliquer dessus comme un humain. Son équipe de neuf personnes rejoint Anthropic, rapporte The Decoder.

Un modèle de vision qui écrase la concurrence

Ce qui a vraisemblablement tapé dans l’œil d’Anthropic, c’est VyUI. Ce modèle de reconnaissance d’interface développé par Vercept affiche des scores qui font mal à la concurrence. Sur le benchmark ScreenSpot v1, qui mesure la capacité d’une IA à identifier les éléments d’un écran, VyUI atteint 92 % de précision. Le modèle comparable d’OpenAI ? 18,3 %. Sur ScreenSpot v2, l’écart se resserre un peu (94,7 % contre 87,9 %), mais Vercept reste devant, selon les données publiées par Together.ai, qui hébergeait l’infrastructure de la startup. Concrètement, Vercept avait développé Vy, une application Mac qui permettait de piloter son ordinateur en langage naturel. Taper un texte, naviguer entre des applications, remplir un formulaire. Le tout à partir de captures d’écran, sans avoir besoin d’une API dédiée pour chaque logiciel. L’application va fermer dans les semaines qui viennent.

Pourquoi Anthropic en a besoin

Claude sait déjà manipuler des logiciels. Avec le modèle Sonnet 4.6, sorti début février, l’assistant d’Anthropic atteint 72,5 % sur OSWorld, un benchmark qui évalue la capacité d’une IA à accomplir des tâches réelles sur un ordinateur (ouvrir un fichier, modifier un tableau, envoyer un mail). Fin 2024, ce score ne dépassait pas 15 %. Mais pour aller plus loin, il faut des yeux plus affûtés. C’est exactement ce que Vercept apporte. L’enjeu est colossal. Le « computer use », la capacité d’une IA à utiliser un ordinateur comme un humain, est considéré comme la prochaine étape clé de l’intelligence artificielle appliquée. Google, OpenAI et Microsoft investissent tous dans cette direction. Anthropic, en avalant une équipe qui a battu OpenAI sur les benchmarks de vision d’interface, prend une longueur d’avance.

Le défi de la précision absolue

Piloter un ordinateur, c’est autrement plus exigeant que répondre à une question. Vercept l’avait bien compris. Selon l’étude technique publiée par Together.ai, chaque tâche Vy nécessitait plus de 200 interactions avec l’écran. Un micro-décalage de 0,005 seconde, multiplié par 200, ne provoque pas juste un ralentissement : il cause des erreurs en cascade. La startup visait 99,999 % de précision sur chaque clic. Le montant de l’acquisition n’a pas été communiqué. Les trois cofondateurs, Kiana Ehsani, Luca Weihs et Ross Girshick, intègrent directement les équipes d’Anthropic. Reste à voir quand les premiers résultats concrets de cette intégration se retrouveront dans Claude. Mais vu la vitesse à laquelle le score OSWorld a grimpé ces derniers mois, ça pourrait aller vite.