Demander à son téléphone de commander un Uber, et le regarder faire tout seul. C’est ce que Google vient d’annoncer ce mercredi pour Gemini sur Android.
L’IA qui clique à votre place
Le principe est simple, presque déconcertant. Vous dites à Gemini « Commande-moi un Uber jusqu’au Palace of Fine Arts » ou « Fais mes courses sur Grubhub ». L’assistant ouvre l’application dans une fenêtre virtuelle, clique sur les boutons, navigue dans les menus, remplit le panier. Vous pouvez suivre chaque étape en temps réel, intervenir si ça déraille, ou laisser tourner en arrière-plan.
Google appelle ça « task automation ». En clair : Gemini ne se contente plus de répondre à des questions. Il agit. TechCrunch rapporte que la fonctionnalité, encore en bêta, se limite pour l’instant à quelques applications de livraison de repas, de courses et de VTC. Uber et Grubhub font partie des premiers partenaires.
Détail qui compte : l’IA ne valide jamais la commande toute seule. Une fois le panier prêt, c’est vous qui appuyez sur le bouton final. Si un produit manque ou si elle hésite entre deux options, Gemini vous demande de trancher.
Pixel 10, Galaxy S26, et c’est tout
Pour l’instant, pas question d’en profiter sur n’importe quel téléphone. La fonctionnalité est réservée aux Pixel 10, Pixel 10 Pro, Pixel 10 Pro XL et aux Samsung Galaxy S26, rapporte The Verge. Côté géographie, seuls les États-Unis et la Corée du Sud sont servis au lancement.
Sameer Samat, président de l’écosystème Android chez Google, ne cache pas l’ambition derrière tout ça. Dans une interview accordée à The Verge, il explique vouloir transformer Android d’un « système d’exploitation » en un « système d’intelligence ». L’automatisation des tâches ne restera pas cantonnée à Gemini : elle arrivera dans Android 17, la prochaine version majeure du système.
Techniquement, Gemini s’appuie sur son modèle Gemini 3 pour comprendre les interfaces et cliquer aux bons endroits. Les développeurs peuvent aussi exposer certaines actions via le protocole MCP ou le framework App Functions d’Android. Quand aucune de ces deux portes n’existe, l’IA se débrouille seule en analysant l’écran.
La course aux agents est lancée
Google n’est pas seul sur ce terrain. TechCrunch rappelle qu’OpenAI propose déjà un agent capable de naviguer sur un ordinateur, gérer un calendrier ou générer un diaporama. Anthropic a lancé Cowork, qui permet à Claude d’automatiser des tâches sans écrire une ligne de code.
Côté Google, d’autres nouveautés accompagnent cette annonce. La détection d’arnaques par Gemini lors des appels téléphoniques s’étend aux Galaxy S26 aux États-Unis. Circle to Search, la fonction qui permet de chercher en entourant un élément à l’écran, peut désormais identifier tous les objets visibles en même temps.
Reste une question que les développeurs d’applis se posent sûrement : si l’IA commande à la place de l’utilisateur, qui verra les promotions, les offres d’abonnement, les pubs ? Samat botte en touche. « Cette technologie arrive, dit-il. La question pour les développeurs, c’est comment on l’adopte ensemble. »