Un million de réponses fausses chaque minute. C’est ce que produirait l’intelligence artificielle de Google dans son moteur de recherche, selon une étude publiée le 7 avril par le New York Times et la startup Oumi. Le taux d’erreur paraît pourtant modeste : 9%. Mais rapporté aux 5 000 milliards de requêtes traitées chaque année, le chiffre donne le vertige.
91% de bonnes réponses, et pourtant
Depuis 2024, Google affiche des « AI Overviews » en haut de ses résultats de recherche. Ces encadrés, générés par son modèle Gemini, fournissent une réponse directe à la question posée, sans que l’utilisateur ait besoin de cliquer sur un lien. L’idée séduit : plus besoin de parcourir dix pages pour trouver une info. Le problème, c’est que cette réponse n’est pas toujours juste.
Pour mesurer la fiabilité du système, Oumi a soumis 4 326 questions factuelles à Google, tirées du benchmark SimpleQA développé par OpenAI. Ce test, utilisé dans l’industrie pour évaluer la précision des modèles d’IA, pose des questions dont la réponse est vérifiable : dates, noms, lieux, faits historiques. En octobre 2025, avec Gemini 2 sous le capot, le taux de réponses correctes atteignait 85%. En février 2026, après le passage à Gemini 3, il grimpait à 91%.
Six points de mieux en quatre mois, c’est un progrès réel. Mais 9% d’erreurs sur 5 000 milliards de recherches annuelles, cela représente environ 57 millions de réponses incorrectes par heure. Près d’un million par minute. Des chiffres que les chercheurs d’Oumi qualifient de « préoccupants à cette échelle ».
Quand Google cite ses sources sans les lire
Le taux d’erreur brut n’est pourtant pas le problème le plus inquiétant. L’étude révèle un défaut plus insidieux : la majorité des réponses correctes ne sont pas vérifiables par les sources que Google affiche en regard. En février, 56% des bonnes réponses étaient « non fondées », c’est-à-dire que les liens affichés sous la réponse ne confirmaient pas l’information donnée. En octobre, ce chiffre n’était « que » de 37%.
Autrement dit, la précision de Gemini s’améliore, mais sa capacité à prouver ce qu’il avance se dégrade. L’IA répond mieux, tout en perdant le fil de ses propres sources. Pour un moteur de recherche qui a bâti sa réputation sur la traçabilité de l’information, c’est un paradoxe gênant.
L’analyse des 5 380 sources citées par les AI Overviews réserve d’autres surprises. Facebook arrive en deuxième position des sites les plus référencés. Reddit se classe quatrième. Des plateformes où n’importe qui peut publier n’importe quoi, érigées en références par un système censé filtrer le bruit.
Des erreurs discrètes, mais concrètes
Les exemples relevés par Oumi illustrent le type de faux pas que l’IA commet. Interrogé sur la date d’ouverture du musée Bob Marley à Kingston, Google répond 1987. La bonne réponse est 1986. L’erreur semble anodine, mais elle provient d’une source qui mentionnait deux dates contradictoires. L’IA a choisi la mauvaise.
Sur la ville de Goldsboro en Caroline du Nord, le système indique que la rivière Neuse la traverse. C’est en réalité la Little River. Pour le violoncelliste Yo-Yo Ma, l’IA affirme qu’il n’existe aucune trace de son intronisation au Classical Music Hall of Fame, alors que l’information figure sur le site même qu’elle cite en source.
Ces erreurs partagent un trait commun : elles sont plausibles. Un utilisateur pressé les acceptera sans vérifier. C’est précisément ce qui rend le format dangereux. Quand Google affichait dix liens bleus, le lecteur savait qu’il devait croiser les résultats. L’AI Overview, par sa mise en forme autoritaire, décourage ce réflexe.
Google conteste, mais ne convainc pas
Ned Adriance, porte-parole de Google, a qualifié l’étude de « trouée de failles sérieuses ». Selon lui, le benchmark SimpleQA contient lui-même des erreurs factuelles et ne reflète pas les recherches que les utilisateurs effectuent réellement. Google souligne que les questions du test sont souvent très pointues, loin des requêtes quotidiennes (« météo Paris », « recette crêpes »).
L’argument n’est pas dénué de logique. Un benchmark composé de questions de culture générale pointues peut surévaluer le taux d’erreur sur des recherches classiques. Mais il révèle aussi les limites du système sur les questions qui exigent de la précision factuelle, exactement le terrain où un moteur de recherche est censé exceller.
L’étude du New York Times n’est pas la première à pointer le problème. En 2025, des chercheurs avaient déjà documenté des cas où les AI Overviews recommandaient d’ajouter de la colle dans une pizza ou affirmaient que des scientifiques avaient découvert des rochers vivants. Google avait alors corrigé ces erreurs visibles. Les failles relevées par Oumi sont plus subtiles, et donc plus difficiles à éradiquer.
Le vrai coût : la confiance aveugle
Le risque ne se limite pas aux réponses fausses. Il touche la manière dont les internautes consomment l’information. Selon les données de Similarweb reprises par Search Engine Land, les AI Overviews réduisent les clics vers les sites sources. Pourquoi visiter un article quand la réponse s’affiche directement ? Le modèle économique de la presse en ligne, déjà fragile, en prend un nouveau coup.
Côté utilisateurs, le danger est celui de la confiance automatique. L’encadré IA de Google ne porte pas de mention « peut contenir des erreurs ». Il s’affiche avec l’autorité d’une encyclopédie. Pour les seniors, les adolescents, ou simplement ceux qui n’ont pas le réflexe de croiser les sources, la réponse de Google devient la vérité. Point final.
L’Europe pourrait forcer le débat. Le AI Act, entré en vigueur en août 2025, impose des obligations de transparence aux systèmes d’IA à haut risque. La question de savoir si un moteur de recherche utilisé par des milliards de personnes entre dans cette catégorie reste ouverte. La Commission européenne doit publier ses lignes directrices sur le sujet d’ici septembre 2026.