Google en sait-il plus que l'INSEE sur les Français ?

Par Jean-Luc Tavernier intervient sur les conférences : "Mesure et perception de l'inflation (Entretiens AFSE)" ; "Google en sait-il plus que l'INSEE (AFSE)" et "Faut-il choisir entre solidarité et efficacité ?"

Les évolutions technologiques entraînent une inflation des traces numériques des activités humaines, dans des champs de plus en plus étendus. Les volumes de données enregistrées par les entreprises, notamment les GAFAM, sont considérables. On peut penser notamment aux données de caisse de la grande distribution, aux transactions de cartes bancaires, aux connexions sur les réseaux des opérateurs de téléphonie mobile, aux requêtes des moteurs de recherche sur le web, à tous les services de géolocalisation présents sur nos smartphones, aux consommations d’électricité, au trafic routier, aux images satellites, etc.

Ces données présentent plusieurs attraits bien connus : leur disponibilité rapide, quasiinstantanée, leur homogénéité, au moins apparente, d’un pays à l’autre, leur coût marginal, proche de zéro, ou encore la charge de collecte insensible pour les particuliers ou entreprises concernées. On a vu par exemple le succès de Google Mobility pour illustrer la désaffection des consommateurs pour les centres commerciaux au cours de la crise sanitaire par exemple. D’autres indicateurs ont connu une certaine notoriété durant cette crise, de façon plus ou moins méritée. Cette révolution numérique vient défier la statistique publique.

Comme le trahit son étymologie, la statistique publique s’est en effet construite et organisée historiquement dans un environnement où l’État disposait de la capacité à collecter de l’information à l’échelle d’une nation, et à la traiter. Ce « monopole » est désormais remis en cause.

La statistique publique, Insee en tête, peut et doit naturellement tirer avantage des opportunités nouvelles qui s’ouvrent. Elle a commencé à le faire depuis plusieurs années, et elle a continué avec un effort et un discernement accrus depuis l’émergence de la pandémie, notamment pour suivre l’ampleur des chocs sur l’activité en temps réel.

L’apport de ces nouvelles sources d’information ne peut être jugé en bloc, toutes ont leurs spécificités propres. Elles ont déjà permis des avancées indéniables pour la statistique publique dans des domaines aussi variés que la mesure de l’inflation par l’utilisation des données de caisse de la grande distribution, ou encore de l’artificialisation des sols par des images satellitaires.

Mais l’expérience montre aussi que de l’information constituée par ces « traces numériques » à des savoirs robustes et utiles il y a un fossé important, parfois infranchissable. D’autres sources ont ainsi montré un intérêt limité, comme la fréquence des requêtes sur les moteurs de recherche pour le suivi conjoncturel de l’activité économique. Plusieurs caractéristiques, que l’on retrouve souvent avec ces nouvelles sources, expliquent pourquoi : lien trop indirect avec les grandeurs d’intérêts, absence de représentativité, instabilité et opacité des processus qui les génèrent.

Les missions de la statistique publique ne se limitent pas à l’accumulation du plus grand volume possible d’information. Elle reste et restera incontournable dès lors qu’il s’agit de rendre compte de phénomènes économique et sociaux précis ou complexes, de donner un cadre cohérent à la mesure de l’activité économique ou de la distribution des revenus, de produire de l’information représentative de l’ensemble de la population française, ou encore d’éclairer le débat public.

origine du blog
Auteurs du billet