Laurence Devillers, Professeure d'informatique, chercheuse CNRS, Sorbonne Université, qui intervient sur la conférence des Jéco 2023 : L' Intelligence Artificielle va-t-elle tuer (ou sauver) les médias ?
Les médias sont un support à la démocratie en montrant différents points de vue, en dénonçant la corruption, etc. Les médias n’échappent pas aux soucis économiques et à la rentabilité d’une industrie de plus en plus exigeante mesurée en termes d’audimat et de vente. Génération de contenu, traduction, recherche d’informations, détection des propos haineux et de stéréotypes, l’[intelligence artificielle (IA)] promet d’importants gains de productivité et de potentiels d’innovation dans le domaine des médias. Même si aucune vérification de la véracité des propos générés n’est produite facilement, ce sont des outils fabuleux qui peuvent faire émerger des résultats que nous ne pourrions pas obtenir sans eux car ils calculent à des niveaux de représentation qui ne sont pas les nôtres, sur une quantité gigantesque de données et avec une rapidité qu'un cerveau ne sait pas traiter. La France pourrait jouer un rôle majeur au sein de l'Europe avec l'ambition d’être un laboratoire de l’IA pour les médias en étudiant les enjeux éthiques et économiques au service du bien commun et des démocraties.
La technologie d’IA générative permet de créer de nouveaux outils puissants mais le métier de journaliste reste central pour enquêter et raisonner sur les situations complexes de société et de géopolitique. Les médias peuvent également utiliser l’IA pour améliorer la qualité de l’information, pour lutter contre les fausses nouvelles et identifier le harcèlement et les incitations à la haine, mais aussi parce qu’elle peut permettre de faire avancer la connaissance et mieux comprendre des réalités complexes comme le développement durable, le vieillissement de la population ou encore les flux migratoires.
Ces outils n’arrivent pas maintenant par hasard. Alors que nous sommes effectivement noyés sous un flot d’informations diffusées en continu par les chaînes classiques ou contenus accessibles sur internet, des outils comme ChatGPT nous permettent de consulter le web et de produire des synthèses à partir d’un ensemble d’informations gigantesques inaccessibles à un cerveau humain en temps humain. Ils peuvent donc être extrêmement utiles pour de nombreuses tâches mais aussi contribuer à un flux d'informations non sourcées et non vérifiées. Ces IA génératives n’ont pas d’intentions, d’idées, de raisonnement abstraits, elles reprennent des propos qui peuvent être agencés de façon aussi intéressante qu'absurde: on parle d'ailleurs d’« hallucinations » des systèmes d'IA. En synthèse, ces IA génératives ne savent pas ce qui est possible ou impossible, vrai ou faux, moral ou immoral.
Les performances des IA génératives tiennent à la capacité d'apprentissage non supervisé de leurs modèles internes, appelés « modèles de fondation », qui sont entraînés à partir d’énormes corpus de données constitués de milliards d’images, de textes ou de sons très souvent dans les cultures dominantes sur internet, par exemple GPT3.5 de ChatGPT est nourri majoritairement de données en anglais. Les deux autres types d’apprentissage ont également été utilisés : avant sa mise à disposition fin 2022, ChatGPT a été optimisé grâce à un apprentissage supervisé puis grâce un apprentissage par renforcement par des humains de façon à affiner les résultats et à éliminer les propos non souhaitables. Cette optimisation par des humains a d’ailleurs été très critiquée. Comment sont-ils formés ? Qui sont ces hommes du click sous-payés ? Ces propos non souhaitables, en outre, ne sont pas décidés par un comité d’éthique mais pas l’entreprise seule.
Durant l’apprentissage des modèles de fondation sur des textes, le système apprend ce que l'on appelle des « vecteurs de plongements lexicaux ». C'est le système « _transformers_ ». Le principe d'entraînement du modèle de fondation est fondé par l'hypothèse distributionnelle proposée par le linguiste américain John Ruppert Fith en 1957 : on ne peut connaître le sens d’un mot que par ses fréquentations (« _You shall know a word by the company it keeps_ »). Ces entités font en moyenne 4 caractères dans GPT3.5. Elles peuvent donc être des parties de mots ou des mots avec l'avantage de pouvoir combiner agilement ces entités pour récréer des mots et des phrases sans aucune connaissance linguistique (hormis celle implicite à l'enchaînement des mots), le désavantage étant évidemment d'être moins interprétable. Chaque entité est codée par un vecteur qui contient des informations sur tous les contextes où cette entité a été vue grâce à des mécanismes d'attention. Ainsi deux entités ayant le même voisinage seront vus comme proches par le système d'IA.
Le système d'IA générative sur des textes apprend un modèle de production avec des mécanismes qui n'ont rien à voir avec la production humaine située avec un corps, pour autant, elle est capable de l’imiter à partir des textes de l’apprentissage. Ce fonctionnement a pour conséquence directe de perdre les sources d’où sont extraits les voisinages repérés, ce qui pose un problème de fond pour la vérification du contenu produit. Si on sait se doter de garde-fous, ce sont des systèmes qui vont nous faire gagner du temps de recherche d'information, de lecture et de production et qui vont nous permettre de lutter contre les stéréotypes et d'optimiser des processus
Il paraît urgent de trouver comment minimiser les risques en attendant la promulgation pour l’Union européenne d’un IA Act (https://www.europarl.europa.eu/news/fr/headlines/society/20230601STO93804/loi-sur-l-ia-de-l-ue-premiere-reglementation-de-l-intelligence-artificielle "")_ en se dotant de guides de bonnes pratiques https://iapp.org/news/a/ai-act-sets-rules-for-foundational-general-purpose-ai-models/ ""). Nous avons produit au Comité National Pilote d’éthique du Numérique (CNPEN), dont je suis membre, un avis (https://www.ccne-ethique.fr/publications/avis-7-du-cnpen-systemes-dintelligence-artificielle-generative-enjeux-dethique "") sur les IA génératives et les enjeux d’éthique qui a été remis au ministre de la transition numérique. Cet avis comprend 10 préconisations pour la recherche et 12 pour la gouvernance. La loi sur l’IA réclame plus de transparence sur ces systèmes d'IA pour vérifier leur robustesse, leur non manipulation et leur consommation énergétique.
Il est facile d’imaginer certains des risques de l’IA générative pour les médias dus à l’absence de vérité, aux biais cognitifs des humains, à la projection de qualités morales sur l’IA, à la manipulation de masse, etc. Par exemple :
- faire trop confiance aux dires de la machine sans recouper avec d’autres sources.
- ne pas comprendre l’influence d’une langue dominante l’anglais
- produire énormément de nouvelles données artificielles non vérifiées sur internet
- remplacer certaines tâches et métiers par des systèmes d’IA dans le domaine des médias
- désapprendre et être dépendant d’une machine IA
- vérifier que les données utilisées ne sont pas la propriété de quelqu’un (droit d’auteur)
L’arrivée de ChatGPT a été un tsunami pour tout le monde. Il a bluffé experts comme non-experts par ses capacités de production de texte, de traduction et même de programmation informatique. L’explication scientifique précise du phénomène d’étincelle d'émergences dans les modèles de fondation est un sujet de recherche actuel et dépend de la taille de données et des hyperparamètres des modèles. Il est important de développer massivement la recherche pluridisciplinaire sur les émergences et limites des IA génératives et sur les mesures à déployer pour les contrôler.