Quand une nouvelle technologie pointe le bout de son nez, je commence par chercher quelle part des promesses qui l’accompagnent est réaliste, et quelle part est du vent. Force est de constater que les révolutions promises par la Silicon Valley ces 10 dernières années sont loin d’atteindre leurs objectifs annoncés, et j’avais envie de parler de l’une d’elles, celle qui concerne le plus directement notre domaine (l’information) pour faire le point sur ce qu’elle apporte vraiment.
Tu ne serais pas un peu contrariant ?
C’est indéniable, mais mon attitude ne relève pas (seulement) de l’esprit de contradiction1. Si je remonte un peu, mes premières illusions déçues résultent des promesses technologiques entrevues dans les publications des années 802 sur l’avion commercial hypersonique du futur et autres merveilles technologiques à venir, sans aucune réalisation sinon de jolis dessins dans mes magazines jeunesse.
Près de quarante ans plus tard, ça éveille encore mon scepticisme quand on me présente un nouveau gadget révolutionnaire. OK, je suis un peu contrariant, mais pas que.
Mon point de vue est que quand une invention a une réelle utilité, celle-ci est souvent évidente et explicable sans difficulté. De celles dont j’ai pu assister à l’émergence, certaines m’ont bien sûr échappé, mais deux m’ont paru évidentes : le web (pour les gens un peu curieux, la question n’était pas dans les années 1990 de savoir si, mais à quel point il changerait le monde), et le smartphone, qui répondait à tellement de mes désirs que j’ai dû faire de gros efforts de recherche d’information sur ses limitations techniques pour ne pas me ruer sur le premier iPhone.3
Pour l’une des technologies numériques les plus hypées ces vingt dernières années dans le numérique, la blockchain, elle a prouvé à l’inverse son inutilité générale et son inefficacité particulière. Une blockchain est en théorie un concept génial pour se passer de tiers de confiance. Mais l’existence des tiers de confiance n’est pas un accident de l’histoire en pratique : en cas de problème technique ou de carte perdue, un banquier peut vérifier votre identité et vous redonner accès à votre compte. Perdez le mot de passe de votre portefeuille de cryptomonnaies, et il rejoindra les (au moins) 10% de bitcoins existants déjà considérés perdus pour toujours. Oups.
Quant au fait que des institutions tentent de mettre de la blockchain dans des projets dont elles sont par définition le tiers de confiance (par exemple et pas du tout au hasard, les diplômes d’une université), c’est d’une tristesse sans nom quand on réalise que n’importe quelle autre base de données, centralisée ou pas, aurait fait le travail plus efficacement. Stockez des données personnelles sur une blockchain, et vous ne pourrez jamais les en retirer : l’une des caractéristiques de la blockchain est l’immutabilité des données enregistrées, qui ne peuvent qu’être complétées par de nouveaux blocs demandant gentiment d’ignorer les données précédentes – un problème qui la rend incompatible avec le droit des données personnelles4.
Bref, cette technologie conceptualisée dans les années 80 (oui oui) et qui a finalement trouvé UNE application dans les cryptomonnaies en 2009 (il y a donc plus de quinze ans) reste une solution en quête de problèmes à régler (et vu le temps passé, je pense qu’elle le restera).
Quand ça devient plus compliqué : ça fonctionne, mais c’est un problème
Pour les grands modèles de langage en revanche, dès qu’on ignore la fiction qui les décrit comme des « intelligences artificielles », c’est beaucoup plus nuancé. Si la hype qui les entoure est délirante5, les LLM sont extrêmement compétents pour certaines tâches qui peuvent être d’une utilité indiscutable. La génération d’un texte standard qui connaît de nombreux exemples sur lesquels on a pu entraîner les modèles ? Absolument. La traduction générale de texte sans valeur créative entre deux langues disposant d’un large corpus ? Oui, même si une relecture s’impose toujours. Transcription ? Pas toujours parfaite, mais elle permet au moins généralement de gagner du temps. La génération d’une image ? On peut voir que dans ce cas comme dans d’autres, les limites de qualité sont encore là, mais on peut imaginer que cela va encore s’améliorer, et il faut avouer que c’est déjà impressionnant.
J’ai plus de problèmes au niveau éthique. Disons-le, l’espoir des investisseurs de l’IA, c’est qu’avec l’automatisation du travail intellectuel par les LLM après celui de l’ouvrière6 par les machines, on puisse en fait achever le transfert de l’ensemble de la productivité de l’humain au capital pour pouvoir se débarrasser enfin du premier et de ses demandes ridicules comme salaire, nourriture ou logement. La qualité n’a après tout que peu d’importance dans une société de consommation qui a accouché de la mode et de l’obsolescence permanente, et je n’ai pas d’espoir qu’une société post-rareté égalitaire à la Star Trek émerge de ces développements du capitalisme tardif.
Si j’étais communicante, traductrice, graphiste, voire juriste médiocre, je m’inquiéterais – non pas que l’IA devienne meilleure que les professionnelles, mais que le simple rapport qualité-prix le soit. Peut-être y est on déjà pour les responsables qui ne se soucient pas de qualité ou ont un budget vraiment serré. À titre personnel, mon budget communication est de 0 pour ce blog (outre son hébergement), je ne vais pas pouvoir payer une illustratrice, et si je recours par principe à des mèmes plutôt que des illustrations IA, ça ne fait pas gagner un kopeck aux artistes pour autant. Il me serait difficile de blâmer quelqu’un d’utiliser un générateur d’images dans un cas similaire, même si je trouverais probablement ça moche.
Droit d’auteur et fin du monde
C’est d’autant plus problématique que ces modèles sont basés sur le pillage de la propriété intellectuelle collective des êtres humains par des entreprises qui font semblant de croire être dans le cadre du fair use américain, alors que sa quatrième condition (l’absence d’effet sur le marché, ici du travail des créatifs) ne me paraît pas remplie et invalide donc cette idée à mes yeux (mais je ne suis pas juriste, et j’aurai probablement tort au final)7. Dans le monde académique où je travaille, les grands éditeurs mettent la pression aux autrices pour qu’elles autorisent l’utilisation de leurs ouvrages pour l’entraînement de LLM. Je ne sais pas si c’est déjà une condition de soumission aux top journals, mais ça ne m’étonnerait pas vu le tournant data d’Elsevier et compagnie. C’est donc peut-être du côté du droit d’auteur que se trouve le plus grand débat, avec de nombreux procès en cours sur l’alimentation des LLM ou leur production8.
La question de la protection des « prompts » comme propriété intellectuelle n’est pas reconnue par le U.S. Copyright Office, mais il n’exclut pas la protection du résultat si le LLM n’est qu’un outil de travail (la question de la somme d’efforts humains appliqués pour obtenir le résultat compte)9. J’aurais pensé que les seules productions protégées par la propriété intellectuelle seraient les créations de personnes physiques humaines (non, ni un singe, ni une machine), ce qui empêcherait les entreprises utilisant des outils de génération de protéger leurs productions10, mais malheureusement on voit ici et là apparaître des jugements contraires. De mon côté, je m’interroge sur la pertinence d’adopter des licences NC au lieu des Creative Commons plus ouvertes que j’utilise habituellement, tant ma minuscule participation potentielle à ces outils m’horripile, mais c’est peut-être un autre sujet.
D’autre part, il y a évidemment des externalités environnementales, sur lesquelles je ne vais pas m’étendre : la consommation énergétique délirante (même si parfois surestimée), l’impact carbone qui en résulte, ou l’eau potable gaspillée sont évidemment aussi des problèmes existentiels pour la civilisation humaine, mais le monde a l’air d’avoir fait une croix sur la survie de notre espèce sous sa forme actuelle. Je vais donc me contenter d’ignorer ça comme tout le monde (après moi, le déluge, au sens propre) et parler de ce qui concerne mon microcosme professionnel : l’information, la désinformation, et l’impact sur l’économie de la connaissance11.
Les LLM comme outils de génération de contenu
On l’a vu, un LLM, c’est un outil génial pour produire un texte moyen. Ça tient à son fonctionnement lui-même : c’est un générateur de texte qui ne fait que proposer les mots, phrases et paragraphes statistiquement probables en réponse à un prompt ou stimulation. Il ne sait pas, ne réfléchit pas, ne comprend pas, n’a aucune idée du contexte, et il assemble simplement une série de mots qui ressemble aux réponses que son corpus donnerait en moyenne aux termes d’une requête ou d’une suite de requêtes données.
Tout comme un LLM ne comprend pas le texte qu’il écrit, une IA générative musicale ne comprend pas ce qu’est la musique, alors qu’une humaine capable d’audition l’apprend quasi-instinctivement dès ses plus jeunes années. Il est donc frustrant de constater que des productions automatiques commencent quand même à ressembler à quelque chose12. L’ensemble de la musique produite a apparemment déjà été ingérée, ce qui laisse présager des difficultés à améliorer ce pan de leur qualité, mais qui sait ? Et après tout, peut-on faire pire que l’autotune qui a envahi les radios ?13
Côté texte, c’est aussi assez impressionnant, comme une bonne mentaliste, voyante, ou le fameux turc mécanique. Ceci résulte à la fois de l’ingestion massive de corpora divers, et de milliers de travailleurs du clic qui sont là pour corriger ses réponses et l’orienter lors de son « entraînement ». Ce n’est pas magique ni intelligent, mais pour nous qui ne sommes pas techniciennes et dont les cerveaux humains sont naturellement conçus pour reconnaître des motifs dans tout ce que nous percevons, ça y ressemble tellement qu’il nous faudrait presque par moments un test Voight-Kampf – celui de Turing est souvent déjà dépassé, mais pour les mauvaises raisons.
Les LLM comme outils de désinformation
Reste un gros problème, qui est évidemment que les LLM permettent de doper la production de désinformation. Depuis 2016, on a déjà vu l’impact politique des fermes à mensonges sur la population, et on est en droit de s’inquiéter d’une augmentation du volume de leur production si on n’y trouve pas d’antidote – c’était un sujet d’inquiétude notable dans une année électorale 2024 agitée. Si, comme le veut la loi de Brandolini, réfuter les conneries demande dix fois plus d’énergie que de les affirmer, que dire quand leur production devient cent fois plus simple et rapide ?
De la même manière qu’il est parfois difficile sur des plateformes politiques de faire la différence entre une militante et sa parodie par un adversaire sous couverture14, on a du mal à identifier un texte humain médiocre d’un texte généré automatiquement. C’est normal : nous apprenons à écrire en nous basant sur nos lectures, et les LLM aussi (même si le terme d’apprentissage est impropre, je l’utilise ici symboliquement). C’est en partie pourquoi les outils de détection de texte généré par IA donnent généralement de mauvais résultats et ciblent notamment souvent à tort les autrices étrangères ou neurodivergentes qui s’expriment de manière moins libre ou plus générique15.
Le problème n’est toutefois pas nouveau. Tout mouvement militant connaît depuis des décennies, voire siècles, l’utilisation d’agents infiltrés par les forces de l’ordre lors des manifestations, qui justifient parfois ensuite la répression par les excès de leurs propres agitateurs16. Côté deepfake, on n’a pas attendu l’arrivée de Photoshop pour effacer proprement les individus gênants de photos officielles où ils posaient avec Staline. Certes, les méthodes changent, on ne peut plus se fier à la vidéo qui était précédemment plus fiable que les photos, mais en termes de désinformation, les biais du récepteur semblent toujours plus importer que la qualité ou la forme de la désinformation elle-même17.
Dieu est mort, l’Internet aussi ?
Évidemment, soit les textes résultants de LLM sont d’une banalité et d’une évidence les rendant sans intérêt (idéal pour un texte que personne ne lit vraiment, comme une lettre de motivation), soit ils sont aussi faux que péremptoires, tel un Roger fatigant qui vous mansplaine la vie à la machine à café. Et c’est bien le problème. La facilité de production de textes est d’autant plus problématique que dans leur quête de rentabilité, les GAFAM ont décidé de faire de ces LLM des outils de recherche, ce qui est amusant en soi puisqu’on estime que même les modèles payants les plus chers ne couvrent pas leurs coûts.
On a déjà vu l’effet de la course à l’armement dite « search engine optimisation » (SEO), qui a progressivement merdifié le web depuis l’apparition de Google. Avec l’addition des bots divers sur les réseaux sociaux (la blague ultime étant le projet avorté de Meta de créer des faux utilisateurs LLM pour peupler ses réseaux18, une révolution dans la merdification), on en arrive à des extrêmes conspirationnistes comme l’idée d’un Internet mort.
Souvent, aujourd’hui, c’est un sujet Reddit qui offre la meilleure réponse à une question sur sur les moteurs de recherche, parce qu’on y trouve encore quelques humains qui discutent vraiment, contrairement aux faux sites experts qui font du remplissage pour optimiser le nombre de pubs affichées19 ou occupent le terrain des mots-clefs sans fournir les informations promises. Ceux-ci sont appelés à se multiplier vu la facilité de produire du néant.
Le volume de non-information (des « contenus » vides voire faux) va forcément augmenter. Les futurs modèles de langage, toujours à la recherche de contenu d’entraînement, vont-ils se nourrir des excréments de leurs prédécesseurs et devenir pires encore ? Que se passera-t-il quand Google retirera carrément les références de ses pages de résultats pour ne fournir que la réponse à côté de la plaque de son LLM personnel ?
Les LLM comme outils de recherche ?
Mais le problème atteint aujourd’hui déjà l’étape suivante. Les usines de désinformation russes n’ont plus besoin de lancer leurs bots à l’assaut des réseaux sociaux, elles arrivent aujourd’hui à empoisonner la source à laquelle s’abreuvent nos nouveaux outils20. L’un des vrais enjeux, ce n’est donc plus seulement d’adapter nos méthodologies d’évaluation des sources, mais plus basiquement de s’assurer que nos usagères et nous-même ne confondons pas LLM et outils de recherche. Ils étaient déjà nuls sur les faits précis, mais maintenant ils seront en plus empoisonnés pour les questions plus générales.
Depuis maintenant plusieurs années, on lit des bibliothécaires désespérées raconter les histoires de lectrices faisant un scandale car elles n’arrivaient pas à trouver une source imaginaire citée par un LLM. Plus récemment, j’ai vu des enseignantes raconter que des élèves les contredisaient en s’appuyant sur des absurdités générées par les mêmes modèles. Le problème est réel – peut-être devrait-on arrêter d’opposer machinalement bibliothécaires et Google21 et communiquer plus fondamentalement sur le principe même de source, surtout dans notre climat politique de descente dans l’autoritarisme d’avant-guerre.
Lors d’une présentation suivie récemment, un intervenant évoquait une « IA entraînée sur Wikipedia » qui pourrait donner de meilleurs résultats, ce qui m’a laissé perplexe. D’une part, la taille de Wikipedia reste très réduite comparé à la masse de texte nécessaire pour entraîner ces modèles22, d’autre part le modèle risquerait surtout d’en imiter le style insupportable (déso les amies, vous savez ce que je veux dire) plutôt que d’en extraire des faits, et enfin cette encyclopédie collaborative est plus susceptible d’être elle-même contaminée par les LLM que l’inverse, comme on l’a vu plus haut avec le développement de la production de désinformation. Peut-être que quelque chose m’a échappé dans son argument à l’époque, mais je n’ai pas creusé.
Mais peut-on faire quelque chose d’utile de ces LLM ?
Oui, bien sûr, à condition de ne pas tenter de leur faire faire ce pourquoi ils ne sont pas conçus : ils ne savent rien, mais ils produisent. Je me souviens, il y a plus de 20 ans, d’un travail de groupe avec un compagnon d’études qui était dans le même cas : pas intimidé par la page blanche contrairement à moi, il avait rédigé un long texte mal écrit et truffé d’erreurs, que j’avais pu ensuite travailler pour le rendre pertinent car cela m’avait décoincé. Peut-être qu’un partenariat similaire est imaginable avec ces machines à bruit pour celles qui comme moi sont de nature anxieuse ?
J’ai lu ici et là des personnes qui se vantaient d’avoir à l’inverse utilisé un LLM pour développer et mettre en forme leurs idées, comme si avoir des idées était la partie compliquée d’un travail d’écriture. Je ne dis pas qu’elles n’importent pas, mais j’estime qu’en général, l’immense majorité de la réflexion et de la création réside au contraire dans leur organisation et leur mise en relation. Toute autrice à succès a déjà entendu des centaines de personnes vouloir lui vendre des idées géniales, mais la réalité est qu’elles en ont davantage qu’elles ne peuvent mettre en scène. Idem pour les chercheuses, dont les projets ne représentent en général qu’une infime partie de ce qu’elles auraient aimé pouvoir étudier. A mon minuscule niveau, j’ai depuis bientôt dix ans plus de brouillons de billets que de publications sur ce blog. Si avoir une idée puis demander à un LLM d’en faire un potage est votre idée de l’écriture, vous n’y avez malheureusement rien compris.
Mais je suis à nouveau négatif, alors que je souhaitais dire un peu de bien de ces outils. Oui, ils peuvent participer à la démocratisation de l’expression dans des formats divers. J’aime dessiner (mal), écrire (un peu mieux), chanter (très mal)23, et je comprends que certaines veuillent mettre en image, en texte, en code ou en musique des éléments créatifs qui nécessiteraient autrement un apprentissage compliqué ou des collaborations pas forcément faciles à mettre en place. Pas de jugement sur l’usage de modèles, pour autant que ce soit encadré et réfléchi. Ce qui compte, c’est l’utilisation qu’on fait de ces outils et leur importance dans le processus créatif ou technique (y compris dans mon milieu professionnel)24. Voyons donc ce que l’avenir nous réservera. Qui sait, peut-être qu’on trouvera des moyens de réduire assez leur impact environnemental et sociétal pour que je puisse être déçu en bien.
- N’oublions pas que je suis Français d’origine et que j’ai grandi à Genève. C’est doublement dans ma culture d’être contrariant. Mais ce n’est pas que ça. ↩︎
- Oui, en plus, je suis vieux. #TechnicallyGenX ↩︎
- Je l’avoue, j’ai aussi résisté par anti-Apple-isme primaire – je n’aime pas les « révolutions » autoproclamées et Steve n’avait que ce mot à la bouche. ↩︎
- Blockchain and data protection – An FAQ guide, 2022. Reed Smith LLP [Consulté le 12 mars 2025]. ↩︎
- RUDOLPH, Jürgen et al., 2025. Don’t believe the hype. AI myths and the need for a critical approach in higher education. Journal of Applied Learning and Teaching. 18 février 2025. Vol. 8, n° 1, pp. 06‑27. DOI 10.37074/jalt.2025.8.1.1 ↩︎
- Rappel : j’utilise généralement le féminin neutre dans mes articles, que je trouve plus agréables à lire et qui me fait plus réfléchir à mes biais que les formes à points médian·e·s·x. Il y aura évidemment des oublis que vous pouvez me signaler. ↩︎
- BELANGER, Ashley, 2025. OpenAI declares AI race “over” if training on copyrighted works isn’t fair use. Ars Technica. 13 mars 2025. ↩︎
- Generative AI – IP cases and policy tracker, [sans date]. Mishcon de Reya LLP [Consulté le 11 mars 2025]. ↩︎
- Copyright office says AI-generated works based on text prompts are not protected, 2025. Barnes & Thornburg LLP [Consulté le 11 mars 2025]. ↩︎
- Il y aurait quelque chose de poétique au fait que des outils qui se sont empiffrés illégalement de contenu protégé soient au final inutiles à ceux qui les ont développés. ↩︎
- Au cas où ce serait nécessaire, je précise qu’économie ne signifie pas argent. ↩︎
- PATER, Joseph, 2025. AI music generation is now really, really good(*). Joe Pater, Phonologist at UMass Amherst. 6 janvier 2025. ↩︎
- Ce jugement de valeur vous est offert gracieusement par votre hôte, mais rassurez-vous, il a également des goûts pourris en termes musicaux. ↩︎
- Voir par exemple LEVIN, Sam, 2017. Did Russia fake black activism on Facebook to sow division in the US? The Guardian. 30 septembre 2017. ↩︎
- SHN, Samaneh, 2024. The hidden bias in AI detectors: how international students are unfairly flagged. Medium. 26 octobre 2024. ↩︎
- MUCCHIELLI, Laurent, 2010. L’infiltration policière des manifestations est un fait, mais comment l’interpréter? Le Club de Mediapart. 29 octobre 2010. ↩︎
- KAPOOR, Sayash et NARAYANAN, Arvind, 2024. We looked at 78 election deepfakes. Political misinformation is not an AI problem. AI Snake Oil. 13 décembre 2024. ↩︎
- THOMSON, Iain, 2025. 2025 may be the year AI bots takes over Meta. The Register. 8 janvier 2025. ↩︎
- Installer uBlock Origin, c’est aujourd’hui nécessaire pour préserver sa santé mentale. Et vous, autrices de recettes de cuisine qui pondent un roman avant d’afficher les ingrédients, sachez qu’un cercle de l’enfer vous est réservé. ↩︎
- SEIBT, Sébastian, 2025. Portal Kombat : quand la désinformation russe « biberonne » ChatGPT et autres IA. France 24. 9 mars 2025. ↩︎
- Ce d’autant plus que les premières utilisent largement les services de la seconde au quotidien, ce qui en fait une belle hypocrisie. ↩︎
- Avec Kiwix, on peut même la mettre sur une clef USB et elle pèse à peine 110 Go à ce jour (oui, ceci est un placement de produit aussi gracieux que pertinent pour un ami lausannois qui ne l’est pas moins). ↩︎
- Généralement Placebo ou Claude François au karaoké. Non, il n’y a pas mieux qu’Alexandrie Alexandra pour lancer une session et décoincer tout le monde. ↩︎
- COX, Andrew M., 2024. Artificial Intelligence and the academic library. The Journal of Academic Librarianship. 1 novembre 2024. Vol. 50, n° 6, pp. 102965. DOI 10.1016/j.acalib.2024.102965. ↩︎
MERCI!
Vos propos sont une bouffée d’air frais dans le climax ultra-technologique d’aujourd’hui.
Savez-vous qu’à l’école où j’étudie, où ~80% de mes camarades et moi-même voulons acquérir les connaissances nécessaires pour travailler en bibliothèques, archives ou centres documentaires, une part grandissante des cours commencent à demander l’utilisation des IA? Des LLMs? C’est à devenir fous!
Tenez, prenez les sujets de recherches “à choix” présentés ce semestre:
1. Open Data for football analytics
2. Développer un agent conversationnel pour valoriser une collection éditoriale : le cas de la librairie
Droz
3. Comprendre la place des outils IA dans le travail documentaire des chercheurs et des chercheuses
utilisant les collections Droz
4. Evaluer la qualité de services en bibliothèque académique
5. Archivage à long terme sur la blockchain : le cas Arweave
6. LLMs pour améliorer la littératie des données de la blockchain
7. Qualité des données sur les plateformes d’analyse blockchain : Comparaison et évaluation
8. Vers une standardisation des données blockchain pour la recherche
9. Agentic AI
10. Fine Tunning LLMs
11. The LLM landscape at 2025
12. Création et évaluation d’un système RAG pour l’indexation de White Papers Blockchain et Web3 :
comparaison entre indexation sémantique et lexicale
13. Standardisation des Tokenomics dans les Projets Blockchain et Web3 : État de l’art et Comparaison
de Cas Concrets
14. Archivage de données de recherche en santé
15. Ask ArchiLab – Multi-agent and Knowledge Graphs for Archival Assistance
16. Comparative study for OLOS Strategic Positioning in Research Data Management Market
17. FAIRness validator – OLOS
18. Mieux contrôler les coûts écologiques : avec quel outil ?
19. Etat de l’art et évaluation des outils AI dédiés au traitement et à la description des archives
audiovisuelles et photographiques
20. PAV Archives vivantes
21. Assess the level of plagiarized and/or AI-generated content in Zenodo
22. Développement d’une méthodologie et évaluation de biais (e.g. genre) dans une population d’auteurs
23. Évaluation de la qualité des codes issus de la littérature scientifique : vers un dépôt sur Zenodo
24. Cross-over du storytelling : convergence des narratifs en UX et data visualisation
Savez-vous que seulement 20% de ces sujets sont faisables pour ces même 80% d’élèves? La majorité demande des aptitudes que nous n’avons pas, sur des sujets pour lesquels nous sommes au mieux indifférents, et au pire pour lesquels nous possédons une aversion presque viscérale.
M. Michel Gorin a déclaré lors de son départ qu’il n’aimait pas la direction que l’enseignement de l’école prenait, et je suis tristement d’accord avec lui.
À nouveau, merci beaucoup pour votre article. Ça me redonne un peu d’espoir de savoir que pas toutes les personnes de la profession doivent subir la tyrannie des IA.