La mesure du problème

Les problèmes du monde de la publication scientifique semblent insolubles. Pourtant, le pouvoir des éditeurs, déjà évoqué précédemment, n’existe que parce qu’on le leur accorde. Pourquoi donc est-il si difficile de réformer un système dont l’abus est si patent ? Par où devrait-on commencer si on voulait en sortir pour adopter un modèle plus efficace, moins coûteux, et plus adapté au temps long parfois nécessaire à la recherche scientifique ? Permettez-moi de sortir de mon domaine d’expertise (qui n’est pas bien grand) pour faire quelques conjectures.

« Quand on pense qu’il suffirait que les gens n’achètent plus pour que ça ne se vende pas ! » (Coluche)

Les tarifs d’abonnements délirants appliqués par les éditeurs sont connus. Si vous n’êtes pas au clair, ils sont déjà évoqués dans un autre billet. Le passage à l’open access n’y change pas grand-chose : on les remplace par des tarifs de publication open access (Article Processing Charges ou APC) tout aussi démesurés. Le problème ici est que lorsque la bibliothèque d’une université (ou autre institution d’enseignement et de recherche) envisage de mettre fin à ses abonnements ou de refuser un contrat OA pour mettre l’éditeur sous pression (pensez à l’Université de Californie face à Elsevier, par exemple, ou encore les récentes négociations du Consortium suisse), elle ne peut tout simplement pas le faire sans le soutien des chercheuses, des enseignantes, et de sa direction.

Aujourd’hui, malgré Sci-Hub, et malgré le comportement mille fois dénoncé de l’oligopole des éditeurs, de nombreuses chercheuses (une majorité, peut-être) rejettent toute coupure d’abonnements aux revues majeures de leur domaine. Elles sont également nombreuses (mais un peu moins) à refuser de se plier aux exigences de publication open access formulées par les agences de financement : elles veulent pouvoir publier où elles le veulent.

La raison en est évidemment simple, et il est difficile de les blâmer : elles ne font que se plier aux critères que nos propres institutions mettent en place pour gérer leurs carrières.

Réactions en chaîne

Une chercheuse qui tient à l’avancement de sa carrière académique (obtention de financements ou de postes) sait que la concurrence est féroce. Comme évaluer la qualité d’une production scientifique est complexe, on a tenté de créer des mesures standardisées permettant de comparer les chercheuses entre elles. Les plus populaires pour l’évaluation des chercheuses sont h-index, g-index, etc. Elles sont basées sur le nombre d’articles publiés et de citations reçues. Mais ce ne sont pas les seules qui comptent dans la carrière d’une chercheuse.

Les revues scientifiques aussi ont leurs mesures d’impact, construites en fonction des citations de publications incluses, et dont la plus célèbre est le Journal Impact Factor (JIF). Elles sont utilisées à la fois par les universités pour décider de s’abonner ou pas, et par les chercheuses pour choisir où publier afin de maximiser leur popularité. Oui, popularité parce qu’on ne parle pas de visibilité : mieux vaut pour une carrière publier dans le journal de référence derrière un paywall, ce qui exclut une partie des lecteurs potentiels, qu’en open access dans un journal moins coté (mais par nature visible par le monde entier).

L’impact du JIF sur le monde de la recherche, c’est son effet de marque. Les journaux les mieux classés vont être visés en priorité par les chercheuses. Pourquoi ? Parce que dans de nombreuses institutions, les comités d’évaluation pour l’engagement et la promotion de chercheuses s’appuient sur le classement des revues dans lesquelles ces dernières ont publié. Les universités réalisent bien ce problème, et nombre d’entre elles ont signé DORA, la Déclaration de San Francisco sur l’évaluation de la recherche, qui vise à réduire l’importance accordée au JIF, trop souvent utilisé pour évaluer les publications et leurs autrices elles-mêmes.

Malgré cela, on sait que l’index personnel d’une chercheuse et le facteur d’impact des revues dans lesquelles elle a publié ont un poids majeur dans ses candidatures et ses évaluations, officiellement ou officieusement. On trouve littéralement des offres de postes incluant une publication comme premier ou second auteur dans Science, Nature ou autres, et une rétractation publique ne signifie pas que le critère n’est pas appliqué à l’abri des regards.

Pourquoi ? Parce que les universités sont également évaluées sur des critères similaires ! Le classement ARWU de Shanghai accorde uniquement du poids aux publications et prix reçus par les chercheuses (et alumnae) de l’institution. D’autres classements internationaux comme celui de Times Higher Education prennent aussi en compte des critères éducatifs, mais ceux-ci ne sont pas fiables pour autant. Ces classements sont importants pour les institutions en termes de prestige, mais aussi parce qu’elles doivent justifier leur activité par des métriques auprès de leurs bailleurs (souvent l’Etat).

On peut remonter plus loin, bien sûr : les institutions politiques elles-mêmes en ont besoin pour justifier des dépenses face au public, ou plutôt à l’électorat et aux contribuables. Mais ce principe ne s’applique pas que de haut en bas : une future étudiante ou une jeune chercheuse préféreront également rejoindre l’université la plus prestigieuse ou celle qui promet le meilleur avenir (qu’on réduit généralement au volet financier, mais passons). Le problème est donc global et ne se résume pas au JIF.

Pourquoi les mesures ?

Cette obsession pour les mesures standardisées, la comparaison et les classements, vient d’une approche de management héritière d’une longue tradition mais qui a explosé dans les années 80 : la direction par objectifs. Celle-ci n’est pas nouvelle, et elle est aussi critiquée dans les professions plus traditionnelles. Elle s’illustre par la phrase « If you can’t measure it, you can’t manage it ».

Les mesures d’évaluation de la performance sont en apparence utiles parce qu’elles permettent de rendre simple l’évaluation et la comparaison de choses complexes. Elles sont particulièrement attirantes quand une manager est nommée dans une entreprise dont elle ne connaît pas encore le fonctionnement et la culture. Ce besoin est naturel : quand on doit gérer une organisation, il est sain de vouloir prendre des décisions rationnelles, basées sur des faits.

Mais les métriques ne peuvent pas se substituer à un jugement : elles ne peuvent que l’informer, parmi d’autres éléments plus qualitatifs tels que l’expérience. Quand on fournit à quelqu’une des statistiques, elle devra les comprendre pour pouvoir s’y fier ou s’en défier. Si la destinataire manque d’expertise, le fait que les mesures soient fiables ou pas lui importera peu : elle n’aura pas d’alternative, et l’existence même de ces indicateurs lui permettra de faire des choix qui seraient trop difficiles sans eux. Quand on dirige, faire un mauvais choix est parfois plus facile à justifier que de ne pas faire de choix.

Le glissement du monde de l’entreprise à celui des institutions publiques comme les universités (mais aussi les hôpitaux et la police, notamment) vient de l’exigence de ce que les anglophones nomment accountability, qui aurait pour traduction « responsabilité (devant autrui) » ou « devoir de rendre des comptes », faute de mieux. Et dans chaque cas, les métriques ont apporté quelques améliorations… et causé de nombreux abus.

Le problème des mesures

Comme pour les chasseurs, il est difficile de différencier une bonne chercheuse d’une mauvaise chercheuse, ou même une bonne université d’une mauvaise. Cela demande une expertise du domaine et implique malgré tous les efforts une part de subjectivité. En revanche, le développement de l’informatique et des réseaux fait qu’on peut aujourd’hui relativement facilement comparer le nombre de leurs publications et des citations recueillies par ces articles, d’où le succès de ces métriques.

Ignorons un instant l’aspect arbitraire des éléments pris en compte dans les différentes mesures. Admettons que dans un monde idéal, le nombre de citations révèle réellement la qualité d’un article, ou le nombre de prix Nobel celui d’une institution de recherche, et que les meilleurs indicateurs possibles sont pris en compte dans la construction de ces mesures.

L’objectif d’une mesure sur une chose ne dépendant pas de la volonté d’une agente est simplement de la connaître. C’est le cas idéal : mesurer le taux de CO2 dans l’atmosphère, la hauteur de l’Everest, ou la masse d’une étoile ne vont pas les faire changer (merci d’ignorer la physique quantique dans le cadre de cet article, bisous). En revanche, comme le savent les spécialistes des sciences humaines et les psychologues, aucune évaluation dont les sujets sont conscients d’être évalués n’est absolument fiable, car l’effet de l’observation elle-même n’est pas nul.

La loi de Campbell l’exprime plus spécifiquement pour les métriques : « Plus un indicateur social quantitatif est utilisé comme aide à la décision en matière de politique sociale, plus cet indicateur est susceptible d’être manipulé et d’agir comme facteur de distorsion, faussant ainsi les processus sociaux qu’il est censé surveiller ». Le seul objectif réaliste d’une mesure sur une personne physique ou morale consciente d’être évaluée est donc d’affecter son comportement. Quand on évalue une chercheuse, un journal, ou une université en mesurant sa production scientifique, on l’encourage en réalité à adopter les comportements qui optimiseront le résultat de cette mesure.

Si le changement de comportement est positif (généralement obtenir plus de travail et d’efforts), tant mieux. Malheureusement, la solution la plus simple pour optimiser un indicateur est rarement celle espérée par celles qui ont mis en place cette mesure, et l’introduction d’évaluations chiffrées pousse généralement à des comportements déviants, payés par celles qui tentent de faire leur travail honnêtement.

Quelques exemples d’abus

« When a measure becomes a target, it ceases to be a good measure. » (Marylin Strathern, d’après la loi de Goodhart). Comme dit plus haut, ces évaluations poussent uniquement les sujets étudiés à optimiser leur classement, sans nécessairement s’améliorer sur le fond, et parfois à son détriment. Voici un exemple par catégorie.

Universités

Les universités françaises, qui sont à entendre leurs chercheurs dans un état pitoyable pour des raisons budgétaires, cherchent à remonter dans les fameux classements internationaux. Elles ont trouvé une méthode efficace pour le faire sans investir dans l’enseignement et la recherche : en fusionnant, elles augmentent le nombre de prix Nobel par institution, et donc leur classement, sans que ça change quoi que ce soit à leur niveau réel.

Je vous laisse consulter la liste délirante des universités et grandes écoles qui ont été réunies à Paris sous la marque « Université Paris-Saclay », avec à la clef pour cette dernière une présence dans le top 20 du classement de Shanghai en 2020 sans amélioration réelle de la recherche et de l’éducation au sein des institutions membres. Il était risible de voir les politiques parisiens s’en féliciter ces derniers mois alors que les chercheurs français étaient vent debout face à une nouvelle réforme sans augmentation de leurs moyens.

Chercheurs

Les différents index et statistiques de publications sont parfois utilisés abusivement par la chercheuse elle-même, qui en fait un argument d’autorité qui convainc les personnes moins bien informées… ce qui poussa certains à souligner qu’Einstein aurait un H-index minable en comparaison de la norme actuelle.

Ainsi, les chercheuses qui co-publient artificiellement, s’ajoutent à toutes les publications de leur laboratoire sans les avoir lues, voire publient dans des revues qu’elles éditent eux-même (ou leurs amies), sont des exemples simples d’abus permettant de gonfler un index – sans même parler de cas de fraude scientifique pure et simple.

A l’inverse, Jacques Dubochet, prix Nobel de chimie en 2017, soulignait en interview qu’il n’aurait jamais pu avoir une carrière similaire si on avait exigé de lui autant de publications que dans le système actuel. Le temps long de la recherche est-il compatible avec les exigences mesurables des carrières actuelles ?

Editeurs

On entend régulièrement des témoignages de chercheurs poussés par les éditeurs à citer (inutilement) d’autres articles de leurs journaux pour en améliorer le facteur d’impact. Cette méthode a même sa propre page Wikipedia. Je ne vais donc pas prendre le temps de fouiller Twitter pour trouver des exemples individuels d’autres méthodes abusives.

Mais en quoi ça concerne les bibliothécaires ?

Comme j’ai essayé de le souligner tout au long du billet, c’est dans les mesures standardisées qu’est la racine du mal, et en ce qui nous concerne, la cause des tarifs délirants de la publication scientifique, que ce soit en abonnements ou en frais de publication d’articles open access. Tant que les chercheuses seront évaluées en fonction du volume et de la visibilité de leurs publications à travers le Journal Impact Factor et ses cousins, nous ne ferons que renforcer l’oligopole des grands éditeurs. Nous ne pouvons pas gagner un rapport de force si les carrières de l’ensemble de nos usagères dépendent d’Elsevier, Wiley, Springer et autres.

L’open access et l’open science ne sont pas des solutions à ce problème-là. En effet, on peut déjà constater que les grands éditeurs ont déjà pris la mesure (haha) du changement, et le contrôle d’une bonne partie des dépenses consenties pour ce changement de paradigme. L’open access avec APC auprès d’entreprises à but lucratif n’est que la prolongation du drainage des ressources publiques par des intérêts privés, qui restent globalement les mêmes (même si de nouveaux prédateurs sont arrivés, coucou MDPI). Nous ne pouvons pas changer de modèle tant que nous utiliserons ces métriques.

Et ces métriques, ce sont les bibliothécaires qui les ont créées. Rassurez-vous, pas toutes, mais celle qui a mené au journal impact factor a bien été créée par Eugene Garfield, un bibliothécaire, pour des raisons compréhensibles sur lesquelles je ne reviendrai pas, mais qui ont eu des conséquences fâcheuses.

Comment changer ? Ou plutôt, qui en a le pouvoir ?

Comment, c’est facile : abandonner l’évaluation en fonction de l’hôte de publication, que ce soit pour l’engagement ou pour la promotion (tenure track) des chercheuses et professeures. Le minimum absolu est d’abandonner le JIF et ses cousins. Une institution peut signer DORA, mais comme nous l’avons vu plus haut, il faut que cette politique se traduise dans les faits.

Il existe des alternatives pour l’évaluation des chercheuses. Celles-ci ne seront pas forcément plus fiables, mais nous libéreront au moins collectivement de l’emprise des grands éditeurs. En les utilisant parcimonieusement et conjointement avec des évaluations plus critiques et qualitatives, on peut arriver à un équilibre raisonnable.

Ces chiffres peuvent en effet avoir un caractère informatif pour déceler des cas extrêmes d’abus (constater que la chercheuse a pris 3 ans de vacances), mais il faut se rappeler que trop s’appuyer dessus dans des cas normaux encourage au final les comportements déviants. À titre personnel, je trouverais meilleur l’abandon complet de ces métriques en-dehors d’enquêtes sur d’éventuels abus – plus elles seront utilisées rarement, plus elles seront viables.

Deuxièmement, il faut non-seulement abandonner le JIF et ses cousins, mais faire pénétrer cette idée dans l’ensemble de l’institution, et en particulier auprès des personnes concernées. Il y a donc une nécessité que la direction de l’institution et ses facultés appliquent réellement cette décision, mais aussi que des efforts de formation et de sensibilisation soient déployés. Or, dans de nombreuses institutions académiques, c’est la bibliothèque qui, en partenariat avec d’autres (facultés, bureau de la recherche, etc.) fait la promotion de l’open science et de l’information literacy.

Faire comprendre à toute une génération de chercheuses (en ciblant aussi les doctorantes) que les métriques (et le JIF en particulier) sont plus souvent un problème qu’une solution pourrait (et devrait) faire partie de cette mission. Mais cela nécessite des choix forts au sommet de la pyramide, et d’identifier, plus bas, les chercheuses qui sont déjà sensibles à ces sujets (car il y en a) pour soutenir le message et le faire entrer dans les mœurs.

Est-ce possible dans n’importe quelle institution ?

Sans doute pas, ou du moins je ne le pense pas tant que le mouvement ne sera pas général – et on sait d’avance que certaines institutions feindront d’accepter uniquement tant qu’elles ne seront pas menacées au sommet des classements. Et tant que l’ensemble des institutions ne le fera pas vraiment, les chercheuses auront des raisons de continuer de chercher à publier dans les revues stars, car leur carrière les emmène souvent d’une institution à l’autre à travers le monde entier.

L’institution doit être assez forte pour accepter l’idée de perdre quelques places dans certains classements. Cesser d’encourager l’optimisation des métriques aura un impact, mais il ne faut pas le surestimer. Même au XXIe siècle, le bouche-à-oreille reste efficace, et la qualité d’un enseignement et d’une recherche déliées d’obligations de ce genre peut s’améliorer – après tout, optimiser des métriques prend du temps qu’on pourrait consacrer à autre chose de plus pertinent.

L’institution doit avoir la confiance de ses bailleurs, ou avoir les reins solides économiquement pour ne pas en dépendre. L’institution et ses bailleurs doivent aussi avoir conscience de l’importance de la question. Si la qualité de la recherche scientifique leur tient à coeur, l’abandon de métriques contre-productives peut devenir une évidence. C’est malheureusement plus difficile dans des cadres institutionnels dominés par les comptables.

Peut-on avoir de l’espoir ? Très franchement, j’en ai peu ; mais peu, ce n’est pas rien. On voit sur Twitter de nombreuses académiques conscientes du problème : certaines boycottent par exemple Elsevier (pour le peer review autant que pour la publication), d’autrent décortiquent les incitations contraires aux objectifs, etc. Je n’aurais d’ailleurs pas écrit ce billet si j’estimais que c’était perdu d’avance. Rendez-vous donc dans dix ans pour voir où on en est. En attendant, à nous de faire ce que nous pouvons dans notre modeste… mesure.

Notes

Je suis très mal à l’aise au moment de publier ces lignes. Comme dit plus haut, j’ai l’impression de sortir de mon domaine de compétence, mais je voulais souligner que les problèmes que nous avons en tant que bibliothécaires s’inscrivent dans un système qui nous dépasse largement. J’espère que cet aspect au moins est clair. Pour le reste, je réalise bien qu’il contient beaucoup de « y’a qu’à », et qu’à part encourager et suggérer, je n’y peux pas grand-chose.

A lire: Leiden Manifesto for Research Metrics.

J’avais déjà écrit la majeure partie de ce billet avant de le lire, mais le livre « The tyranny of metrics » de Jerry Z Muller (2018) couvre largement le sujet des métriques et de leurs problèmes dans de nombreux domaines. Il est évidemment bien plus détaillé, et couvre notamment les domaines de l’éducation et de la recherche. Les exemples de dérives dans la santé et la police font particulièrement froid dans le dos et je vous incite vraiment à le lire. Il est aussi disponible en français sous le titre « La tyrannie des métriques » (2020) chez un éditeur… suisse ? Ah.

Ce livre évoque également un élément que je n’ai pas souligné : la « transparence » et son impact. L’auteur n’en est pas fan, et le justifie bien, mais il fait en revanche des raccourcis hasardeux par moments, comme en expliquant en gros qu’Edward Snowden a fait preuve de transparence excessive alors qu’on a besoin de secret pour certaines activités… en passant à la trappe que Snowden n’était pas opposé au secret en soi, mais qu’il a exposé des activités illégales qui ont depuis été jugées comme telles. C’est ballot.

Nouvelle récente: du côté de l’Université de Berne, signataire de DORA, la faculté de médecine s’est récemment penchée sur la question de la fiabilité du JIF dans le cadre des promotions de chercheuses, et semble avoir obtenu des résultats poussant au moins à abandonner cette mesure… pour la substituer par une autre, le Relative Citation Ratio (RCR). Celle-ci a au moins le mérite de ne plus soumettre les autrices et leurs institutions aux éditeurs. Reste à voir à quel point elle pourra être abusée.

J’ai comme d’habitude essayé d’utiliser le féminin neutre. N’hésitez pas à me signaler des oublis. J’ai aussi, comme d’habitude, été trop long. Comme toujours, je vous prie de m’en excuser.

Illustration: Measuring tape and fruits (cropped), CC0 by Martin Vorel (banana for scale).

1 thought on “La mesure du problème”

Natacha Bossi dit :

2021-03-26 à 12:30

Un article très intéressant qui soulève, en effet, des problématiques bien plus globales dans le domaine des publications scientifiques. Si une des conclusions de l’article souligne l’importance des actions menées directement par les institutions (notamment en repensant l’utilisation de ces mesures en décalage avec la réalité), je me permets d’ajouter une petite précision : plusieurs institutions politiques ont déjà mis en place des stratégies en faveur de l’Open Science. C’est notamment le cas de la Suisse, avec la Stratégie nationale suisse sur l’Open Access, qui vise d’atteindre 100% des publications scientifiques (financées par de l’argent public), d’ici 2024. Cela ne règlera pas la problématique des APC, ni des publications dans des OA hybride, mais il s’agit déjà d’un pas en faveur d’un processus de publications scientifiques plus respectueux, et permettant de sensibiliser la communauté de chercheurs qui seraient encore réticente face à de tels modèles. Nous pouvons aussi nous donner rendez-vous dans 3 ou 4 ans, pour évaluer si l’objectif a été atteint, et si oui, si l’accomplissement de celui-ci aurait mené à des éventuels biais. Merci en tous cas pour ce billet très constructif! 🙂

Répondre