Alex, ouvre-toi !

Pas de grande prise de position éthique dans ce billet, j’avais juste envie de partager mon expérience d’utilisation d’OpenAlex (et un peu plus) dans le but d’avoir un suivi des publications de l’IHEID. Ça n’intéressera peut-être pas grand-monde, mais ça donne une idée de ce que peut être l’activité d’une¹ bibliothécaire numérique dans une institution universitaire. TW pour les néophytes : ça va parler d’identifiants persistants, de métadonnées, et d’autres trucs sales.

C’est quoi, OpenAlex ?

OpenAlex est une base de (méta)données bibliographiques spécialisée dans la recherche scientifique créée par OurResearch, une organisation canadienne à but non-lucratif.² Elle pompe des données de multiples autres sources ouvertes et tente de les agréger. Ses développeuses récupèrent notamment les informations liées aux DOI³ de CrossRef et de DataCite, mais également des éléments d’ORCID⁴, de ROR⁵, de DOAJ⁶, etc. Tout cela est agrégé de la manière la plus automatique possible⁷ afin de créer des entités « Works » (oeuvres – généralement des articles, chapitres ou monographies), « Authors », « Institutions », et « Sources » (généralement des journaux, collections, ou dépôts de preprints)⁸. Elle se place en alternative à Scopus et Web of Science pour leur volet « métriques » et « suivi des publications », mais avec une approche évidemment plus libre et ouverte.

J’avais vu des choses intéressantes au niveau bibliométrie pendant mon expérience de deux jours au sein de l’Open Research Working Group de la LSE, et j’étais revenu avec l’idée de creuser un peu plus de ce côté. Évidemment, cette agrégation sauvage, même en utilisant des identifiants persistants et des données indirectement fournies par les éditeurs, donne des métadonnées pas toujours au top. Un exemple ennuyeux en particulier : de 2024 à 2026, mes collègues ont créé rétroactivement sur notre serveur institutionnel des DOI pour des travaux publiés au cours des 20 dernières années. Cela a généré un problème inattendu pour les documents recensés : le champ date de notre serveur n’a pas été reconnu comme tel par OpenAlex quand elle a récupéré ces informations de DataCite, et c’est la date de création du DOI qui avait fait foi, donnant l’impression que le volume de nos publications avait soudainement explosé. J’ai donc signalé le problème à l’équipe d’OpenAlex, qui a ajouté ce cas à la liste des « bugs » à corriger au cours des prochains mois.

Nettoyer, balayer, astiquer, métadonnées toujours pimpantes

A un niveau plus simple, les employées d’institutions « membres » d’OpenAlex (ce qui est le cas de l’Institut) peuvent recevoir des droits et une formation à un outil de curation des affiliations. Comme dit précédemment, les gestionnaires automatisent au maximum les processus de la plateforme, et les métadonnées d’affiliations sont attribuées en parsant le texte affiché dans les articles, ce qui mène forcément à des erreurs. Les plus communes se divisent entre faux positifs (institutions aux noms similaires, diplômées de l’Institut parties ailleurs, ou simples remerciements à des personnes affiliées) et faux négatifs (variations diverses du nom de l’Institut, de ses sigles, de langues, d’anciennes dénominations, ou simplement erreurs).

Globalement, j’ai pu corriger en masse les cas spécifiques du Global Studies Institute, notre voisin de l’Université de Genève⁹, et de l’International Institute for Sustainable Development, également basé à Genève. J’ai ensuite dû faire un travail de fourmi sur les autres cas (qui ne m’a pas pris si longtemps, nous restons une petite institution). L’encodage des accents, par exemple¹⁰ cause aussi des problèmes dans certaines données importées par OpenAlex, mais c’est un problème relativement facile à repérer. Le cas de personnes qui citent une activité passée à l’Institut mais n’y travaillent plus étaient plus problématiques – sont-elles professeures honoraires ou pas ? Cela nécessite de creuser un peu, mais pour autant qu’on dispose de listes fiables, ce n’est pas dramatique.

Enfin, de nombreuses autrices avaient des profils en doublons, ou à l’inverse fusionnés. Il existe un formulaire de demande de fusion/fission d’autrices pour nettoyer ces informations, mais malheureusement les délais de traitement sont très longs. L’équipe d’OpenAlex envisage d’offrir davantage d’outils de curation à des personnes formées, mais craint par expérience que celles-ci commettent des erreurs pires que celles qu’elles souhaitent corriger. J’espère toutefois que ce projet progressera rapidement parce qu’il me paraît indispensable.

Centrer la question

Mais je voulais aller plus loin. J’ai évoqué l’identifiant ROR plus haut, qui est utilisé par OpenAlex pour lier les travaux et chercheuses à leurs institutions. Il offre quelques options supplémentaires, comme les relations parent-enfant, ou encore des relations non-hiérarchiques entre entités. Si ROR (l’organisation) déconseille l’ajout de départements académiques, les centres de recherche y sont bienvenus, même quand l’organisation-mère (ici, l’Institut) n’est pas de la taille du CNRS.

L’Institut accueille dans ses murs plus d’une dizaine de centres et programmes associés, selon plusieurs modèles. Les plus « internes » sont ceux qui sont financés par notre budget normal et les fonds de recherche (Genre, GHC, GMC). D’autres sont également « internes », mais jouissent d’un financement séparé (AHCD, CFD, CIES, NORRAG). Certaines entités sont des « joint-ventures » avec d’autres universités (ADH avec l’Université de Genève), et certaines enfin sont plutôt des locataires qui profitent de leur proximité avec nos chercheuses (SAS, qui a un statut hybride, mais aussi BCC, DCAF ou GCSP).

Une autre étape a donc constitué dans la création de ROR pour ces entités et la définition de leur lien avec l’Institut, dans l’objectif de pouvoir utiliser cela plus tard à travers OpenAlex. Ceci passe par la préparation et l’envoi d’un simple fichier Excel avec des informations comme nom du centre, site web, institution parente ou liée, page de publications, nom de domaine, page Wikipedia, identifiants divers (Wikidata et autres). Les délais de traitement de ROR peuvent être variables (de quelques semaines à quelques mois), mais certains centres ont été rapidement approuvés, et sont aussitôt apparus dans OpenAlex.

C’est au moment de retoucher les affiliations de leurs chercheuses que j’ai eu l’occasion de découvrir un nouveau cas problématique : celui des chercheuses qui ne mentionnent pas leur centre dans leurs publications, même quand leur chaire est financé par celui-ci (et une donatrice extérieure). Malheureusement, pas de solution du côté d’OpenAlex, c’est aux institutions de faire en sorte que les chercheuses donnent des informations complètes à leurs éditeurs. On peut espérer qu’avec un futur rôle de curatrice plus avancé (c’est sérieusement envisagé par OurResearch mais cela nécessite la mise en place d’une formation), nous pourrons corriger ces problèmes.

Tout ça pour quoi ?

Comme indiqué plus haut, OpenAlex dispose d’une API¹¹ qui permet de nombreuses utilisations. Dans mon cas, j’ai exporté des données avec un package R simple d’utilisation¹² appelé OpenAlexR et réalisé des visualisations de réseaux avec VOSviewer, qui s’y connecte facilement. Nous pouvons ainsi étudier, commenter et visualiser les publications de l’Institut pour la réalisation d’un rapport bibliométrique (en cours de préparation, et à usage interne). Cela permet aussi aux centres d’étudier le succès de leurs publications, ce qui peut être utile dans la recherche de fonds.

*À l’échelle de l’Institut, la visualisation est peu parlante. A celle des centres, elle l’est davantage.*

Est-ce le rôle d’une bibliothécaire ? Ça me paraît évident, puisqu’on parle de curation de métadonnées de publication. Mon travail n’est évidemment pas terminé¹³, mais j’ai trouvé l’expérience très intéressante jusqu’ici. Je reparlerai d’autres aspects de ce projet dans un prochain billet. N’hésitez pas à me contacter si vous avez des questions sur OpenAlex, j’ai beaucoup d’opinions au sujet de cette plateforme.

Pour rappel, le genre neutre est féminin dans mes billets pour des raisons de confort de lecture (je trouve les points médians fatigants mais cette solution permet de se poser la question de l’accord masculin dans une profession majoritairement féminine). Il y aura certainement des oublis d’inattention que vous pouvez me signaler. ↩︎
Son nom fait évidemment référence ~~au phare~~ à la bibliothèque d’Alexandrie (dont les sirènes, comme chacune sait, chantent encore la même mélodie). ↩︎
Digital Object Identifier. Pour simplifier, c’est un identifiant alphanumérique attribué par une agence et qui identifie une oeuvre numérique spécifique dont l’adresse peut être résolue en ajoutant simplement « https://doi.org/ » avant celui-ci. ↩︎
Un identifiant pour chercheuses, qui permet de relier des publications à une autrice malgré les risques d’homonymie, changement de nom, etc. ↩︎
Comme ORCID, mais pour les institutions. ↩︎
L’annuaire des journaux open access, qui utilise une définition relativement stricte du terme et recense de nombreuses informations utiles (modèle, prix d’APC, etc.) ↩︎
Les développeuses d’OpenAlex ne cachent pas l’utilisation massive d’IA générative dans son développement et le travail sur ses données. Oui, ça me fait grincer des dents. On verra comment ça évolue dans la durée. ↩︎
Elle peut ensuite être interrogée sur le web ou à travers une API gratuite, mais ce sera le sujet d’un prochain billet. ↩︎
Aucun lien avec nous, mais ses productions nous avaient été attribuées par similarité. ↩︎
Nous en avons deux en français : Institut de hautes études internationales et du développement. ↩︎
Application programming interface : un point d’accès à une base de données qui peut être utilisé par un logiciel plutôt qu’un navigateur web, par exemple. On lui envoie des requêtes et on reçoit en retour des réponses, qui peuvent prendre la forme de listes, de formats JSON ou autres. ↩︎
R est un langage de programmation / outil statistique. Mon niveau est ridiculement bas, mais suffisant pour utiliser ce package, ce qui est tout à son honneur. ↩︎
Et ne le sera peut-être jamais. ↩︎

Illustration de couverture: CC BY-SA 4.0 Rena Xiaxiu – K-Pop Culture Magazine, https://commons.wikimedia.org/w/index.php?curid=59854040

1 thought on “Alex, ouvre-toi !”

Thomas Kerboul dit :

2026-07-02 à 19:12

Merci pour le partage ! Je connais peu OpenAlex, comme je ne travaille pas en contexte académique (encore que…), mais les problématiques sont similaires sur Wikidata: l’automatisation c’est bien pour la masse, mais on aura toujours besoin de “petites mains” pour le détail. Tu évoques la réticence des gestionnaires à permettre la fusion/scission: d’expérience sur Wikidata, les erreurs arrivent, mais pas nécessairement par manque de formation – plutôt de l’inattention et surtout des données de mauvaise qualité qui faussent l’appréciation. Wikidata a l’avantage d’avoir une gestion très robuste de l’historique de chaque élément: je n’ai aucun mal ce matin à défaire une fusion de 2024 et en cinq minutes l’ancien élément était revenu à son état d’origine pré-fusion, avec des données en plus pour éviter que ça se reproduise. J’imagine qu’OpenAlex est plutôt comme d’autres systèmes : les fusions ont un caractère beaucoup plus définitif et le détricotage est beaucoup plus laborieux.

Répondre