La SCNAT et son réseau s'engagent pour une société et une science durables. Ils soutiennent la politique, l'administration et les entreprises avec des connaissances spécialisées et entretiennent un dialogue avec le public. Ils renforcent les échanges entre disciplines scientifiques et promeuvent les jeunes universitaires.

Image : Sebastian, stock.adobe.com

« Le partage des données de recherche doit être valorisé »

Les données de recherche accessibles au public (Open Research Data, ORD) visent à rendre les découvertes scientifiques plus transparentes et compréhensibles. De plus, les données sont réutilisées afin d’étudier de nouvelles questions ou d’entraîner l’IA. À l’occasion d’un événement de la SCNAT, des experts ont abordé la situation actuelle en Suisse dans le domaine ORD.

Table ronde sur l'Open Research Data avec Christophe Dessimoz, Jérôme Kasparian, Gilles Dubochet et Evie Vergauwe.
Image : David Jezdimirovic

Les données de recherche doivent être accessibles au public : telle est la revendication de différentes initiatives réunies autour du nom « Open Research Data » (ORD). Sur mandat de la Confédération, swissuniversities, le domaine des EPF, le Fonds national suisse (FNS) et les Académies suisses des sciences ont élaboré en 2021 une stratégie et un plan d’action ORD, publiée en 2022. À l’occasion de l’événement « Open Research Data – are we on track? », organisé par la SCNAT le 31 mai 2024 à Berne, une centaine de participantes et participants ont discuté des expériences accumulées jusqu’à présent et des défis à relever.

Gilles Dubochet, responsable de l’initiative Open Science de l’EPF Lausanne et responsable du groupe de coordination ORD, a expliqué que la stratégie ORD avait identifié deux champs d’action prioritaires. Pour les chercheuses et chercheurs, il s’agit tout d’abord de développer une pratique visant à partager les données de recherche avec leurs collègues et d’utiliser l’ORD pour leur propre travail. Dans un deuxième temps, une infrastructure technique et organisationnelle est nécessaire. Les investissements dans l’infrastructure des données devraient être au même niveau que les investissements faits dans les infrastructures de recherche traditionnelles. « Le fait que ces points figurent maintenant à l’agenda politique suisse est l’un des principaux succès de la stratégie ORD », affirme Dubochet.

La Suisse n’en est qu’à ses débuts

« Les données en libre accès sont importantes pour une recherche transparente et reproductible », déclare Evie Vergauwe du Swiss Reproducibility Network et membre du jury du prix ORD des Académies suisses des sciences. « Si les données de recherche sont librement accessibles, il est possible de vérifier les analyses initiales, de tester d’autres hypothèses ou d’intégrer les données dans des méta-études », ajoute Vergauwe.

En s’appuyant sur une analyse de projets du FNS, la scientifique a démontré que si le partage de données scientifiques est en hausse, il n’en est pour l’instant qu’à ses débuts. Il en ressort que, en fonction de la discipline, 20 à 33% de projets achevés en 2022 ont vu le partage d’au moins un ensemble de données. Des sondages ont révélé que les chercheuses et chercheurs considèrent que l’ORD est important surtout pour le partage de connaissances dans la recherche et la reproductibilité des résultats. Plus de 50% des personnes interrogées ont indiqué avoir déjà publié des données de recherche. Elles estiment que le manque de temps, mais aussi l’absence de droits, constituent un obstacle pour le partage des données. Le travail pour la préparation, la documentation et l’archivage devrait être rétribué. Ce n’est pas encore le cas aujourd’hui.

Des communautés au lieu de chercheuses et chercheurs isolés

« L’ORD change fondamentalement la façon de faire de la science », explique Jérôme Kasparian, professeur au Département de physique appliquée de l’Université de Genève. Aujourd’hui, les contributions des différentes chercheuses et chercheurs sont visibles, car elles sont nommément citées. Avec l’ORD, cette idée se dilue de plus en plus. Quand il s’agit d’entraîner l’intelligence artificielle avec de grands volumes de données, les différentes contributions perdent de leur importance. « Nous sommes à l’aube d’un changement de paradigme », affirme Kasparian.

Pour Christophe Dessimoz, Directeur de l’Institut suisse de bioinformatique et Directeur d’Elixir Switzerland, il est donc important que non seulement les chercheuses et chercheurs qui ont fait et publié une découverte scientifique soient reconnues et reconnus, mais aussi celles et ceux qui ont fourni les données pour y parvenir. « Mettre à disposition les données en libre accès ne devrait plus constituer une activité annexe, mais une partie reconnue du processus de recherche », déclare-t-il. Pour le progrès scientifique, il pourrait être tout à fait pertinent de céder le contrôle de ses données. Par ailleurs, il faudrait naturellement s’assurer que des concurrentes et concurrents ne se servent pas simplement du travail d’autrui pour ensuite en cueillir les lauriers.

« Dans de nombreuses disciplines, cela fait longtemps que la science ne fonctionne plus selon la conception traditionnelle et les contributions individuelles sont intégrées dans le collectif », ajoute Dubochet. Le CERN à Genève en est un bon exemple. Les physiciennes et physiciens des particules forment une communauté de recherche. Ils partagent non seulement une infrastructure coûteuse, mais collaborent aussi étroitement et développent même un agenda de recherche commun. « La communauté produit des résultats scientifiques et, ensemble, elle se considère comme étant la propriétaire de ces résultats », a indiqué Dubochet. De nombreuses questions scientifiques ne peuvent aujourd’hui être abordées que dans de grands regroupements de ce type. L’ORD peut accélérer cette évolution.

Pas toutes les données ne doivent être en libre accès

« Pourtant, il y a de bonnes raisons de ne pas publier toutes les données », estime Vergauwe. Les scanners du cerveau posent par exemple des questions relatives à la protection de la personnalité et des données. « De plus, toutes les données ne sont pas faciles à réutiliser », ajoute Kasparian. Certaines données ne sont compréhensibles que dans le contexte dans lequel elles ont été collectées. « Sans ces méta-informations qui sont souvent nettement plus volumineuses que les données elles-mêmes, elles n’ont aucune valeur. » Dans de tels cas, la reproductibilité est souvent impossible.

Afin que la plupart des données de recherche très spécifiques puissent profiter au plus grand nombre et deviennent des données de recherche ouvertes, elles doivent tout d’abord être préparées selon Dessimoz, qui parle ici de « démocratisation ». En plus de méta-informations liées au contexte, une structure uniforme et des standards de données généraux sont indispensables. Cela est d’autant plus important en cas d’utilisation de l’IA. « L’IA n’est bonne que si les données avec lesquelles elle est entraînée le sont », explique Dessimoz.

Intérêt commercial

Les données sont perçues comme le nouveau pétrole et suscitent la convoitise des entreprises de haute technologie. Qu’est-ce que cela signifie pour la science ? Dans la recherche, il est normal de ne pouvoir que difficilement contrôler l’utilisation des connaissances produites, ajoute Kasparian. « Sur le fond, je n’ai rien contre le fait qu’elles permettent à d’autres de gagner de l’argent. » Toutefois, cela devient problématique si les chercheuses et chercheurs font un travail supplémentaire conséquent pour mettre leurs données à disposition. Dessimoz cite le projet « Génome humain » dont le but était le séquençage du génome humain - un exemple qui illustre comment des entreprises se sont servies de données accessibles au public à des fins commerciales. D’une part, cela a conduit à des innovations précieuses mais, d’autre part, cela aurait pu devenir problématique si des brevets avaient limité la réutilisation scientifique des séquences génétiques. L’indemnisation financière par les entreprises reste aussi délicate. « Actuellement, personne n’est prêt à payer à l’avance pour des données sans savoir s’il est possible d’en tirer profit », dit-il. Cependant, il est important de débattre de la question de la rémunération des chercheuses et chercheurs pour la mise à disposition de leurs données.

Les discussions sur l’ORD constituent une bonne opportunité de réfléchir à la relation entre la science, en tant que productrice et propriétaire de données financées par des fonds publics, et les entreprises privées qui font des affaires avec ces données, estime Dubochet. « L’ORD est à ce sujet souvent mal compris puisqu’on considère que tout est simplement mis à disposition de tout le monde, librement et sans contrôle. » Ce n’est pas le cas selon lui. « Mais la science doit définir clairement quel est son objectif à cet égard. »

Une culture ORD est nécessaire

Pour Dessimoz, les scientifiques ont également une responsabilité en ce qui concerne la mise en place et la pratique d’une culture ORD. Ils et elles devraient saisir leurs données de la façon la plus standardisée possible, développer leurs propres collectes de données et collaborer avec les infrastructures de données existantes. « La formation, les bonnes pratiques et des modèles auxquels les collègues peuvent s’identifier sont également importants », ajoute Vergauwe. « Et on doit garder à l’esprit que l’ORD est synonyme de travail supplémentaire pour les chercheuses et chercheurs », dit-elle. Raison pour laquelle des incitations sont aussi nécessaires. Dessimoz abonde dans ce sens : le partage de données doit avoir un impact positif sur la carrière, au même titre que la publication d’un article.

Mandater des data stewards externes pour la préparation et la gestion des données n’est pas vu d’un très bon œil par les quatre experts. « Actuellement, la recherche implique, dans la plupart des cas, de grandes quantités de données », affirme Dubochet. « C’est pourquoi l’expertise dans la gestion des données devrait naturellement faire partie du travail scientifique ».

Investissements dans l’infrastructure

Outre l’initiative des chercheuses et chercheurs, la mise en place d’une infrastructure de données adaptée est un pilier essentiel. « La Suisse investit de plus en plus dans ce domaine, mais nous n’avons pas encore atteint le niveau requis », souligne Dubochet. Les plateformes de données existantes devraient de plus accélérer la standardisation de leurs données afin de pouvoir les utiliser plus largement selon Dessimoz. Cela demande aussi une collaboration plus étroite avec les chercheuses et chercheurs.

Enfin, les institutions de recherche et les promoteurs de la recherche devraient imposer la publication de données standardisées pour les projets et valoriser les efforts faits dans ce sens. Il est toutefois illusoire de penser que la politique va accorder des subventions séparées pour l’ORD, ajoute Dubochet. « L’ORD doit être financée dans le cadre des projets de recherche ». Il est important que les institutions de recherche donnent plus de libertés aux scientifiques afin de sonder les possibilités offertes par les nouveaux outils ou l’IA dans le domaine ORD.

Premiers projets pilotes

Dans sa présentation de l’initiative LOTUS qu’il a codéveloppée, Adriano Rutz de l’EPF de Zurich a montré une application concrète aux participantes et participants de la conférence. Cette plateforme de données en libre accès relie les structures moléculaires aux organismes biologiques dans lesquels elles ont été trouvées. Elle compte environ 750 000 paires (structure-organisme) référencées et offre de nouvelles voies pour partager et élargir les connaissances dans le domaine de la recherche sur les biomolécules. Du fait de son caractère innovant, le projet a reçu en 2023 le prix ORD des Académies suisses des sciences.

  • Evie Vergauwe
  • Christophe Dessimoz
  • Adriano Rutz
  • Open Research Data – are we on track?
  • Evie VergauweImage : David Jezdimirovic1/4
  • Christophe DessimozImage : David Jezdimirovic2/4
  • Adriano RutzImage : David Jezdimirovic3/4
  • Open Research Data – are we on track?Image : David Jezdimirovic4/4

Catégories

  • Collecte des données
  • Open Science