«Das Teilen von Forschungsdaten muss honoriert werden»
Öffentlich zugängliche Forschungsdaten (Open Research Data, ORD) sollen wissenschaftliche Erkenntnisse transparenter und nachvollziehbar machen. Und die Daten lassen sich weiternutzen, um neue Fragen zu untersuchen oder KI zu trainieren. Wo die Schweiz in Sachen ORD steht, diskutierten Fachleute an einer Tagung der SCNAT.
Forschungsdaten sollen öffentlich zugänglich werden. Das fordern verschiedene Initiativen unter dem Begriff «Open Research Data» (ORD). Im Auftrag des Bundes haben Swissuniversities, der ETH-Bereich, der Schweizerische Nationalfonds (SNF) und die Akademien der Wissenschaften Schweiz eine ORD-Strategie und einen -Aktionsplan erarbeitet und 2021 bzw. 2022 veröffentlicht. Welche Erfahrungen man seither gemacht hat und wo die Herausforderungen liegen, diskutierten rund hundert Teilnehmerinnen und Teilnehmer an der SCNAT-Tagung «Open Research Data – are we on track?» am 31. Mai 2024 in Bern.
Gilles Dubochet, Leiter der Initiative Open Science an der EPF Lausanne und Leiter der ORD Coordination Group, erläuterte, dass die ORD-Strategie zwei grundsätzliche Handlungsfelder identifiziert hat. Erstens müsse sich bei Forschenden eine Praxis etablieren, ihre Forschungsdaten mit ihren Kolleginnen und Kollegen zu teilen und ORD für die eigene Arbeit zu nutzen. Zweitens brauche es eine entsprechende technische und organisatorische Infrastruktur. Investitionen in die Dateninfrastruktur müssten auf die gleiche Stufe gestellt werden wie jene in traditionelle Forschungsinfrastrukturen. «Dass dies nun auf der politischen Agenda der Schweiz steht, ist eine der wichtigsten Errungenschaften der ORD-Strategie», sagt Dubochet.
Die Schweiz steht erst am Anfang
Frei verfügbare Daten seien wichtig, damit Forschung transparent und reproduzierbar sei, sagte Evie Vergauwe vom Swiss Reproducibility Network und Jury-Mitglied beim ORD-Preis der Akademien der Wissenschaften Schweiz. «Wenn Forschungsdaten öffentlich sind, lassen sich die ursprünglichen Analysen überprüfen, weitere Hypothesen testen oder die Daten in Metastudien integrieren», so Vergauwe.
Dass das Teilen wissenschaftlicher Daten in der Schweiz zwar zunimmt, aber noch ziemlich am Anfang steht, zeigte die Wissenschaftlerin anhand einer Analyse von SNF-Projekten. Demnach wurden je nach Disziplin bei 20 bis 33 Prozent der 2022 abgeschlossenen Projekte mindestens ein Datenset publiziert. Befragungen ergaben, dass Forschende ORD vor allem für den Wissensaustausch in der Forschung und die Reproduzierbarkeit von Resultaten als wichtig erachten. Über 50 Prozent der Befragten gab an, schon Forschungsdaten veröffentlicht zu haben. Vor allem der Mangel an Zeit, aber auch fehlende Rechte sehen sie als Hindernis, Daten zu teilen. Der Aufwand für die Aufbereitung, Dokumentation und Archivierung sollte belohnt werden, finden sie. Das sei heute noch nicht der Fall.
Communities statt einzelne Forschende
«ORD verändert fundamental, wie wir Wissenschaft betreiben», sagte Jérôme Kasparian, Professor für Angewandte Physik an der Universität Genf. Heute seien die Beiträge einzelner Forschender sichtbar, indem diese namentlich zitiert würden. Dies werde mit ORD zunehmend verwässert. Spätestens wenn es darum gehe, künstliche Intelligenz mit grossen Datenmengen zu trainieren, verlören die einzelnen Beiträge an Bedeutung. «Wir stehen vor einem Paradigmenwechsel», so Kasparian.
Für Christophe Dessimoz, Executive Director of Swiss Institute of Bioinformatics, Head of Elixir Switzerland ist es deshalb wichtig, dass nicht nur jene Forschenden Anerkennung erhalten, die eine wissenschaftliche Entdeckung machen und publizieren, sondern auch jene, die die Daten dazu liefern. «Daten öffentlich zur Verfügung zu stellen, sollte nicht länger ein Nebenprodukt sein, sondern anerkannter Teil des Forschungsprozesses», sagt er. Es könne für den wissenschaftlichen Fortschritt durchaus sinnvoll sein, wenn jemand die Kontrolle über seine Daten abgebe. Andererseits müsse man natürlich sicherstellen, dass sich Mitbewerber nicht einfach am Lebenswerk anderer bedienten und die Lorbeeren ernteten.
In vielen Disziplinen funktioniere Wissenschaft schon lange nicht mehr nach der traditionellen Vorstellung und die Beiträge einzelner gingen im Kollektiv auf, ergänzt Dubochet. Ein gutes Beispiel sei das Cern in Genf. Die Teilchenphysikerinnen und -physiker arbeiten als Forschungsgemeinschaft. Sie teilen sich nicht nur die teure Infrastruktur, sondern arbeiten auch sonst eng zusammen und entwickeln sogar eine gemeinsame Forschungsagenda. «Es ist die Community, die wissenschaftlichen Output produziert und sich gemeinsam als Besitzerin dieses Outputs versteht», so Dubochet. Viele wissenschaftlichen Fragen könnten heute sowieso nur noch in solchen grossen Zusammenschlüssen angegangen werden. ORD könne diese Entwicklung vorantreiben.
Nicht alle Daten sollen öffentlich sein
Trotzdem gebe es gute Gründe, nicht alle Daten zu veröffentlichen, findet Vergauwe. So stellten sich zum Beispiel Hirnscans Fragen des Persönlichkeits- und Datenschutzes. Zudem liessen sich nicht alle Daten leicht weiternutzen, ergänzt Kasparian. Gewisse Daten liessen sich nur im Kontext, in dem sie erhoben wurden, überhaupt verstehen. «Ohne diese Metainformationen, die oft ein Vielfaches der eigentlichen Daten ausmachen, sind sie wertlos.» Auch eine Reproduzierbarkeit sei in solchen Fällen oft nicht möglich.
Damit die meist hochspezifischen Forschungsdaten überhaupt von breitem Nutzen sind und zu ORD werden, müssen sie laut Dessimoz zudem zuerst aufbereitet werden. Er nennt das «Demokratisierung». Neben kontextabhängigen Metainformationen brauche es eine einheitliche Strukturierung und allgemeine Datenstandards. Dies sei umso wichtiger, wenn KI zum Einsatz komme. «KI ist nur so gut, wie die Daten, mit der sie trainiert wird», so Dessimoz.
Kommerzielle Interessen
Daten gelten als das neue Erdöl und wecken bei Tech-Firmen entsprechende Begehrlichkeiten. Was bedeutet das für die Wissenschaft? In der Forschung sei es normal, dass man nur schwer kontrollieren könne, was mit dem produzierten Wissen geschehe, sagt Kasparian. «Ich finde es grundsätzlich okay, wenn jemand anderes Geld damit verdient.» Problematisch sei es aber dann, wenn Forschende einen grossen Zusatzaufwand betrieben, um ihre Daten bereitzustellen. Dessimoz nennt das Human Genome Project zur Entschlüsselung des menschlichen Erbguts als Beispiel dafür, wie sich Firmen an öffentlich zugänglichen Daten für kommerzielle Zwecke bedient haben. Dies habe einerseits zu wertvollen Innovationen geführt, hätte andererseits aber problematisch werden können, wenn Patente die wissenschaftliche Weiternutzung der Gensequenzen eingeschränkt hätten. Auch finanzielle Abgeltung durch die Firmen bleibe heikel. «Im Moment ist niemand bereit, im Voraus für Daten zu bezahlen, ohne zu wissen, ob sich daraus Profit schlagen lässt», sagt er. Aber eine Debatte darüber sei wichtig, ob und wie Forschende für die Bereitstellung ihrer Daten abgegolten werden sollen.
Die Diskussionen über ORD böten eine gute Gelegenheit, über das Verhältnis zwischen der Wissenschaft als öffentlich finanzierter Produzentin und Eigentümerin von Daten und privaten Unternehmen, die mit diesen Daten Geschäfte machten, nachzudenken, findet Dubochet. «ORD wird oft dahingehend missverstanden, dass einfach für alle alles frei und unkontrolliert verfügbar ist.» Dies sei nicht der Fall. «Die Wissenschaft muss sich aber klar werden, was sie hier erreichen will.»
Es braucht eine ORD-Kultur
Dessimoz sieht Wissenschaftlerinnen und Wissenschaftler auch in der Verantwortung, wenn es darum geht, eine ORD-Kultur zu etablieren und zu leben. Sie sollten ihre Daten möglichst standardisiert erfassen, eigne Datensammlungen entwickeln und mit bestehenden Dateninfrastrukturen zusammenarbeiten. «Wichtig sind hier auch die Ausbildung, Best Practices und Vorbilder, an denen sich die Kolleginnen und Kollegen orientieren können», ergänzt Vergauwe. «Und man muss sich bewusst sein, dass ORD für Forschende einen zusätzlichen Aufwand bedeutet», sagt sie. Darum brauche es auch entsprechende Anreize. Das sieht auch Dessimoz so: Das Teilen von Daten müsse einen positiven Karriere-Impact haben wie die Publikation eines Papers.
Die Datenaufbereitung und -verwaltung an externe Data Stewards zu übergeben, sehen die vier Fachleute kritisch. «Datenintensive Forschung ist heute meist die Realität», sagt Dubochet, «und deshalb sollte der versierte Umgang mit Daten selbstverständlicher Teil der wissenschaftlichen Arbeit sein».
Investitionen in Infrastruktur
Neben der Initiative der Forschenden ist der Aufbau einer geeigneten Dateninfrastruktur ein wichtiger Pfeiler. «Die Schweiz investiert hier zunehmend, aber wir sind noch nicht auf dem Niveau, das nötig ist», so Dubochet. Die bestehenden Datenplattformen müssten zudem die Standardisierung ihrer Daten vorantreiben, damit diese breiter genutzt werden könnten, sagt Dessimoz. Dazu brauche es auch eine engere Zusammenarbeit mit Forschenden.
Forschungsinstitutionen und -förderer schliesslich müssten bei Projekten die Veröffentlichung standardisierter Daten vorschreiben und entsprechende Bemühungen honorieren. Es sei aber illusorisch, ergänzt Dubochet, dass die Politik für ORD separate Fördergelder sprechen werde. «ORD muss innerhalb von Forschungsprojekten finanziert werden.» Wichtig sei, dass Forschungsinstitutionen den Wissenschaftlerinnen und Wissenschaftlern mehr Freiräume verschafften, damit diese ausloten könnten, was mit neuen Tools oder KI im Bereich ORD möglich sei.
Erste Vorzeigeprojekte
Was dabei entstehen kann, demonstrierte Adriano Rutz von der ETH Zürich den Tagungsteilnehmerinnen und -teilnehmern anhand der von ihm mitentwickelten Lotus-Initiative. Diese frei zugängliche Datenplattform verknüpft molekulare Strukturen und biologischen Organismen, in denen sie gefunden wurden. Die Plattform beinhaltet rund 750'000 referenzierte Struktur-Organismus-Paare und bietet neue Wege, Wissen im Bereich der Naturstoffforschung zu teilen und zu erweitern. Wegen seines pionierhaften Charakters erhielt das Projekt 2023 den ORD-Preis der Akademien der Wissenschaften Schweiz.