Open Data in der Bildungsforschung (5)
DAS WORT HAT Prof. Dr. Achim Oßwald, der am Institut für Informationswissenschaft der TH Köln vor allem Bibliotheks- und Informationswissenschaftlerinnen und -wissenschaftler ausbildet (Master in Library and Information Science). Bei der Langzeitarchivierung von Forschungsdaten sind laut Prof. Oßwald vor allem drei Aspekte wichtig: Die Motivation der Forschenden, ihre Forschungsdaten überhaupt bereit zu stellen, Forschungsdaten über Metadaten zu dokumentieren und die Bereitschaft der Serviceeinrichtungen zu arbeitsteiligem und kooperativem Handeln. Um die Langzeitverfügbarkeit digitaler Publikationen zu gewährleisten, sieht er vor allem die Politik gefordert.
Aus Sicht der Archivare ist die Bezeichnung Langzeitarchivierung ein Pleonasmus, denn: Archivierung schließt für sie immer schon das langfristige Sichern und Aufbewahren von Akten und Urkunden aus Verwaltungshandeln mit ein – im Prinzip für die Ewigkeit. Außerhalb des Archivwesens aber haben u. a. viele Hochschul- und Landesbibliotheken eine Archivfunktion für Publikationen, Dokumente und Daten. Bei Büchern und Zeitschriften wurden von Bibliotheken über Jahrhunderte Erfahrungen gesammelt, wie diese klimatisch gesichert werden müssen, um sie auch langfristig noch nutzen zu können. Bei digitalen Publikationen gab es solche Erfahrungen jedoch nicht.
„Erste Erfahrungen mit der langfristigen Speicherung digitaler Publikationen wurden erst nach der Jahrtausendwende gesammelt.“
Deshalb begannen nach der Jahrtausendwende weltweit primär Bibliotheken – bald in Zusammenarbeit mit anderen so genannten Kulturerbeeinrichtungen wie Museen und Archiven – Erfahrungen mit der Speicherung digitaler Publikationen zu sammeln. Um diese digitalen Objekte für lange Zeit, im Idealfall dauerhaft, verfügbar und nutzbar zu halten, wurden technische und organisatorische Empfehlungen entwickelt und im Rahmen von Projekten erprobt. Ziel der Maßnahmen ist die Langzeitverfügbarkeit digitaler Publikationen – Langzeitarchivierung ist die Voraussetzung dafür. Hier wurde zwischenzeitlich schon viel erreicht, auch wenn neue Publikationsformen und dynamische digitale Objekte (zum Beispiel Websites oder multimediale Publikationen) weiterhin große Herausforderungen bieten.
Für die Nachnutzung von Forschungsdaten sind Metadaten unabdingbar.
Forschungsergebnisse anderer nachvollziehen, überprüfen und ggf. auch widerlegen zu können ist ein Grundprinzip und zentraler Antrieb der Wissenschaftswelt. Wenn es um Experimente geht, die im Labor nachvollzogen werden können, dann genügen dafür u. U. einige technische Rahmendaten. Wenn es aber um die Analyse und Interpretation von Daten geht, die mit viel (zeitlichem und finanziellem) Aufwand erhoben wurden, ist fachlich und ökonomisch eine Nachnutzung der zugrundeliegenden Daten die gebotene Wahl.
Forschende benötigen dafür natürlich nicht nur die Daten als solches, sondern auch Informationen darüber, wie diese erhoben wurden: zum Beispiel über die Befragten, über die rechtlichen Voraussetzungen zur Nutzung der Daten, aber auch technische Informationen über die Formate, in denen Daten vorliegen, oder darüber, mit welchen Verfahren sie ausgewertet wurden. Diese sogenannten Metadaten sind unabdingbar, um Forschungsdaten nachnutzen zu können. Forschende haben hierfür meist weder Zeit noch Sinn – und u. U. auch nur begrenzte Kompetenzen.
Förderpolitische Maßnahmen motivieren Wissenschaftler dazu, Forschungsdaten aufzubereiten und zu archivieren.
Umfragen zeigen, dass zwar viele Forschende Daten anderer nachnutzen wollen, selbst aber möglichst wenig Aufwand betreiben wollen, um die von ihnen erhobenen Daten so aufzubereiten, dass sie von anderen nachgenutzt werden können. Die Konkurrenz der Forschenden untereinander tut ein Übriges. Deshalb ist es so wichtig, dass durch förderpolitische Maßnahmen der Mittelgeber die Motivation zur Aufbereitung und Archivierung von Forschungsdaten stimuliert wird. Und gleichzeitig müssen Infrastruktureinrichtungen wie z. B. Bibliotheken oder das DIPF in die Lage versetzt werden, Dienstleistungen anzubieten, die Forschende dabei unterstützen, ihre Forschungsdaten entsprechend aufzubereiten.
Langzeitarchivierung bedeutet arbeitsteilig und kooperativ zu handeln.
Wer langfristig archivieren will oder soll, der sollte darauf hoffen dürfen, dass die Organisation, die diese Aufgabe wahrnimmt (oder ihre Nachfolgeeinrichtung), auch in 10, 20 oder 100 Jahren noch existiert. Eine Garantie dafür gibt es natürlich nicht, aber für einige Einrichtungen dürfen wir es schon erhoffen. Nestor, das deutsche Kompetenznetzwerk Langzeitarchivierung, hat Kriterien für solche Einrichtungen aufgestellt. Ihnen ist u. a. gemeinsam, dass sie ihr konkretes Vorgehen transparent dokumentieren, so dass Nachfolgeeinrichtungen darauf zugreifen können.
Ein zentraler Aspekt der Langzeitarchivierung ist die Bereitschaft zu arbeitsteiligem, kooperativem Handeln. Alle – auch internationalen – Erfahrungen mit der Langzeitarchivierung digitaler Objekte zeigen dies. Jede Einrichtung konzentriert sich dabei auf bestimmte Daten, Objekte oder Prozesse (wie beispielsweise die Arbeitsteilung zwischen DIPF – qualitative Forschungsdaten – und GESIS – quantitative Forschungsdaten) und nimmt gleichzeitig Dienstleistungen Dritter in Anspruch, die diese ohnehin erfüllen müssen – zum Beispiel die der Deutschen Nationalbibliothek, deren gesetzlicher Auftrag es ist, digitale Publikationen in möglichst authentischer Form langfristig verfügbar zu halten.
Die eigentliche Schwierigkeit war, ist und bleibt, die dafür unabdingbaren Fachleute gewinnen und dauerhaft beschäftigen zu können. Von den Mittelgebern wurden lange Zeit nur Projekte gefördert, um Verfahren und Workflows zu entwickeln, nicht jedoch diese dann in den Regelbetrieb zu überführen.
Eine Trennlinie zwischen Dokumentation und Langzeitarchivierung ist sinnvoll.
Aufgrund des hohen personellen und technischen Aufwands ist eine Trennung zwischen Dokumentation und Archivierung fachlich und ökonomisch geboten und findet faktisch auch heute schon statt. Die DFG macht zum Beispiel bei Projektanträgen die Vorgabe, nachzuweisen, wie und wo die ermittelten Forschungsergebnisse „in der eigenen Einrichtung oder in einer fachlich einschlägigen, überregionalen Infrastruktur für mindestens 10 Jahre archiviert werden“. Eine Langzeitarchivierung ist damit noch nicht automatisch vorgegeben – insbesondere nicht für nichttextuelle Forschungsdaten. Aber die Aufbereitung von Forschungsergebnissen mit Metadaten, ihre Normalisierung und Standardisierung und ihre Sicherung in einschlägigen Repositorien oder sonstigen Speicherinfrastrukturen hält die Option offen, in 10 Jahren zu entscheiden, ob diese Ergebnisse dann langfristig archiviert werden sollen. Auch um diese Option zu eröffnen, stellen die DFG (und andere) Geld für die Aufbereitung von Forschungsdaten bereit.
Bislang wird die Trennlinie rein formal zeitlich gesetzt. 10 Jahre sind hier genauso zufällig wie es 9 oder 11 Jahre wären. Eine fachliche Trennlinie könnte die – allerdings schwierig zu ermittelnde – Halbwertszeit des Wissens in der jeweiligen Fachdisziplin sein, d. h. jene Zeitspanne, in der frühere Erkenntnisse angeblich überholt sind. Da dies aber zum Teil sehr umstritten ist, will sich darauf niemand wirklich einlassen, weshalb eine formale Frist die bessere Lösung ist.
Dokumentieren von Forschungsdaten heißt eine Grundvoraussetzung für Langzeitarchivierung zu schaffen.
Langfristiges Archivieren von Daten ohne die Dokumentation ihrer Entstehung kann also nicht funktionieren, noch wäre sie sinnvoll. Insofern bedeutet zu „dokumentieren“ Forschungsdaten archivierbar zu machen. Und durch diesen Prozess wird z. T. auch transparent, ob es technisch, rechtlich und fachlich überhaupt möglich und sinnvoll ist, Daten längerfristig (beispielsweise über die angesprochenen 10 Jahre hinaus) aufzubewahren.
Ganz nebenbei: Dokumentieren, d. h. mit Metadaten versehen, sollte man auch seine eigenen Daten, wie Urlaubsbilder oder sonstige persönliche oder fachliche digitale Unterlagen. Und je eher man sich hier – wo es die 10-Jahresfrist ja nicht gibt – von Ballast wie verwackelten oder unscharfen Bildern oder irgendwelchen Vorversionen von Dokumenten durch Löschen trennt, desto weniger Aufwand hat man mit dem Rest.
„Das „Personal Digital Archiving“ ist eine Art Trainingsfeld für den Umgang mit Forschungsdaten.“
Das „Recht auf Vergessen“ haben wir also als Privatpersonen, als Datengeber, aber auch als Forschende: Alle Beteiligten können festlegen, wie lange die von ihnen bzw. über sie erhobenen Daten aufbewahrt werden sollen – und was danach mit diesen Daten geschehen soll. Gleiches gilt für jene, die beispielsweise mit Interviews zu einer Sammlung von Forschungsdaten beigetragen haben. Seriöse Infrastruktureinrichtungen löschen Daten konsequent, wenn keine Erlaubnis für eine Nachnutzung vorliegt. Und die Dokumentation dessen, was an Speicherung und Nachnutzung erlaubt wurde, muss von der Infrastruktureinrichtung gegebenenfalls eingefordert und umgesetzt werden. Für personenbezogene Daten ist das vom Grundsatz her bereits klar geregelt. Leider ist die konkrete Kenntnis und das Bewusstsein über diese Regeln noch nicht so verbreitet wie das eigentlich wünschenswert wäre – und es ist eine wichtige Aufgabe von Hochschulen und außeruniversitären Forschungseinrichtungen, Nachwuchsforscher dafür zu sensibilisieren.
Dieser Text steht unter der CC BY 4.0-Lizenz. Der Name des Urhebers soll bei einer Weiterverwendung wie folgt genannt werden: Prof. Dr. Achim Oßwald für Deutscher Bildungsserver
Auch noch interessant:
- Open Data in der Bildungsforschung (1): Her mit den Datenbeständen! Das FDZ Bildung garantiert Forschenden Rechtssicherheit, Auffindbarkeit und Arbeitsersparnis
- Open Data in der Bildungsforschung (2): Wie funktioniert das mit der Nachnutzung von Forschungsdaten?
- Open Data in der Bildungsforschung (3): Was haben Bildungsforscher davon, ihre erhobenen Daten zu veröffentlichen?
- Open Data in der Bildungsforschung (4): Zur Nachnutzung von Daten der qualitativen Bildungs- und Biographieforschung
So habe ich das noch nie gesehen, dass es da eine Trennung geben sollte. Langzeitarchivierung und Dokumentation war für mich immer das Gleiche. Sicher ist das auch von der Sichtweise auf die Daten abhängig und welche es sind. Davon ausgehend kann dann entschieden werden, wie der Aufwand ausfällt.