Metadaten und ihre Bedeutung für den Verbund Forschungsdaten Bildung

Open Data in der Bildungsforschung (6)

DAS WORT HAT Dr. Dirk Weisbrod, wissenschaftlicher Mitarbeiter des DIPF, der beim Verbund Forschungsdaten Bildung unter anderem für die Weiterentwicklung des Metadatensets zuständig ist. Er erklärt, was Metadaten genau sind, welche Bedeutung sie für die Erfassung und Dokumentation von Forschungsdaten haben und warum sie gerade für die Bildungsforschung so wichtig sind.

Dr. Dirk Weisbrod, Wissenschaftlicher Mitarbeiter des DIPF im Arbeitsbereich „Forschungsdaten Bildung“

Wer mit Forschungsdaten zu tun hat, wird sehr schnell auch mit Metadaten in Berührung kommen. Das gilt für alle wissenschaftlichen Disziplinen und damit auch für die Bildungsforschung. Denn Metadaten erfüllen eine zentrale Funktion, um wissenschaftliche Daten zu beschreiben, zu speichern und wiederzufinden. Dabei kann man sich leicht in einem Labyrinth aus Metadaten verirren, insbesondere dann, wenn man zum ersten Mal mit Forschungsdaten zu tun hat und diese adäquat managen will. In diesem Beitrag soll deswegen erklärt werden, was Metadaten überhaupt sind, warum sie auch und gerade für die Bildungsforschung wichtig sind und welche Rolle sie im Verbund Forschungsdaten Bildung spielen.

Was sind Metadaten?

Zu Beginn soll aber erst einmal die grundsätzliche Frage gestellt werden: Was sind Metadaten überhaupt? Wenn man Definitionen im Netz recherchiert, findet man häufig: Metadaten sind Daten über Daten (meta = griechisch für über). Metadaten können allerdings zu jedem beliebigen Objekt erhoben werden, zum Beispiel zu einem Buch. In diesem Fall sind das etwa Titel, Seitenzahl, Verlag oder eine Inhaltsbeschreibung. Trotzdem werden heute Metadaten vor allem mit digitalen Daten in Verbindung gebracht und im Falle von Forschungsdaten trifft das auch tatsächlich zu.

Es gibt verschiedene Arten von Metadaten: Im obigen Beispiel wird ein Buch durch Metadaten beschrieben, weswegen man in diesen Fällen auch von deskriptiven Metadaten spricht. Strukturelle Metadaten setzen die beschriebenen Objekte oder Daten mit anderen Einheiten in Beziehung. Bei Textdokumenten können das beispielsweise alle Versionen und Fassungen eines Dokumentes sein; bei E-Mails beispielsweise Anhänge und Antworten. Im digitalen Umfeld müssen aber auch technische Metadaten erhoben werden, um die Archivierung von digitalen Daten sicherzustellen. Solche Metadaten sind zum Beispiel Dateigröße, Dateiformat oder Software, die notwendig ist, um das digitale Objekt später einmal wieder benutzen zu können. Zu den technischen Metadaten kann man auch administrative Daten wie Dateinamen und aktueller Speicherort zählen, obwohl sie in der Literatur hin und wieder als eigenständiger Typ genannt werden. Die Definition vom Anfang muss also noch etwas erweitert werden:

Metadaten sind Daten über Objekte oder Daten, die diese möglichst genau beschreiben, ihre Bezüge zu anderen Objekten und Daten abbilden und Informationen für deren Archivierung und Nachnutzung bereitstellen.

Metadaten für Forschungsdaten der Bildungsforschung

Um Forschungsdaten in den Datenbanken der Forschungsdatenzentren (FDZ) recherchieren und nachnutzen zu können, müssen sie folglich mit Metadaten ausgestattet sein. Gerade für die inhaltliche Beschreibung benötigt man Metadaten, die auf die jeweilige Disziplin zugeschnitten sind und disziplinspezifische Methoden und Vokabulare berücksichtigen, die sogenannten Metadaten-Sets. Oftmals sind diese Sets mit kontrollierten Vokabularen verknüpft. Kontrollierte Vokabulare sind eindeutig definierte Wortschatz-Sammlungen für ein bestimmtes Metadatum, z.B. eine Liste mit Erhebungsmethoden oder Auswahlverfahren, die bei der Beschreibung verwendet werden müssen. Zudem stellen strukturelle Metadaten den für das Suchen und Finden sehr wichtigen Kontext der Forschungsdaten her, etwa indem Datenkollektionen mit Studien und Instrumenten oder Studien mit Projekten und Projektträgern verknüpft werden. Erst wenn diese Informationen möglichst vollständig vorliegen, kann ein Forscher entscheiden, ob er Forschungsdaten nachnutzen und unter neuen Gesichtspunkten auswerten will.

Bislang gibt es nicht das Metadatenset für die Bildungsforschung und somit keine Lösung, die allgemein anerkannt ist und breit genutzt wird. Die Forschungsdatenzentren dieser Disziplin arbeiten teilweise mit eigenen Sets, die zum Teil spezifische Anforderungen abbilden und nicht ohne weiteres von anderen verwendet werden können.

Metadaten im Verbund Forschungsdaten Bildung (VerbundFDB)

Da der VerbundFDB Forschungsdaten aus verschiedenen FDZ nachweist, wurde ein gemeinsames Metadatenset zwischen den Verbundpartnern (DIPF, GESIS, IQB) entwickelt und abgestimmt. Die derzeit verwendete Version ermöglicht den Nachweis von Forschungsdaten bis auf die Datenkollektionsebene, d.h. die Metadaten beschreiben bspw. das Thema der Studie, das Studiendesign und die Art der erhobenen Daten; eine tiefergehende Erschließung – etwa auf der Ebene der Erhebungsinstrumente oder einzelner Beobachtungs- und Befragungseinheiten – überlässt der Verbund den einzelnen FDZ.

Zu den Mehrwertdiensten des VerbundFDB gehört die Bereitstellung und Weiterentwicklung eines solchen Metadatensets für die Bildungsforschung. Zudem wurde verbundweit ein Kernset Bildungsforschung entwickelt, das eine Mindestqualität der Metadaten festlegt.

Das Metadatenset des Verbundes und die zugrundeliegende Datenbank werden derzeit weiterentwickelt, um die Anforderungen des sich erweiternden Partnerkreises aufzunehmen. Ziel ist es, ein möglichst flexibles, objektorientiertes Datenmodell zu schaffen, das neben den deskriptiven auch alle strukturellen Anwendungsfälle der Bildungsforschung abbildet. Dazu gehört zum Beispiel die Erfassung von Studien, die aus mehreren Teilstudien bestehen, oder Studien, die in Kooperation mehrerer Projekte entstanden sind.

Metadatenschnittstellen für Kooperationspartner

Bislang ist das Meldeformular meinfdb.forschungsdaten-bildung.de die zentrale Anlaufstelle für alle Datengeber, die Metadaten im Verbund melden und nachweisen wollen. Nach der Registrierung können sie dieses Formular ausfüllen und Forschungsdaten in die Verbundsysteme hochladen. Anhand der eingegebenen Metadaten erschließen die Verbund-Dokumentarinnen und ­-Dokumentare die hochgeladenen Forschungsdaten.

Für Kooperationspartner ist es sinnvoll, Metadaten über Schnittstellen direkt mit der Verbund-Datenbank austauschen zu können.

Für Kooperationspartner des Verbundes, die selbst ein FDZ betreiben, ist es zudem wünschenswert, Metadaten über Schnittstellen direkt mit der Verbund-Datenbank auszutauschen – ohne sie eigens noch einmal über das Meldeformular erfassen zu müssen. Hierfür entwickelt der VerbundFDB derzeit eine Schnittstelle zum Einsammeln (Harvesting) von Datennachweisen über die Plattform „da I ra“. „da I ra“ ist in den Sozialwissenschaften die zentrale Registrierungsagentur für die Vergabe von dauerhaften digitalen Identifikatoren, sog. Digital Object Identifiers (DOI). Kooperationspartner können zukünftig direkt bei der DOI-Registrierung die in „da I ra“ angelegten Datennachweise mit einer Verbund-Markierung versehen. Alle markierten Datensätze werden dann über ein spezifisches Austauschprotokoll für Metadaten-Harvesting (basierend auf OAI – Open Archive Initiative) in die Verbunddatenbank importiert. Ein Mehraufwand entfällt, da die FDZ ihre Forschungsdaten ohnehin bei da I ra registrieren, um eine DOI zu erhalten. Um eine Mindestqualität der übermittelten Metadaten zu gewährleisten, hat der Verbund ein Kernset verabschiedet, das aus 17 Metadaten-Angaben besteht. Nur wenn dieses Kernset im da I ra-Datensatz vollständig vorliegt, wird der Datensatz in die Verbunddatenbank importiert. Die Vollständigkeitsprüfung erfolgt automatisch.

Zudem ist geplant, eine Programmier-Schnittstelle zu entwickeln, die das Andocken der FDZ-eigenen Erfassungssysteme an die Verbunddatenbank erlaubt. Dann können die Kooperationspartner des Verbundes die Metadaten während des lokalen Erfassungsvorgangs direkt an die Verbunddatenbank übermitteln und somit unmittelbar zur Nachweiserweiterung des Verbundes beitragen.

Zusammenfassung

Man kann Metadaten hinsichtlich ihrer Funktion in deskriptive, strukturelle und technisch-administrative Metadaten einteilen. Während die letztgenannten für die Archivierung und Bereitstellung der beschriebenen Daten benötigt werden und disziplinunabhängig sind, müssen deskriptive und strukturelle Metadaten-Sets immer auch disziplinspezifisch definiert werden.

Zu den Mehrwertdiensten des VerbundFDB gehört die Bereitstellung und Weiterentwicklung eines solchen Metadatensets für die Bildungsforschung. Zudem wurde verbundweit ein Kernset Bildungsforschung entwickelt, das eine Mindestqualität der Metadaten festlegt.

Zugleich arbeitet der Verbund daran, den Austausch von Metadaten zu erleichtern. Hierfür wird derzeit neben dem bewährten Meldeformular eine Harvesting-Schnittstelle entwickelt, die die Datenmeldung über die DOI-Registrierungsagentur „da I ra“ ermöglicht. Geplant ist zudem eine Schnittstelle zu den Erfassungssystemen kooperierender FDZ für den direkten Datenaustausch.


Dieser Text steht unter der CC BY 4.0-Lizenz. Der Name des Urhebers soll bei einer Weiterverwendung wie folgt genannt werden: Dr. Dirk Weisbrod für Deutscher Bildungsserver


Auch noch interessant:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert