FD-LEX – Grundstein für eine zentrale Forschungsdatenbank zum Thema Sprachförderung und Sprachkompetenz legen

Forschungsdatenzentren stellen sich vor (12): FD-LEX am Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache, Köln

INTERVIEW mit Sandra Tietjens von der Forschungsdatenbank Lernertexte, kurz auch FD-LEX genannt. FD-LEX entstand aus einem BMBF-Projekt des Mercator-Instituts zu Schreibkompetenzen, bei dem Lernertexte auf Deutsch erhoben wurden, die nun in der Datenbank als orthografisch normalisierte Transkripte und Scans der handschriftlichen Originale bereitgestellt werden – zusammen mit Metadaten der Schülerinnen und Schüler. Gemeinsam mit dem Verbund Forschungsdaten Bildung arbeitet FD-LEX daran, die Datensätze an zentraler Stelle über das Portal forschungsdaten-bildung.de nachzuweisen. Mit Sandra Tietjens spreche ich über FD-LEX und die Pläne, die Forschungsdatenbank zum Thema Sprachförderung und Sprachkompetenz künftig um weitere Lernertexte auszubauen.

Frau Tietjens, was steckt hinter oder in der „Forschungsdatenbank Lernertexte“ des Mercator-Instituts?

Hinter FD-LEX steckt der grundlegende Gedanke, Schreibdaten aus Forschungsprojekten für die weitere Nutzung zur Verfügung zu stellen. In FD-LEX sind aktuell die Daten aus dem vom Bundesministerium für Bildung und Forschung geförderten Projekt „Unterrichtliche Förderung von Teilkomponenten der Schreibkompetenz“ zu finden. Diese bilden ein Korpus aus genau 5628 Texten von Schülerinnen und Schülern, die von 2013 bis 2015 erhoben wurden. Die Datenbank wurde 2017 in Kooperation mit dem Regionalen Rechenzentrum der Universität zu Köln und der Leibniz-Universität in Hannover und dort unter Leitung von Prof. Joachim Grabowski entwickelt.

Warum wurden gerade die Daten dieses Projekts für die Nachnutzung aufbereitet?

Es war ein Forschungsprojekt, in dem das Team besonders viele Lernertexte mit unterschiedlichen Textsorten zu verschiedenen Erhebungszeitpunkten und mit sehr vielen Metadaten erhoben hat – wie beispielsweise sprachbiografische Informationen und sprachbezogene Fähigkeitskennwerte. Aufgrund dieses besonderen Charakters haben wir mit dem Bundesministerium für Bildung und Forschung eine Nachnutzung der gesammelten Texte vereinbart, wofür auch eine Anschlussförderung bewilligt wurde.

Foto der Hand eines schreibendes Mädchens. Darunter der Schriftzug "FD-LEX Forscherdatenbank Lernertexte

Die webbasierte Datenbank ermöglicht die Recherche in einem Textkorpus aus 5.628 Lernerinnen- und Lernertexten auf Deutsch.

Bietet FD-LEX auch noch weitere Datenbestände?

Das eben beschriebene Forschungsprojekt mit seinem Textkorpus hat den Grundstein für die Datenbank gelegt. Ziel ist es nun, sukzessive Texte aus weiteren Projekten des Mercator-Instituts und auch aus anderen Einrichtungen aufzunehmen. Dabei sind für uns alle Datensätze interessant, die Texte von Lernenden enthalten und den inhaltlichen und technischen Anforderungen von FD-LEX entsprechen. Aktuell sind wir noch dabei, diese Anforderungen genauer zu definieren. Unser Ziel ist es, Daten von Wissenschaftlerinnen und Wissenschaftlern in einer Form zu bekommen, die eine einfachere, quasi „automatisierte“ Integration in die Datenbank erlaubt.

Sie bereiten zurzeit also noch die Datenbestände anderer Projekte auf?

Ja! Wir haben in den letzten Monaten bereits ein relativ kleines Textkorpus mit Texten von neununddreißig Schülerinnen und Schülern aufgenommen; mit fünf Textsorten zu drei Messzeitpunkten ist es aber doch recht komplex. Und momentan sind wir mit einem dritten Korpus beschäftigt, das mit ca. 5.000 Texten erheblich größer ist! Zur Nachnutzung steht davon aber noch keines zur Verfügung, wir sind noch mitten in der technischen Entwicklung. Gerade sind wir dabei, einen Importcode zu entwickeln, der die Aufbereitung der Daten für die Datengebenden und den Import neuer Korpora einfacher macht als bisher. Bei dem dritten Korpus werden wir noch mitarbeiten, um zu sehen, ob und wie unsere neuen Importprozesse funktionieren. Wenn das abgeschlossen ist, können wir das neue Vorgehen genau festlegen.

Auf einen Blick: Die Forschungsdatenbank FD-LEX

Datenbestand

5.628 Lernertexte von Schülerinnen und Schülern aus dem BMBF-Projekt „Unterrichtliche Förderung von Teilkomponenten der Schreibkompetenz“ auf Deutsch; als orthografisch normalisierte Transkripte und als Scans der handschriftlichen Originale; mit Metadaten wie sprachbiografischen Informationen und sprachbezogenen Fähigkeitskennwerten

Sammelschwerpunkt

Alle Datensätze mit Texten von Lernenden, die den inhaltlichen und technischen Anforderungen von FD-LEX gerecht werden.

Service

Der Zugang erfolgt über die Registrierung auf der Startseite. Nach der Erstellung des Kontos können registrierte Personen im Textkorpus nach Daten suchen. Die Metadaten stehen direkt als Download bereit, die Transkripte und Scans der Originaltexte (PDF) werden per E-Mail geschickt. Inhaltliche Nachfragen per E-Mail sind grundsätzlich möglich.

Wer nutzt die Daten

Personen, die sich mit Forschung und Lehre in der sprachlichen Bildung beschäftigen.

Forschungsdatenmanagement und Open Data: Wie stehen die Wissenschaftler*innen des Mercator-Instituts dazu?

Open Data ist dem Mercator-Institut ein wichtiges Anliegen, auch weil die Daten bei uns mit einem erheblichen Aufwand erhoben werden – für die Forschenden, für die Schulen und für die Lernenden. Schon deshalb ist es sinnvoll, die Daten auch zur Sekundäranalyse zur Verfügung zu stellen. Und das Forschungsdatenmanagement spielt eigentlich in allen Projekten mittlerweile eine wichtige Rolle, auch wenn sich aktuell alle noch in einem Lernprozess befinden. Wir haben für unsere Forscherinnen und Forscher so genannte „Standard Operation Procedures“ entwickelt, die auch den Anforderungen der DFG und des Verbunds Forschungsdaten Bildung entsprechen.

Wer nutzt FD-LEX?

Insgesamt haben wir mittlerweile etwa 590 Nutzende. Seit Anfang des Jahres haben sich in etwa 60 Personen neu registriert; im Laufe des letzten Jahres waren es etwa 210 Personen. Die Gruppe der Nutzenden setzt sich aus Studierenden, Hochschullehrenden und Wissenschaftler*innen aus verschiedenen deutschen Universitäten zusammen; sie kommen zum Beispiel aus Leipzig, Freiburg, Münster, Köln oder Kassel. Oft werden Daten aus dem Korpus von Lehrenden für Seminare verwendet. Aber auch Studierende nutzen die Datenbank regelmäßig als Grundlage für Seminar- und Abschlussarbeiten.

„Interessant sind die Daten für alle, die sich mit Forschung und Lehre in der sprachlichen Bildung beschäftigen.“

Sind die Lernertexte eigentlich auch außerhalb Deutschlands von Interesse?

Interessant sind auch die Anfragen, die uns aus dem Ausland erreichen. Anhand der Institutionen der bei FD-LEX registrierten Personen können wir ablesen, dass sich nicht nur deutsche, sondern auch türkische, österreichische, slowenische Einrichtungen für die Texte der Datenbank interessieren! Da man bei unserer Registrierung das Forschungsinteresse allerdings nicht nach konkreten Vorgaben angeben muss, wissen wir nichts Genaueres darüber. Nur, dass doch recht unterschiedliche Perspektiven eingenommen werden können. Deshalb wäre auch eine Nutzungsanalyse oder eine Befragung zu konkreten Nutzungserfahrungen wünschenswert.

Welchen Forschungsfragen wird denn auf der Grundlage des FD-LEX-Korpus nachgegangen?

Zum Beispiel der Gebrauch von Präpositionen bei Lernenden, die Deutsch als Zweitsprache erwerben. Auch Orthographie-Erwerb war ein Thema oder die Schreibförderung bei Schülerinnen und Schülern mit Migrationsgeschichte. Aber auch so etwas wie die Wahrnehmung und Bewertung maschineller Texte. Interessant fand ich, dass unsere Texte auch für die Förderung von schreibbezogenen Kompetenzen in der Ausbildung von Sportlehrkräften ausgewertet wurden (lacht). Und vor kurzem haben wir eine Anfrage erhalten für ein größeres Forschungsprojekt, in dem die Wissenschaftlerin eigentlich vorhatte, selbst an Schulen Daten zu erheben, das aber aufgrund der Corona-Pandemie nicht umsetzen konnte. Sie hat dann unser gesamtes bisher vorhandenes Korpus als alternative Datenquelle angefragt und wird es für dieses Vorhaben nutzen.

Das Textkorpus ist auch eine gute Alternative zu selbst erhobenen Daten.

Wenn ich das richtig verstanden habe, planen Sie, FD-LEX als Forschungsdatenzentrum für Texte von Lernerinnen und Lernern auszubauen?

Genau. Gemeinsam mit dem Rechenzentrum der Universität zu Köln arbeiten wir zurzeit an der Konfiguration unserer bisherigen Datenbank, die wir so anpassen wollen, dass weitere Korpora abgerufen werden können. Wir werden in Zukunft eine Übersichtsseite anbieten, über die man einen Korpus auswählen und dann zur Suche innerhalb dieses Korpus gelangen kann. Zudem entwickeln wir gemeinsam mit dem Verbund Forschungsdaten Bildung aktuell eine technische Schnittstelle. Über diese Schnittstelle können Datengebende in Zukunft Daten melden, die dann auf unserer Seite geprüft und gegebenenfalls in die Datenbank aufgenommen werden. Dadurch wird eine zentrale Meldung und Abfrage von Daten auf dem Portal forschungsdaten-bildung.de ermöglicht.

Beraten Sie auch vor oder bei der Nachnutzung der Daten?

Theoretisch bestünde die Möglichkeit, per E-Mail Kontakt aufzunehmen, bislang kamen allerdings noch keine Anfragen, die eine ausführliche Beratung verlangt hätten. Vielleicht auch, weil die Dokumente in einem sehr gut beschriebenen Kontext zur Verfügung gestellt werden – Projektbeschreibung und Projektseite des bisherigen Korpus, Möglichkeit des Downloads der Schreibaufgaben und auch die Erklärung der Filtervariablen. Damit ist verständlich und gut dargestellt, wie die Daten erhoben worden sind und wie man mit ihnen arbeiten kann. Zudem denke ich, dass sich zum Beispiel Studierende im Zweifelsfall von ihren Betreuenden beraten lassen würden, denn oft sind Fragen ja sehr themenspezifisch.

Was sind Ihre Wünsche für die nächsten Jahre?

Wir möchten, dass unsere Daten zentral gesucht und von möglichst vielen Forschenden gefunden und genutzt werden. Deswegen arbeiten wir gezielt an der Entwicklung der Schnittstelle, mit deren Hilfe die zentrale Abfrage und Meldung von Textkorpora über den Verbund Forschungsdaten Bildung funktioniert. Wenn das realisiert ist, können wir noch mehr Wissenschaftlerinnen und Wissenschaftler erreichen! Das und die technische Erweiterung und Anpassung unserer Datenbank, um neue Textkorpora einfacher aufnehmen zu können, soll dazu beitragen, eine nachhaltige Infrastruktur für die Recherche, Bereitstellung und Nutzung von Texten von Lernerinnen und Lernern zu schaffen. Für das Mercator-Institut ist FD-LEX ein ganz wichtiger Baustein für die Bereitstellung wissenschaftlicher Infrastruktur. Deshalb würde ich mir wünschen, dass die über Projektmittel geförderte Infrastruktur weiter gefördert oder sogar verstetigt wird.

Vielen Dank für das Gespräch, Frau Tietjens!


Dieser Text steht unter der CC BY 4.0-Lizenz. Der Name des Urhebers soll bei einer Weiterverwendung wie folgt genannt werden: Christine Schumann für Deutscher Bildungsserver


Auch noch interessant:

4 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert