„Wie füttert man Algorithmen?“

Hintergründe zum Einsatz Künstlicher Intelligenz in der Bildungsforschung

Ein Beitrag von Carolin Anda, DIPF.

Künstliche Intelligenz ist präsenter denn je. Doch was steckt hinter diesem Begriff und welche Formen der Künstlichen Intelligenz (KI) gibt es? Was muss passieren bis ein Computer „intelligent“ ist, und wie kann KI unsere Art zu Lernen unterstützen? Einfach gesagt spricht man von künstlicher Intelligenz, wenn Computer Probleme lösen, die den Entscheidungsstrukturen von Menschen nahe kommen. Dafür sollen Computer auch aus Erfahrungen lernen und eigenständige Schlüsse ziehen. KI wird für das Erstellen von Wissens- und Expertensystemen, für die Muster- und Spracherkennung, in der Modellierung und in der Robotik eingesetzt. Dieser Beitrag beleuchtet das Maschinelle Lernen und die Programmierung eines virtuellen persönlichen Assistenten mit Hilfe zweier Experten aus dem Arbeitsbereich Educational Technologies am DIPF, Leibniz-Institut für Bildungsforschung und Bildungsinformation.

Jan Schneider mit Probandin am Multimodal Tutor Builder-Kit

Am DIPF werden Lerntechnologien auch mit Hilfe von KI-Systemen erforscht. Dr. Jan Schneider entwickelt die multimodale Anwendung Learning Hub, die das Erlernen bestimmter Bewegungen, wie z.B. die Herz-Lungen-Wiederbelebung (CPR) durch das Zusammenspiel textlicher, auditiver, sprachlicher, räumlicher und visueller Informationen unterstützt. Sebastian Wollny forscht als Doktorand im Projekt SEREne an einem digitalen Lerntagebuch, das eine direkte Kommunikation zwischen Programm und Lernenden ermöglicht. „KI ist ein sehr schwammiger Begriff, bei dem häufig nicht ganz klar ist, wo er beginnt. Er lässt sich gut vermarkten, aber wir verwenden ihn in unserer täglichen Arbeit eigentlich nicht.“, erklärt Schneider. Der Habilitand arbeitet vorrangig mit Verfahren des maschinellen Lernens und an der Vereinigung von Messdaten für die Analyse von Lernprozessen.

„Für alle KI-Anwendungen gibt es eine Grundlage: algorithmisch definierte Regeln.“

„Prozesse, die intelligente Systeme ausführen, können rein theoretisch auch vollständig von Programmierer*innen analytisch programmiert werden. Für alle KI-Anwendungen gibt es nämlich eine Grundlage: algorithmisch definierte Regeln.“, fügt Schneider hinzu. KI-Systeme seien allerdings um einiges schneller und vereinfachten viele Programmierschritte, indem sie z.B. Datensortierungen und Mustererkennungen präziser ausführten als Menschen.

Künstliche Intelligenz und Bildung

Das Dossier des Deutschen Bildungsservers zum Wissenschaftsjahr 2019: Mit Links zur KI-Strategie der Bundesregierung, zu mit dem Thema beschäftigten Forschungseinrichtungen, zu Informationssammlungen zum Bereich Arbeit und Qualifizierung sowie zu Materialien zur Behandlung des Themas im Schulunterricht.

Playlist bildungsserverKanal: Nationales themenspezifisches Online-Portal, das für die Öffentlichkeit und fachliche Zielgruppen umfassende Informationen zum Thema Open Educational Resources zur Verfügung stellt. Ziel ist die breite Sichtbarmachung von OER und die Ansprache von neuen Zielgruppen. Der aktuelle Kenntnisstand soll für die Praxis aufbereitet, Informationen zu Best-Practice-Beispielen gebündelt und die Vielfalt vorhandener Initiativen abgebildet werden.

Algorithmen und Maschinelles Lernen

Algorithmen sind Handlungsvorschriften und bestehen aus definierten Einzelschritten, die für das Lösen eines Problems oder mehrerer Probleme eingesetzt werden. Dafür wird eine bestimmte Eingabe in eine bestimmte Ausgabe überführt. Man könnte verkürzt sagen, dass sich ein Computerprogramm aus Algorithmen und einer Datenstruktur zusammensetzt. Algorithmen geben dabei definierte Handlungsschritte vor und die Datenstruktur dient der digitalen Darstellung der verarbeiten Informationen. „Innerhalb intelligenter Systeme gibt es allerdings nicht einen Algorithmus, sondern viele verschiedene Algorithmen, die miteinander verkettet werden müssen, um komplexe Aufgaben, wie zum Beispiel eine Spracherkennung, auszuführen.“, erläutert Doktorand Sebastian Wollny. Solche verketteten Lernsysteme werden neuronale Netze genannt und kombinieren die Ergebnisse mehrerer algorithmischer Teilnetzwerke für ihren Output.

Neuronale Netze sind im Grunde nichts anderes als verschiedene miteinander verkettete Algorithmen.

Maschinelles Lernen kennzeichnet sich dadurch, dass die Algorithmen ihre Leistungen auf Basis einer Lernerfahrung verbessern. Dafür wird das maschinelle Lernsystem in sogenannten Lernphasen mit riesigen Mengen von Beispieldaten so lange trainiert, bis es auf Basis der Lernerfahrung aus den Trainings in der Lage ist, auch neue unbekannte Inputdaten zutreffend einzuordnen. Dies geschieht, indem eine komplexe Aufgabe in kleinste Teile aufgespalten wird. In der Gesamtheit dieser kleinsten Teile wird wiederum nach einem Muster gesucht. Betrachtet man zum Beispiel einen Fließtext, so haben Buchstaben eine andere Bedeutung als die übrigen Schriftzeichen. Ein Wort kann von einem Computerprogramm als Muster im Text aufgefasst werden, das von anderen Zeichen unterschieden werden kann. Führt man den Weg der Mustererkennung fort, so lassen sich auch Regeln für die Grammatik zur Fehlerkorrektur von Texten extrahieren. Diese aufgrund solcher Lernerfahrungen Muster zu erkennen, macht Computer sozusagen „intelligent“.

Virtuelle persönliche Assistenten

Sebastian Wollny nutzt semantische Analyseverfahren, die ebenfalls auf neuronalen Netzen basieren und bei der Programmierung von Chatbots und in der Sprach- und Texterkennung zum Einsatz kommen. „Der Übergang zwischen Schule und Universität erfordert die Fähigkeit selbstreguliert zu lernen. Dabei soll mein Programm helfen.“, erklärt er. Das digitale Lerntagebuch SEREne soll Lernende dabei unterstützen ihre individuellen Lernziele zu erreichen und ihre Lerneinheiten flexibel zu gestalten. Dafür werden Chatbots eingesetzt, die als textbasiertes Dialogsystem das Chatten mit der technischen Anwendung erlauben. Auf Basis einer semantischen Analyse, bei der Relationen zwischen einzelnen Wörtern hergestellt werden, kann SEREne, wie ein persönlicher Assistent, auf die Bedürfnisse der Lernenden reagieren und ihre Lernphasen strukturieren.

Mithilfe von Chatbots sollen Lernende mit dem Unterstützungsprogramm kommunizieren.

Durch das maschinelle Lernen ist es Jan Schneiders Multimodal Tutor Builder-Kit möglich, Muster aus verschiedenen Informationen zu extrahieren und Daten so miteinander zu verbinden. Auch SEREne ist durch die semantische Analyse in der Lage, aus Sprach- und Texteingaben Schlüsse zu ziehen, die sich auf die individuellen Bedürfnisse der Lernenden abstimmen lassen und eine dialogbasierte Modellierung von Lernenden zulassen.

Wie trainiert man Algorithmen?

Beim maschinellen Lernen unterscheidet man zwischen drei Lern- und Trainingsformen: Dem überwachten Lernen, dem halb-überwachten Lernen und dem nicht-überwachten Lernen.

Das überwachte Lernen erfordert das Zusammenstellen eines händisch annotierten Datensets und folgt der Regel, dass der gegebene Input einem bestimmten Output entspricht. Ein Katzenbilder als Input soll dabei z.B. das Output Katze als erkannte Annotation haben.

Für das halb überwachte Lernen, kommen annotierte und nicht annotierte Datensets zum Einsatz. Dabei kann das Lernsystem neben vorgegebenen Outputs auch eigene Outputs errechnen.

Das nicht-überwachte Lernen basiert auf der eigenständigen Mustererkennung und Ähnlichkeitsanalyse der Algorithmen, die selbständig annotierte Outputs generieren. Häufig bestehen Trainings-Sets aus Variationen der zu erkennenden Daten und aus einer Menge anderer Daten. Diese „falschen“ Inhalte helfen dabei, die Ausschlussquote der Algorithmen zu erhöhen und treiben so eine präzisere Trefferquote voran.

Um komplexe Aufgaben zu lösen, ist immer eine Verkettung verschiedener Algorithmen nötig.

Datentraining

Die Quelle aller gut funktionierenden KI-Systeme sind Daten. Je mehr Daten in der Lernphase vorlagen, desto präziser kann eine Aufgabe erfüllt werden.

„Der Slogan ‘Daten sind das neue Gold’ überrascht nicht“, sagt Sebastian Wollny.

Doch das Erheben von sehr vielen Daten und das Füttern und Trainieren der algorithmischen Systeme sind zeit- und kostenaufwändig. Für Daten, die personenbezogene Informationen enthalten, stellen sich zusätzlich Fragen nach Urheber-, Copyright- und  Persönlichkeitsrechten. Der Zeit- und Kostenaufwand entsteht neben der Datenerhebung und ihrer Strukturierung („Annotation“) hauptsächlich durch die Leistung der Rechner selbst. Einzelne Trainingsschritte verlangen immer wieder ein Justieren einzelner Parameter (häufig sind es bis zu 60.000 einzelne Parameter für ein neuronales Netz) über mehrere Stunden oder Tage, an denen die Systeme rechnen und kein Einfluss von außen oder ein Abschalten möglich sind. Alles was in dieser Phase innerhalb der Systeme passiert, bleibt auch für die Entwickler*innen eine undurchsichtige Black Box. Nachträgliche Anpassungen können nur auf Seiten des Inputs, des Outputs oder durch Justieren einzelner Parameter vorgenommen werden.

„Firmen wie Facebook und Google verfügen über so viele Daten, dass sie ohne Probleme Trainings-Sets generieren können.“

Um die finanziellen und zeitlichen Faktoren in der Lern- und Trainingsphase zu minimieren, greifen Firmen und Institute auf Datenbanken zurück, die Datensets anbieten, oder legen kleinere Datensets selbstständig an. Das Team am DIPF generiert sowohl eigene Daten, greift aber auch auf frei verfügbare Open-Source Datensets zurück, um seine Systeme zu trainieren. Schneiders Datenset zum Erlernen der CPR-Technik umfasst ca. 600 Bewegungen, die er mithilfe von 50 Testpersonen erhob. Wollny nutzt als Grundlage für seine Anwendung Datensets für die Sprach- und Texterkennung, die als Open Source Daten von Facebook zur Verfügung gestellt wurden.

Lernen und Arbeiten in KI Umgebungen

Auch wenn die beiden Forscher unterschiedliche Ziele in ihren Projekten fokussieren, sind sie sich bei einer Sache einig: „Wir wollen mit unseren Anwendungen einen breiten Nutzen für Lernende schaffen!“ Das erreichen sie nur durch enge Zusammenarbeit – auch mit den anderen Abteilungen des Instituts, deren Fachwissen rund um das Thema Lernen essentiell ist, um die Designs der Anwendungen passgenau zu gestalten. „Uns ist es wichtig, sehr sachlich und ehrlich mit KI in unserer Forschung umzugehen und auch deren Grenzen zu kennen“, bekräftigen die beiden.“KI Systeme machen Vorschläge und Annahmen, die Entscheidung sollte aber immer beim Menschen liegen!” sagt Schneider mit Blick auf die gegenwärtige KI-Diskussion. Kreativ und kritisch zu denken sind für ihn zwei essentielle Kompetenzen, um in KI- Umgebungen besser lernen und arbeiten zu können. Dies gilt sowohl für die Forscher als auch für die Lernenden.

Die beiden Wissenschaftler

Dr. Jan Schneider, Habilitand am Arbeitsbereich EduTech des DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Dr. Jan Schneider gewann kürzlich den Best Demo Award für sein Multimodal Tutor Builder Kit auf der neunten International Learning Analytics and Knowledge Conference. Das Kit ermöglicht es, spezifische Bewegungen technikbasiert zu erlernen. Dabei werden Sensoren, Bewegungen, audiovisuelle Informationen und spezifische Zeitabstände in Beziehung gesetzt, die eine optimale Ausführung der zu erlernenden Tätigkeit unterstützen. Für die Technik der Herz-Lungen-Wiederbelebung (CPR) erfasste er Daten von Medizinstudenten und Sanitätern, die als Richtwerte in die Programmierung des Kits einfließen. Schneider benutzt Verfahren des maschinellen Lernens, die dabei helfen unterschiedliche Daten in Beziehung zu setzten, um das Set auch für das Erlernen von verschiedenen Tätigkeiten funktional zu machen.

Sebastian Wollny, Doktorand am Arbeitsbereich EduTech des DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Sebastian Wollny ist Doktorand und nutzt KI-Systeme der semantischen Text- und Sprach-Analyse, um die Lernphase von Lernenden zu strukturieren. Im Projekt SEREne entwickelt er ein digitales Lerntagebuch, das Lernenden hilft, durch aktive Kommunikation mit der Anwendung individuelle Lernziele umzusetzen und selbstregulierte Lernprozesse zu fördern.


Dieser Text steht unter der CC BY 4.0-Lizenz. Der Name des Urhebers soll bei einer Weiterverwendung wie folgt genannt werden: Carolin Anda für Deutscher Bildungsserver.


Auch noch interessant

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.