Clear Sky Science · de
Bewertung beeinflussender Faktoren der Lehrwirksamkeit an Hochschulen mithilfe von Fuzzy- und Deep-Learning-Techniken
Warum bessere Messungen der Lehre wichtig sind
Wer sowohl besonders gute als auch weniger gelungene Vorlesungen erlebt hat, weiß: Lehrqualität kann das Hochschulerlebnis entscheidend prägen. Dennoch verlassen sich die meisten Universitäten nach wie vor auf grobe Instrumente wie Testergebnisse und Abschlussbefragungen, um Erfolg zu bewerten. Dieser Beitrag untersucht einen klügeren Weg, die Lehrqualität an Hochschulen zu messen, indem zwei rechnergestützte Methoden kombiniert werden — eine, die gut mit unscharfen, menschlichen Daten umgehen kann, und eine andere, die darin glänzt, verborgene Muster zu entdecken. Gemeinsam versprechen sie verlässlichere Hinweise darauf, wie Lehrveranstaltungen verbessert und Studierende besser unterstützt werden können.
Neu denken, was eine „gute Veranstaltung“ ausmacht
Hochschullehre wird von vielen Faktoren geprägt: der Anzahl der Studierenden, der Erfahrung der Lehrenden, dem Anspruch der Veranstaltung, dem Klima im Raum und dem Einsatz von Technik, um nur einige zu nennen. Traditionelle Bewertungssysteme reduzieren das häufig auf eine einzige Prüfungsnote oder eine numerische Kursbewertung. Diese Vereinfachung übersieht wichtigen Kontext und ignoriert die unordentliche, subjektive Seite des Lernens. Die Autorinnen und Autoren argumentieren, dass wir, wenn wir verstehen wollen, warum einige Veranstaltungen Studierende fördern, andere jedoch versagen, Werkzeuge brauchen, die viele Faktoren zugleich berücksichtigen und mit unvollkommenen, meinungsbasierten Informationen umgehen können.

Ein hybrider Ansatz: „menschenähnlich“ und „mustererkennend“
Die Studie stellt ein hybrides Modell vor, das Fuzzy- und Deep-Learning (FDL) heißt. Der "fuzzy"-Anteil bildet nach, wie Menschen in Graustufen statt in strikten Ja-/Nein-Kategorien denken — zum Beispiel indem die Leistung eines Studierenden als „niedrig“, „mittel“ oder „hoch“ mit fließenden Übergängen statt harter Schwellen beschrieben wird. Unscharfe Eingaben wie Lehrerfahrung, Studierenden-Lehrenden-Verhältnis und Kursanforderung werden so in flexible Kategorien überführt und mit einfachen Regeln verknüpft, etwa „wenn die Studierendenleistung hoch und die Gruppe klein ist, dann ist die Lehrwirksamkeit hoch“. Der Deep-Learning-Teil ist ein geschichtetes Netzwerk, das große Mengen bereinigter und standardisierter Daten verarbeitet und komplexe Zusammenhänge aufdeckt, die menschlichen Gutachterinnen und Gutachtern möglicherweise nicht auffallen.
Von Rohdaten aus Umfragen zu aussagekräftigen Signalen
Um den Ansatz zu prüfen, nutzten die Forschenden Daten der National Survey of Student Engagement, eines großen, weit verbreiteten Fragebogens, den Erstsemester und Studierende im letzten Studienjahr an nordamerikanischen Hochschulen ausfüllen. Sie passten mehrere Fragen an, um stärker darauf zu fokussieren, wie gut Lehrende ihre Rolle erfüllen, und prüften anschließend die Zuverlässigkeit der überarbeiteten Umfrage. Danach führten sie eine gründliche Datenaufbereitung durch: Fehlerbereinigung, Imputieren fehlender Werte, Zusammenführung von Studierenden- und Lehrendendaten sowie Skalierung auf einen gemeinsamen Wertebereich. Außerdem erstellten sie kombinierte Indikatoren, etwa eine gewichtete Gesamtleistung aus Prüfungsnoten, Hausaufgabenerfüllung und Anwesenheit, und reduzierten die Datenkomplexität mittels der Standardtechnik der Hauptkomponentenanalyse. Dieser aufbereitete Datensatz wurde sowohl dem Fuzzy-Logik-Modul zugeführt, das mit unscharfen Kategorien umging, als auch dem Deep-Learning-Netzwerk, das hochdimensionale numerische Muster verarbeitete.

Wie gut funktioniert das neue Modell?
Das FDL-Modell wurde auf getrennten Datensätzen trainiert und getestet, um zu vermeiden, dass es sich an bereits bekannten Beispielen täuscht. Seine Leistung wurde mit mehreren starken Alternativen verglichen, darunter Standard-Neuronale-Netze und fortgeschrittenere Deep-Modelle. Über wichtige Kennzahlen hinweg — Gesamttrefferquote, Präzision, Recall und F1-Score — erreichte die hybride Methode vergleichbare oder bessere Werte als die Konkurrenz, mit einer Genauigkeit von etwa 98 % und einer niedrigen Fehlerrate von etwas über 10 %. Ebenso wichtig: Die Fuzzy-Regeln machten die Entscheidungen interpretierbarer als bei Black-Box-Modellen. Das System konnte herausstellen, welche Faktor-Kombinationen — etwa große Gruppen kombiniert mit geringer Lehrerfahrung oder anspruchsvolle Kurse mit starkem Feedback — am stärksten mit besseren oder schlechteren Lehrresultaten verbunden waren.
Was das für Studierende und Hochschulen bedeutet
Praktisch zeigt die Studie, dass sich inzwischen ein automatisierter „Lehrbarometer“ bauen lässt, der sowohl hochpräzise als auch einigermaßen verständlich ist. Anstatt sich vorwiegend auf grobe Mittelwerte und einmalige Befragungen zu stützen, könnten Hochschulen ein solches System nutzen, um frühzeitig schwache Lehrumgebungen zu erkennen, gezielt zu identifizieren, welche Lehrenden oder Kurse Unterstützung benötigen, und zu prüfen, ob neue Maßnahmen tatsächlich das Lernen der Studierenden verbessern. Die Autorinnen und Autoren betonen, dass das Modell nicht perfekt ist — es hängt von der Datenqualität ab, kann rechenintensiv sein und vereinfacht zwangsläufig die vielschichtige menschliche Seite der Bildung. Dennoch bietet es, bei überlegter Nutzung, eine wirkungsvolle neue Perspektive, um Hochschulveranstaltungen effektiver, fairer und besser an den Bedürfnissen der Studierenden auszurichten.
Zitation: He, Z., Zhang, X., Zhang, Z. et al. Assessment of influencing factors of college and universities’ teaching effects using fuzzy and deep learning techniques. Sci Rep 16, 5168 (2026). https://doi.org/10.1038/s41598-026-35940-5
Schlüsselwörter: Lehrwirksamkeit, Hochschulbildung, Studierendenleistung, Fuzzy-Logik, Deep Learning