Abstract:
In Schule und Hochschule bearbeiten Lernende in der Regel mehr Aufgaben, als Lehrende korrigieren können. Wo der Mensch an seine Grenzen kommt, kann Künstliche Intelligenz (KI) ansetzen und bei Routineaufgaben
unterstützen oder sie auch ganz übernehmen. In diesem Artikel wird untersucht, inwiefern eine KI in der Lage ist, Schulaufgaben aus dem Fach Chemie korrekt zu bewerten. Hierzu werden die Bewertungsqualität von Mensch und Maschine gegenübergestellt und über mehrere klassische curriculare Themenfelder hinweg verglichen. Weiterhin wird gezeigt, dass durch Prompts und gezieltes Finetuning des KI-Modells die Leistung deutlich verbessert werden kann. Durch ein Training mit 130 Datensätzen pro Frage erreichen die KI-Modelle nahezu vergleichbare Bewertungsqualität wie menschliche Gutachter:innen, wobei sich die Qualität je nach Anforderungsbereich unterscheidet.