KI im Klassenzimmer – Bilder, Audio und Video – momuc_schule
Die Videoaufzeichnung entstand auf der Online-Tagung momuc_schule am 15. Mai 2025.
Dieser Workshop vermittelt einen praxisnahen Überblick über den aktuellen Stand der KI generierten Bilder, Audio- und Videodateien. Die Teilnehmenden erhalten einen Einblick in die Funktion, die Potenziale und die damit verbundenen Änderungen und Herausforderungen in Schule und Gesellschaft.
Viel Spaß beim Anschauen!
Referent/innen: Andreas Hintermaier
Dauer: ca. 62 min
momuc_schule vom: 15.05.2025
Zusammenfassung
Dieses Dokument fasst die zentralen Erkenntnisse eines Fachvortrags über den Einsatz von künstlicher Intelligenz (KI) zur Erstellung von Bildern, Audio- und Videoinhalten im schulischen Kontext zusammen. Die rasante technologische Entwicklung hat Werkzeuge wie Midjourney, Adobe Firefly, Suno und Sora hervorgebracht, die eine qualitativ hochwertige und vielfältige Mediengenerierung ermöglichen. Eine der kritischsten Schlussfolgerungen ist, dass die zuverlässige Erkennung von KI-generierten Inhalten in naher Zukunft unmöglich sein wird, was traditionelle Methoden der Plagiatsprüfung obsolet macht und grundlegende Fragen zur Authentizität aufwirft.
Die rechtliche Situation bezüglich des Urheberrechts ist weiterhin ungeklärt, insbesondere die Frage, ob eine KI über die notwendige „Schöpfungstiefe“ verfügt. Für den schulischen Alltag ist diese Problematik im geschützten Raum des Klassenzimmers jedoch von geringerer Brisanz. Die wahrscheinlichste zukünftige Rolle der KI im Bildungsbereich ist die eines persönlichen Assistenten für Schülerinnen und Schüler. Dies wird die Rolle der Lehrkräfte nachhaltig verändern, den Fokus von der reinen Wissensvermittlung hin zu pädagogischen und psychologischen Aufgaben verschieben und eine grundlegende Reform der Leistungsbewertung – weg von schriftlichen Prüfungen – erzwingen. Eine zentrale pädagogische Herausforderung wird der Umgang mit der wachsenden Abhängigkeit der Lernenden von diesen Technologien sein.
Hauptthema 1: Die Unmöglichkeit der Erkennung von KI-generierten Inhalten
Die Fähigkeit, zwischen von Menschen und von KI erstellten Medien zu unterscheiden, schwindet rapide. Die zentrale und ernüchternde Antwort auf die Frage, wie man KI-generierte Bilder und Videos erkennen kann, lautet: „Gar nicht.“
- Vergängliche Artefakte: Aktuell lassen sich noch sogenannte Artefakte (z. B. fehlerhafte Darstellungen von Händen oder Besteck) als Indikatoren nutzen. Dies wird jedoch als ein temporäres Phänomen beschrieben, das mit der Weiterentwicklung der Modelle verschwinden wird.
- Verschleierungstaktiken: Zukünftige KI-Systeme könnten, ähnlich dem „Stealth Modus“ von ChatGPT, gezielt kleine, menschenähnliche Fehler einbauen, um ihre künstliche Herkunft zu verschleiern.
- Prognose für die nahe Zukunft: Es wird erwartet, dass weder Lehrkräfte noch Schülerinnen und Schüler in der Lage sein werden, KI-generierte Inhalte zuverlässig zu identifizieren. Insbesondere im Bereich Video wird eine vollständige Ununterscheidbarkeit prognostiziert.
- Konsequenzen für die Schule: Jede Form von Plagiat-Scanner hat in diesem Bereich ausgedient. Die Authentizität von eingereichten Arbeiten kann technisch nicht mehr überprüft werden.
Hauptthema 2: Werkzeuge und Techniken der KI-Mediengenerierung
Der Vortrag gibt einen detaillierten Überblick über den aktuellen Stand der Technik und die führenden Werkzeuge in den Bereichen Bild, Audio und Video.
Bilderzeugung
Die Generierung von Bildern ist der am weitesten entwickelte Bereich mit einer Vielzahl von Werkzeugen und Techniken.
- Philosophie des Promptings:
- Rolle des Nutzers: Der Mensch agiert nicht mehr als direkter Schöpfer, sondern als „Kurator“, der die Ergebnisse der KI auswählt, verfeinert und weiterverarbeitet.
- Zielsetzung: Das Ziel ist weniger ein perfektes Endergebnis als vielmehr Inspiration und eine Ausgangsbasis für kreative Arbeit.
- Tendenz zum Mittelmaß: KI-Modelle sind darauf trainiert, massentaugliche, nicht zwangsläufig originelle Ergebnisse zu liefern.
- Präzision: Prompts für die Bildgenerierung, insbesondere bei Modellen wie Midjourney, erfordern eine deutlich höhere Präzision und Detailliertheit als bei Text-KIs (LLMs).
- Werkzeugübersicht und Vergleich:
| Werkzeug | Stärken | Schwächen / Kosten | Anmerkungen |
| Adobe Firefly | Hohe Qualität, kostenlos nutzbar (mit Adobe-Konto), gute Integration. | Weniger vielfältig und kreativ als Midjourney, erzeugt eher „brave“, ähnliche Ergebnisse. | Empfehlung für den Einstieg und den schulischen Einsatz. |
| Midjourney | Enorme Vielfalt und Kreativität, gilt als „Platzhirsch“ (Marktführer). | Kostenpflichtig (ca. 10 €/Monat), erfordert Einarbeitung in komplexe Prompt-Strukturen. | Bietet Parameter zur Steuerung von Kamera, Objektiv, Stil und „Verrücktheit“ („weird“). |
| DALL-E | Direkte Integration in ChatGPT. | Geringere Ausgabequalität im Vergleich zu Firefly und Midjourney. | In Fachkreisen weniger beliebt. |
| Stable Diffusion | Open-Source-Ansatz, stammt u. a. von der LMU München. | ||
| Perchance | Ermöglicht erste Versuche ohne Login. | Geringere Qualität. |
- Praktische Anwendung und Schwachstellen:
- Achillesferse: KI-Modelle haben weiterhin Schwierigkeiten mit der korrekten Darstellung von Händen und Essbesteck.
- Sprache: Prompts in englischer Sprache führen zu besseren Ergebnissen, da die Trainingsdatensätze größer sind.
- Kopieren und Modifizieren: Eine effektive Arbeitsweise besteht darin, Prompts aus den Galerien der Anbieter (z.B. Firefly, Midjourney) zu kopieren und für eigene Zwecke anzupassen.
- Negatives Prompting: Durch den Ausschluss bestimmter Begriffe (z. B. „no robots“) kann das Ergebnis gezielt gesteuert werden, um Klischees zu vermeiden.
Audioerzeugung
Die KI-gestützte Audiogenerierung hat enorme Qualitätssprünge gemacht und bietet praxistaugliche Anwendungen für den Unterricht.
- Werkzeug im Fokus: Suno
- Funktionen: Erzeugt komplette Songs inklusive Gesang und Instrumentalbegleitung aus Texteingaben.
- Qualität: Die Klangqualität wird als „erstaunlich“ beschrieben. Das System kann verschiedene Sprachen und sogar regionale Akzente (z. B. oberitalienisch) überzeugend nachbilden.
- Kostenmodell: Bis zu 10 Songs pro Tag können kostenlos generiert werden.
- Anwendungsfälle im Unterricht:
- Komposition von Klassensongs zur Motivation.
- Erstellung personalisierter Geburtstagslieder für Schüler.
- Generierung von authentischen Dialogen und Texten für Hörverstehensübungen im Fremdsprachenunterricht (z. B. Italienisch, Französisch).
Videoerzeugung
Obwohl die Entwicklung datenintensiver und damit langsamer ist, sind die Fortschritte in der Videogenerierung beeindruckend.
- Führende Werkzeuge:
- Sora (von OpenAI): Gilt als Vorreiter mit extrem hoher, filmreifer Qualität. Generiert detaillierte Videoszenen aus Text-Prompts. Kosten: ca. 22 €/Monat oder mehr.
- Kling (aus China): Bietet ebenfalls sehr gute Ergebnisse zu einem günstigeren Preis (ca. 10 €/Monat) und gewinnt Marktanteile.
- Runway: Spezialisiert auf die Animation von Standbildern. Kann aus einem einzigen Foto eine 3D-ähnliche Szene generieren, in der Kameraschwenks und Zooms möglich sind.
- LTX Studio: Geht einen Schritt weiter und erstellt aus einer Skript-Idee ein komplettes Storyboard und kann einzelne Szenen bereits als kurze Clips animieren.
Hauptthema 3: Rechtliche und ethische Rahmenbedingungen
Die Nutzung von KI-generierten Medien wirft komplexe rechtliche Fragen auf, die derzeit noch weitgehend ungeklärt sind.
- Urheberrecht (Urheberrecht vs. Copyright):
- Das deutsche Urheberrecht ist an die schaffende Person gebunden (bis 70 Jahre nach dem Tod), während das US-Copyright eher wirtschaftlich orientiert und übertragbar ist.
- Es ist unklar, welches Landesrecht bei der globalen Nutzung von KI-Diensten zur Anwendung kommt.
- Die zentrale offene Frage ist, ob eine KI die notwendige „Schöpfungstiefe“ besitzt, um als Urheber zu gelten. Die finale Rechtsprechung hierzu steht noch aus.
- Konflikt und Gegenmaßnahmen:
- Kreativschaffende (z. B. Illustratoren, Grafiker) sehen ihre Existenz bedroht, da KI-Modelle ihre Stile perfekt imitieren können (Beispiel: Holly Meng vs. Stable Diffusion).
- Als Reaktion werden technische Gegenmaßnahmen wie „Nightshade“ entwickelt. Diese „vergiften“ Originalbilder mit unsichtbaren Daten, sodass KI-Modelle, die diese Bilder zum Training nutzen, unbrauchbare Ergebnisse erzeugen.
- Relevanz für die Schule: Innerhalb des geschützten Raums des Klassenzimmers sind die urheberrechtlichen Bedenken weniger gravierend als im kommerziellen Bereich.
Hauptthema 4: Ausblick und Implikationen für den Bildungssektor
Die Integration von KI wird die Schule fundamental verändern und erfordert ein Umdenken in Pädagogik und Didaktik.
- Die zukünftige Rolle der KI: Das wahrscheinlichste Szenario ist, dass KI zu einem permanenten, persönlichen Assistenten für jede Schülerin und jeden Schüler wird. Dies erleichtert die Binnendifferenzierung, schafft aber auch neue Abhängigkeiten.
- Veränderung der Lehrerrolle: Lehrkräfte werden von der Rolle des reinen Wissensvermittlers entbunden. Ihre Aufgaben verlagern sich stärker auf die Bereiche Pädagogik, Psychologie und Beziehungsarbeit. Es bleibt mehr Zeit für das Individuum.
- Revolution der Leistungsbewertung:
- Das Ende schriftlicher Prüfungen: Klassische schriftliche Prüfungen und Hausarbeiten werden als „praktisch tot“ bezeichnet, da sie von KI gelöst werden können.
- Neue Formate: Der Fokus muss sich auf mündliche Prüfungsformate und die kontinuierliche Beobachtung und Bewertung von Lernprozessen verlagern.
- Zentrale pädagogische Herausforderungen:
- Umgang mit Abhängigkeit: Eine der wichtigsten Aufgaben der Schule wird es sein, die Schülerinnen und Schüler im Umgang mit ihrer starken Abhängigkeit von KI-Systemen zu schulen und ihre Fähigkeit zur eigenständigen Problemlösung zu erhalten.
- Förderung von Eigenständigkeit: Im positivsten Zukunftsszenario, in dem KI einen Großteil der Wertschöpfung übernimmt, muss die Schule Menschen darauf vorbereiten, eigenständige, von der KI unabhängige Entscheidungen zu treffen und ein tiefes Wissen über sich selbst zu entwickeln.