· 

Warum es so schwer ist, KI-Texte zweifelsfrei zu erkennen

Die Frage, ob eine vorliegende Arbeit – etwa eine Maturaarbeit – von einem Menschen oder einer Maschine verfasst wurde, ist eines der drängendsten Probleme im aktuellen Bildungswesen. Oft wird nach einem technischen "Lackmustest" gesucht, einer Software, die rot oder grün aufleuchtet. Doch die Realität ist komplexer. Um zu verstehen, warum wir KI-Texte nicht zu 100 % entlarven können, müssen wir verstehen, wie diese Modelle "denken" – oder besser gesagt: wie sie rechnen.

 

1. Die Maschine spielt Glücksrad: Das Prinzip der Wahrscheinlichkeit

Im Kern ist ein Sprachmodell (wie ChatGPT) nichts anderes als eine sehr fortgeschrittene Autocomplete-Funktion. Es berechnet: „Welches Wort folgt statistisch gesehen am wahrscheinlichsten auf das vorherige?“

Wenn ein Mensch schreibt, wählt er Worte basierend auf Emotionen, Absichten oder einem spezifischen Stilwillen. Wenn eine KI schreibt, wählt sie den Pfad des geringsten statistischen Widerstands.

Daraus ergeben sich zwei messbare Grössen, die in der Forensik von KI-Texten genutzt werden: Perplexität und Burstiness.

 

2. Perplexität: Die Glätte des Textes

Perplexität ist ein Mass dafür, wie "überrascht" ein statistisches Modell von einem Text ist.

  • Niedrige Perplexität (KI-Verdacht): Der Text ist extrem glatt. Jedes Wort folgt logisch und erwartbar auf das nächste. Es gibt keine syntaktischen Stolpersteine, keine ungewöhnlichen Wortkombinationen. Er liest sich "perfekt", aber oft auch seltsam steril.
  • Hohe Perplexität (Mensch-Indiz): Der Text enthält Brüche, kreative Wortschöpfungen oder Satzkonstruktionen, die statistisch unwahrscheinlich sind.

 

Das Beispiel:

Stellen wir uns vor, das Thema ist ein Sonnenuntergang.

 

Text A (Niedrige Perplexität - Typisch KI): "Die Sonne ging langsam am Horizont unter und tauchte den Himmel in leuchtende Farben. Die Wolken waren rot und orange gefärbt, was eine friedliche Atmosphäre schuf. Es war ein wunderschöner Abend, den man in der Natur geniessen konnte."

Analyse: Jedes Adjektiv ist das naheliegendste (Sonne -> untergehen -> Farben -> friedlich). Der Text fliesst widerstandslos.

 

Text B (Hohe Perplexität - Typisch Mensch): "Da blutete der Himmel plötzlich aus. Ein grelles Orange frass sich durch die Wolkendecke, fast aggressiv, gar nicht friedlich. Und unten standen wir, fröstelnd, und glotzten in dieses Spektakel."

Analyse: Worte wie "blutete", "frass sich durch" oder "glotzten" sind in diesem Kontext statistisch selten. Eine KI würde sie ohne explizite Aufforderung kaum wählen.

 

 

 

 

3. Burstiness: Der Rhythmus des Denkens

Während Perplexität die Wortwahl analysiert, betrachtet Burstiness die Satzstruktur und deren Länge.

Menschen schreiben chaotisch. Wir nutzen einen kurzen Satz. Zack. Dann folgt ein langer, verschachtelter Satz, der – wie dieser hier – Gedankensprünge zulässt, Kommas anhäuft und erst spät zum Punkt kommt. Dann wieder eine Frage? Dieses "Staccato", dieses Auf und Ab der Komplexität, nennt man hohe Burstiness.

KI-Modelle hingegen tendieren zu einer monotonen Mittelmässigkeit. Ihre Sätze haben oft eine sehr ähnliche Länge und Struktur (Subjekt, Prädikat, Objekt). Die Varianz fehlt.

 

4. Das Dilemma bei der Maturaarbeit

Warum ist es nun problematisch, eine Maturaarbeit allein auf dieser Basis zu beurteilen?

Das Problem liegt in der Natur wissenschaftlicher Texte. In der Schule bringen wir Schülern bei:

  1. Schreibe klar und verständlich.
  2. Vermeide Umgangssprache.
  3. Nutze logische Konnektoren ("Deshalb", "Folglich", "Zudem").

 

Ironischerweise trainieren wir Schüler dazu, wie eine KI zu schreiben. Ein exzellent formulierter, akademischer Text hat von Natur aus eine niedrige Perplexität. Ein Schüler, der sich sehr viel Mühe gibt, präzise und fehlerfrei zu formulieren, erzeugt unbeabsichtigt die statistischen Muster einer Maschine.

Ein KI-Detektor schlägt daher bei guten akademischen Arbeiten oft falschen Alarm ("False Positive"). Umgekehrt kann ein Schüler durch leichte Veränderungen ("Schreibe diesen KI-Text so um, dass er viele kurze Sätze enthält") die Burstiness künstlich erhöhen und die Detektoren täuschen.

 

Was bleibt?

Die statistische Analyse (Perplexität und Burstiness) ist ein Indiz, aber kein Beweis. Sie zeigt uns an, wie vorhersehbar ein Text ist. Ein hoher "KI-Score" bedeutet oft nur: Hier wurde sehr generisch und sehr glatt formuliert.

Bei der Beurteilung einer Maturaarbeit sollten wir daher weniger auf die Syntax (den Satzbau) schauen, sondern auf die Semantik (den Inhalt):

  • Sind die Quellen echt? (KI halluziniert oft Quellen).
  • Ist die Argumentation logisch tiefgehend oder nur oberflächlich "schön klingend"?
  • Gibt es logische Brüche, die eine Maschine macht, weil sie den Kontext über 20 Seiten vergisst?

Wir können die Maschine nicht mit 100%iger Sicherheit im Text finden, aber wir können die Qualität des menschlichen Denkens dahinter prüfen.

 

 

Kommentar schreiben

Kommentare: 0