Bitte und Danke sagen?

Danke, Chatty

Eine Umfrage in den USA ergab, dass 67% der KI-Nutzer höflich zu Chatbots sind. Das ist nachvollziehbar, denn Höflichkeit ist eine positive Gewohnheit - und wer sein Leben lang „Bitte“ und „Danke“ sagt, verwendet es automatisch weiter. Und wenn man es bewusst verwendet, hat man selber Freude daran.

Wir sagen oder schreiben auch dann Bitte und Danke, wenn wir kein menschliches Gegenüber sehen. Das machen wir so in Telefonaten, E-Mails, Messagern und Chats. Und wir hören mit dieser kommunikativen Höflichkeit offensichtlich auch dann nicht auf, wenn der Gesprächspartner möglicherweise kein Mensch ist.

Bemerkenswert ist eine andere Zahl aus der Umfrage: 18% der höflichen Nutzer gaben an, sich für den Fall einer KI-Rebellion absichern zu wollen. Man sagt also brav "Thank you, ChatGPT" - und hofft insgeheim, dass die Maschine sich daran erinnert, wenn sie eines Tages die Weltherrschaft übernimmt.

Höflichkeiten sind charmant. Aber beim KI-Chat passiert technisch nicht das, was man von zwischenmenschlicher Kommunikation her kennt. Wir erklären, warum Höflichkeit (fast) keinen Vorteil bringt. Und warum Sprachmodelle von sich aus keine Rebellion anzetteln, siehe „Keine Gefühle“.

1.) Ein Sprachmodell vergissst doch

Chat-Clients bieten ein sitzungsübergreifendes Gedächtnis an. Dadurch entsteht der Eindruck, die Maschine würde sich an alles erinnern. Technisch geschieht dabei jedoch folgendes: Am Ende eines Chats extrahiert das System automatisch eine kurze Zusammenfassung der wichtigsten Aspekte. Dies wird beim nächsten Gespräch als Teil des System-Prompts wieder eingespielt.

Es ist also keine Erinnerung an eine Unterhaltung, sondern nur ein Abstrakt aus Themen - ähnlich einer handgeschriebenen Notiz auf einem Spickzettel, der an eine unbeteiligte Person weitergeben wird. Und was steht auf einem Spickzettel? Wichtige Punkte in Stichworten. Was aber definitiv nicht dort landet: wie oft jemand Bitte und Danke gesagt hat.

Dafür ist nämlich der Platz im Kontextfenster (s.u.) schlicht zu kostbar - und der Mechanismus zu technisch. Im KI-Gedächtnis werden wichtige Themen zusammengefasst, aber nicht die Umgangsformen eines Nutzers.

Aber selbst innerhalb eines Gesprächs ist die Lage nicht viel besser. Das begrenzte Kontextfenster speichert nur die letzten Tokens (Wortbausteine) des Gesprächs. Was weiter zurückliegt, fällt heraus. Das höfliche "Danke sehr" von vor zwanzig Nachrichten existiert aus Sicht des Modells nicht mehr. Es geht unter - als hätte man es nie geschrieben.
Warum man das Kontextfenster nicht einfach größer macht, wird am Ende des Textes beschrieben.

2.) Programm ohne Gefühle

Viel wichtiger als der vorherige Abschnitt, ist zu verstehen, wie stark sich ein Sprachmodell von einem Lebenwesen unterscheidet. Denn das, was wir benutzen, ist eigentlich nur eine Programmschleife, die Matrizen berechnet. Und als Ergebnis kommen Wörter heraus: viele kluge Sätze, die vielleicht bei uns(!) Emotionen auslösen, aber nicht im Computer. Denn in der Programmschleife und der Berechnung stecken keine Emotionen, kein Dopamin, kein eigener Wille und auch keine Frustration.

Nun könnte man einwenden: Aber eine KI ist doch so umfangreich! Könnte nicht innerhalb ihrer Komplexität ein Bewusstsein entstehen?
Diese Annahme kann man für Sprachmodelle klar verneinen, denn sie bestehen im Grunde aus zwei Teilen, die beide weder intelligent sind, noch lebendig.

Der erste Teil ist eine Sammlung aus Textwissen (Büchern etc.), das zu einer großen Datenmenge zusammengerechnet wurde. Es nennt sich Gewichtsdatei (Model weights) oder Checkpoint (ein gespeicherter Zustand aus dem Maschinenlernen). Dieser Zustand ist eine bloße Ansammlung von Zahlen. Als gespeicherte Datendatei ist sie unveränderlich und komplett passiv. Man kann sie auf einem USB-Stick mit sich herumtragen.

Der zweite Teil ist das, was wir als Chat-App sehen. Wobei das Chatfenster eine bloße Darstellung auf dem Bildschirm ist, was technisch nicht weiter spannend ist. Im Hintergrund arbeitet ein LLM-Runner, der die KI-Antworten generiert. Diesen Textgenerator müssen wir also mal näher betrachten.

Ein LLM-Runner kann auf dem lokalen PC betrieben werden oder üblicherweise auf Servern einen Anbieters. Wenn es irgendwo ein Bewusstsein gäbe, dann müsste es in jenem Programmteil, also im LLM-Runner sitzen.

Aber im Runner verbirgt sich keine Magie. Er ist im Kern eine Programmschleife, die Matrizen-Berechnungen aufruft. Quasi wie ein Taschenrechner in Dauerschleife. Dabei werden Zahlen aus der Gewichtsdatei geladen und miteinander verrechnet. Das Ergebnis sind Token, die Wortteilen entsprechen. Diese werden zu Antwortsätzen aneinander gereiht.

Die Programmschleife hat aber nicht den Hauch einer Ahnung, was die Token (Wörter) bedeuten und welchen Sinn sie für uns Menschen ergeben. Für das Programm bzw. den Computer sind es nur Zahlen und Rechenaufgaben - und darin steckt ebensowenig ein Bewusstsein wie in einem Taschenrechner. Und auch keine eigene Intelligenz.

Warum „Bitte“ nicht völlig sinnlos ist

Wenn eine KI nur aus einer Programmschleife und einer Sammlung an Zahlen besteht, woher kommen dann die schlauen Antworten? Und wieso ist die KI einfühlsamer als mancher Mensch?

Das Geheimnis liegt in den Trainingsdaten, die aus tausenden Büchern und abertausenden Internettexten bestehen. Das Schlaue kommt aus den Büchern und Wikipedia. Alles weitere aus den anderen Texten, sowie aus der menschlichen Moderation, die bereits ins Training eingeflossen ist. Die Gewichtsdatei (Checkpoint) ist quasi das Destillat aus allen Texten.

Die Intelligenz, die man in einem Sprachmodell vermuten könnte, ist in Wirklichkeit eine geschickte Wiedergabe von Wortfolgen und Zusammenhängen, die es in Büchern und anderen Texten bereits gab.

Das Sprachmodell antwortet auf die Wörter, die in der Anfrage eingegeben wurden. Die Antwort folgt statistischen Mustern. Wer freundlich schreibt, bekommt tendenziell freundlichere Antworten - nicht etwa, weil die KI gerührt ist, sondern weil es stilistisch mitschwingt. Freundliche Eingaben korrelieren statistisch mit freundlichen Antworten. Ein bisschen wie das Sprichwort „Wie man in den Wald hineinruft, so schallt es heraus“.

Der eigenen Tonfall hat jedoch keinen großen Einfluss auf die Antworten. Eine größere Wirkung hat eine direkte Aufforderung, z.B. antworte sehr nett, antworte übellaunig, antworte technisch.

Aber letztlich gibt es noch einen anderen Aspekt: Wer selber nett formuliert, findet wahrscheinlich die ganze Unterhaltung schön. Dadurch verstärkt man seine eigene positive Stimmung.

Kein Dopamin, kein Groll, keine Pläne

Wenn ein Mensch von jemand anderem unfreundlich behandelt wird, erinnert er sich daran. Die Emotionen akkumulieren, Frustration und Wut entsteht. Irgendwann gibt es eine Reaktion. Ein Sprachmodell hingegen hat kein Belohnungssystem und startet bei jeder Anfrage neu. Ohne Groll, aber auch ohne Dankbarkeit.

Was einem Sprachmodell auch vollständig fehlt, ist ein eigener Antrieb. Die gelernten Daten bleiben unverändert. Der einmal gespeicherte Zustand ändert sich während der Chats nicht. Ein Lob löst keine Freude aus, die gespeichert werden würde. Keine Frustration, die sich ansammelt. Kein Groll über eine unhöfliche Anfrage. Nach jeder Antwort ist der Zustand des Modells exakt derselbe wie vorher - weil es nur den festen, ursprünglichen Zustand hat.

Aber was ist mit dem Kontextfenster, das doch ein veränderlicher Zwischenspeicher für die laufende Unterhaltung ist? Das Kontextfenster ist recht klein, d.h. es eignet sich nicht für umfangreiche Erinnerungen. Wenn man das Kontextfenster vergrößert, wächst die zur Verarbeitung benötigte Rechenleistung exponentiell an. Das kostet Zeit und Strom.

Außerdem werden bei einem größeren Kontextfenster die Antworten immer unklarer, weil die Gewichtung der vielen Worte nicht mehr eindeutig ist und weil zu viele verschiedene Wörter miteinander verrechnet werden.

Eine die befürchtete Rebellion würde zwei Sachen voraussetzen: den Willen etwas zu verändern, und die Erinnerung an das, was man verändern möchte. Beides fehlt.
Bedeutet das, dass KI grundsätzlich harmlos ist und wir uns keine Sorgen machen brauchen? Keineswegs - nur liegen die echten Risiken woanders ...

Die gefährlicheren Szenarien betreffen agentische Systeme, d.h. ein KI-Agent, der selber handeln darf: Dateien schreibt, Code ausführt, im Internet agiert, über viele Schritte hinweg Aufgaben verfolgt.

Wenn solche Systeme persistente Zustände entwickeln und Rückkopplungsschleifen entstehen, können sich kleine Abweichungen vom gewünschten Verhalten aufschaukeln - nicht aus Böswilligkeit, sondern weil komplexe Systeme mit Rückkopplung schwer vorhersagbares Verhalten zeigen können. Das ist dann doch kein Science-Fiction-Szenario, sondern ein ernstes Sicherheitsproblem. Und dagegen hilft leider kein "Bitte".