KI auf eigenem PC betreiben

2025: Neue Optimierungen

Seit 2025 ist es möglich, Sprachmodelle offline auf einem normalen PC auszuführen, also unabhängig von einem Betreiber im Internet, und somit auch frei von Komplikationen mit dem Datenschutz. Ermöglicht wurde der lokale Betrieb durch die Veröffentlichung kompakter Modelle, basierend auf einem Bündel neuer Optimierungstechniken.

Ein zentraler Ansatz ist die Modell-Distillation: Dabei überträgt ein großes „Teacher“-Modell sein Wissen auf ein kleineres „Student“-Modell, das mit deutlich weniger Parametern nahezu vergleichbare Ergebnisse liefert.

Ergänzend spielt die Quantisierung eine entscheidende Rolle: die Gewichte des Modells werden in kleinere Zahlenformate (z.B. 8 Bit oder 4 Bit) umgerechnet, was den Speicherbedarf und die Rechenzeit massiv reduziert.

Darüber hinaus sorgt das Pruning dafür, dass selten genutzte oder redundante Teile des Netzwerks entfernt werden, ohne die Modellgüte stark zu beeinträchtigen.

Ergänzt werden diese Methoden durch Frameworks wie MLC-LLM (Optimierung für spezifische Hardware) oder z.B. TensorRT-LLM (herstellerspezifische High-Performance-Library), die die Hardware effizient ausnutzen und CPUs, GPUs oder NPUs gezielt ansprechen.

Und neue effiziente Architekturen sind von vornherein so konzipiert, dass sie weniger Ressourcen beanspruchen, etwa durch sparsamere Attention-Mechanismen oder einen modularen Aufbau. Das Zusammenspiel aller Optimierungen ermöglicht es, dass nun Sprachmodelle mit Milliarden Parametern auf normalen PCs lauffähig sind.

Ausprobiert: LM-Studio

Die Art von Programm, die man auf seinem PC benötigt, nennt sich „Model Runner“ oder „LLM Runner“ oder „Local LLM Client“. Ein solches Programm besteht aus der Oberfläche, in die man seine Fragen eingibt, sowie die im Hintergrund arbeitende „LLM Inference Engine“ als Berechnungsmaschine.

Ich habe ↗LM-Studio installiert, dann im Programm als Nutzer-Typ den „Power User“ ausgewählt, damit alle Optionen angezeigt werden.
Skip: Das Programm schlägt vor, das 11 GB große Sprachmodell „openai / gpt-oss-20b“ herunterzuladen, was mir für meinen älteren PC als zu groß erschien. Außerdem kann der Download ein oder zwei Stunden dauern, weshalb ich den Vorschlag ge"Skip"t habe.

Modellsuche: In der normalen Programmoberfläche sieht man links eine Lupe. Nach Klick wird eine Liste verfügbarer Modelle angezeigt. Ich habe mich in der Liste zunächst für ein 4 GB großes Modell entschieden. LM-Studio kann Modelle verwenden, die im GGUF-Format bereitstehen. GGUF (GPT Generated Unified Format) ist ein effizientes Dateiformat und ist ein De-facto-Standard geworden.

Q4_K_M und ähnliche Abkürzungen findet man in den Dateinamen. Q4 bedeutet eine Quantisierung auf 4 Bit. K-Quantisierung bedeutet eine variable Skalierung, und das M (Medium) steht für selektive Komprimierung. Q4_K_M wird oft als der beste Allround-Kompromiss zwischen Größe, Geschwindigkeit und Qualität für die meisten Benutzer angesehen.

Nachdem ein Modell heruntergeladen wurde, muss man es aktivieren. Dadurch blockiert das Modell den Arbeitsspeicher so lange, bis man es wieder deaktiviert (oder bis das Programm beendet wird).

Im Vergleich zu den bekannten kommerziellen Modellen werden Sie feststellen, dass die Qualität der komprimierten Modelle nicht mithalten kann. Mir ist aufgefallen, dass die kleinen Modelle viel labern und stark abschweifen, ohne genau auf die Frage einzugehen. Manchmal kann man den Laberfluss nur durch den Stop-Button beenden. Mittels der Option „Limit response length“ kann man die Antwortlänge begrenzen, damit sich das Modell nicht endlos verrennt.