LLM auf lokalem PC ausführen • Aidex  • KI  • Kontakt  • Datenschutz
2025: Neue Optimierungen

Seit 2025 ist es möglich, Sprachmodelle off­line auf einem normalen PC aus­zu­füh­ren, also unab­hängig von einem Betrei­ber im Inter­net, und so­mit auch frei von Kompli­ka­tio­nen mit dem Daten­schutz. Ermöglicht wurde der lokale Betrieb durch die Ver­öffent­li­chung kom­pak­ter Modelle, basie­rend auf einem Bündel neuer Opti­mie­rungs­techniken.

Ein zentraler Ansatz ist die Modell-Distillation: Dabei überträgt ein großes „Teacher“-Modell sein Wissen auf ein kleine­res „Student“-Modell, das mit deut­lich weniger Parame­tern nahe­zu ver­gleich­bare Ergeb­nisse lie­fert.

Ergänzend spielt die Quantisierung eine ent­schei­den­de Rolle: die Gewichte des Modells werden in kleinere Zahlen­formate (z.B. 8 Bit oder 4 Bit) um­ge­rech­net, was den Speicher­bedarf und die Rechen­zeit massiv redu­ziert.

Darüber hinaus sorgt das Pruning dafür, dass selten ge­nutzte oder redun­dan­te Teile des Netz­werks ent­fernt wer­den, ohne die Modell­güte stark zu be­ein­träch­ti­gen.

Ergänzt werden diese Methoden durch Frame­works wie MLC-LLM (Opti­mie­rung für spezi­fi­sche Hard­ware) oder z.B. TensorRT-LLM (hersteller­spezi­fi­sche High-Perfor­mance-Libra­ry), die die Hard­ware effi­zient aus­nutzen und CPUs, GPUs oder NPUs ge­zielt an­spre­chen.

Und neue effiziente Architek­turen sind von vorn­herein so konzi­piert, dass sie weniger Ressour­cen be­anspru­chen, etwa durch spar­samere Attention-Mechanis­men oder einen modu­la­ren Aufbau. Das Zusam­men­spiel aller Opti­mie­run­gen er­mög­licht es, dass nun Sprach­modelle mit Milliar­den Parame­tern auf norma­len PCs lauf­fähig sind.

Ausprobiert: LM-Studio

Die Art von Programm, die man auf seinem PC be­nötigt, nennt sich „Model Runner“ oder „LLM Runner“ oder „Local LLM Client“. Ein solches Pro­gramm be­steht aus der Ober­fläche, in die man seine Fragen ein­gibt, sowie die im Hinter­grund arbei­ten­de „LLM Infe­rence Engine“ als Berech­nungs­maschine.

Ich habe ↗LM-Studio instal­liert, dann im Pro­gramm als Nutzer-Typ den „Power User“ aus­ge­wählt, damit alle Optio­nen an­ge­zeigt werden.
Skip: Das Programm schlägt vor, das 11 GB große Sprach­modell „openai / gpt-oss-20b“ herunter­zuladen, was mir für meinen älte­ren PC als zu groß er­schien. Außerdem kann der Down­load ein oder zwei Stunden dauern, wes­halb ich den Vor­schlag ge"Skip"t habe.

Modellsuche: In der normalen Programm­oberfläche sieht man links eine Lupe. Nach Klick wird eine Liste ver­füg­barer Modelle an­ge­zeigt. Ich habe mich in der Liste zu­nächst für ein 4 GB großes Modell ent­schie­den. LM-Studio kann Modelle ver­wen­den, die im GGUF-Format bereit­stehen. GGUF (GPT Genera­ted Unified Format) ist ein effi­zien­tes Datei­format und ist ein De-facto-Standard ge­worden.

Q4_K_M und ähnliche Abkürzungen findet man in den Datei­namen. Q4 be­deu­tet eine Quanti­sie­rung auf 4 Bit. K-Quanti­sie­rung be­deutet eine vari­able Skalie­rung, und das M (Medium) steht für selek­tive Kompri­mie­rung. Q4_K_M wird oft als der beste All­round-Kompro­miss zwischen Größe, Geschwin­dig­keit und Quali­tät für die meis­ten Be­nutzer an­ge­sehen.

Nachdem ein Modell herunter­geladen wurde, muss man es akti­vie­ren. Dadurch blo­ckiert das Modell den Arbeits­speicher so lange, bis man es wieder de­akti­viert (oder bis das Pro­gramm be­endet wird).

Im Vergleich zu den bekannten kommer­ziel­len Model­len wer­den Sie fest­stel­len, dass die Quali­tät der kompri­mier­ten Modelle nicht mit­hal­ten kann. Mir ist auf­ge­fal­len, dass die klei­nen Modelle viel labern und stark ab­schwei­fen, ohne genau auf die Frage ein­zu­gehen. Manch­mal kann man den Laber­fluss nur durch den Stop-Button be­enden. Mittels der Option „Limit response length“ kann man die Antwort­länge be­gren­zen, damit sich das Modell nicht end­los ver­rennt.


Text: Jörg Rosenthal, Aidex GmbH Software, 2025