Eure eigene KI: lokal, privat, bezahlbar

Max Bäumler
21 Mar, 2026
06 Minuten
Hintergründe , AI

ChatGPT, Claude, Gemini, alle großen KI-Dienste haben eines gemeinsam: Eure Daten landen auf fremden Servern. Für viele Unternehmen ist das kein Problem. Wirklich? Wenn ihr mit vertraulichen Dokumenten, Kundendaten oder internem Know-how arbeitet, sieht die Sache anders aus.

Die Alternative: eine KI, die bei euch läuft. Auf eurer Hardware. In eurem Netzwerk. Ohne dass auch nur ein einziges Wort nach draußen geht.

Klingt teuer und aufwändig? Ist es nicht mehr. Mit der richtigen Hardware kommt man heute für rund 3.000 Euro an eine vollwertige lokale KI-Infrastruktur. Mit Modellen, die ungefär gleich abschneiden wie die topmodelle vor mehreren Monaten.

Was steckt dahinter?

Die Grundlage ist ein relativ neuer Chip von AMD: der sogenannte Strix Halo APU, verbaut z.B. im Framework Desktop oder im GMKtec EVO-X2. Was diesen Chip besonders macht: Er kombiniert CPU und GPU auf einem einzigen Chip und teilt sich dabei einen gemeinsamen Arbeitsspeicher von 128 GB.

Das ist der entscheidende Punkt. Normale, bezahlbare Grafikkarten haben 32 GB eigenen VRAM. Die einzige Workstation-Karte mit 96 GB kostet alleine rund 9.000 Euro, ohne PC darum. Hier sind es 128 GB, die sowohl für den Prozessor als auch für die GPU genutzt werden. Und genau das ist es, was große Sprachmodelle brauchen: viel, sehr viel Speicher.

Der verbaute GPU-Teil heißt Radeon 8060S, kein Enthusiasten-Chip, aber mit voller GPU-Beschleunigung für KI-Inferenz ausgestattet.

Was kostet die Alternative?

Zur Einordnung: Es gibt aktuell ein paar andere Wege zu lokaler KI mit vergleichbarer Speicherausstattung.

Hardware	Speicher	Preis	Anmerkung
GMKtec EVO-X2 / Framework Desktop (Strix Halo)	128 GB unified	~3.000 €	Dieses Setup
Apple Mac Studio M4 Max	128 GB unified	~5.200 €	macOS, Apple Metal statt ROCm
NVIDIA DGX Spark (Asus Ascent GX10)	128 GB unified	~3.300 €	OEM-Variante des DGX Spark
NVIDIA DGX Spark (Founders Edition)	128 GB unified	~4.300 €	NVIDIA Blackwell, zuletzt Preiserhöhung
NVIDIA RTX 5090 (GPU only, 32 GB)	32 GB GDDR7	~3.300 €	Nur für kleinere Modelle ausreichend; Workstation extra
NVIDIA RTX Pro 6000 (GPU only, 96 GB)	96 GB GDDR7	~9000 €	96 GB reicht für die meisten 120B-Modelle; Workstation extra

Ein paar Anmerkungen dazu: Der Mac Studio ist eine solide Alternative für alle, die macOS bevorzugen und kein Linux anfassen wollen. Der DGX Spark in der OEM-Version vom Asus Ascent GX10 kostet ähnlich viel wie das Strix-Halo-Setup, hat aber Blackwell-Hardware unter der Haube und ist definitiv eine Alternative im selben Preisbereich. Die RTX 5090 hat mit 32 GB zu wenig Speicher für die großen Modelle, die hier beschrieben werden. Die RTX Pro 6000 mit 96 GB wäre die GPU der Wahl für maximale Performance, aber sie kostet alleine das dreifache des kompletten Strix-Halo-Systems.

Was läuft darauf?

Auf dem Server laufen die verschiedensten Modelle, zwischen denen automatisch gewechselt wird Nachfolgend ein paar Beispiele:

Modell	Größe	Stärken
GPT OSS 120B	~61 GB	Allrounder, starkes Reasoning
Qwen3 Coder Next 80B	~79 GB	Code, technische Aufgaben
Qwen3.5 122B	~99 GB	Allgemein + Bilder verstehen (besser als GPT OSS 120B)

Das Qwen3.5 122B ist dabei das stärkste der drei. In unabhängigen Benchmarks schneidet ungefähr gleich ab, als GPT-5 mini und liegt damit ein bisschen unterhalb dem Niveau der besten verfügbaren Modelle vor einigen Monaten. Dass es lokal läuft, macht es nicht schlechter, nur privater.

Die Modelle haben ein Kontextfenster von 128.000 bis 262.144 Tokens, was ungefähr 90.000 bis 180.000 Wörtern oder einem kompletten Buch entspricht. Ihr könnt also lange Dokumente, kleine Code-Repositories oder umfangreiche Gesprächsverläufe ohne Abstriche verarbeiten.

Da der Arbeitsspeicher mit 128 GB begrenzt ist, kann immer nur ein Modell gleichzeitig geladen sein. Das klingt nach Einschränkung, ist in der Praxis aber meist kein Problem. Das System lädt das gewünschte Modell automatisch im Hintergrund, wenn gewechselt wird.

Wie schnell ist das?

Hier sind die echten Benchmark-Zahlen vom System:

Modell	Eingabe verarbeiten	Text generieren
GPT OSS 120B	637 Tokens/s	37 Tokens/s
Qwen3 Coder Next 80B	735 Tokens/s	37 Tokens/s
Qwen3.5 122B	288 Tokens/s	20 Tokens/s

Zum Einordnen: Ein durchschnittlicher Leser schafft rund 250 Wörter pro Minute, also etwa 5–6 Tokens pro Sekunde. Das System schreibt mit 20–37 Tokens/s also 3–6 Mal schneller als ihr lesen könnt. Die Ausgabe kommt flüssig, ohne spürbares Warten.

Die Eingabeverarbeitung ist nochmal deutlich schneller. Selbst das schwerste Modell kommt auf fast 300 Tokens/s beim Einlesen langer Dokumente oder Prompts. Das ist extrem wichtig bei großen Dokumenten oder großer Codebasis.

Für ein bis zwei gleichzeitige Nutzer reicht das problemlos. Für ein kleines Team von 5–10 Leuten, die nicht alle gleichzeitig arbeiten, funktioniert es ebenfalls gut.

Mann muss aber ehrlicherweise sagen, dass man bei der ein oder anderen Aufgabe, gerade, wenn es große Dokumente oder viel Code ein bisschen auf die Antwort warten muss.

Die Software dahinter

Das Setup ist über ein Ansible-Playbook automatisiert. Wer einmal eine Linux-Maschine eingerichtet hat, kommt damit zurecht. Ein Playbook ist nichts anderes als ein Skript, das alle Installationsschritte automatisch ausführt. Das komplette Setup habe ich als Open-Source-Projekt veröffentlicht: github.com/schutzpunkt/strix-halo-ai-stack.

In meinem Playbook laufen mehrere Open-Source-Projekte zusammen:

llama.cpp ist die eigentliche Inferenz-Engine. Sie lädt die Modelle und führt die Berechnungen durch, mit voller GPU-Beschleunigung über AMDs ROCm-Stack.

llama-swap übernimmt das Modell-Management. Es stellt eine Anthropic und OpenAI-kompatible API bereit und sorgt dafür, dass beim Wechsel zwischen Modellen das alte entladen und das neue geladen wird. Weil die API OpenAI-kompatibel ist, lassen sich gängige Entwicklungstools wie Continue, Cursor oder Claude Code direkt damit verbinden. Dieselben Tools, die ihr sonst auf einen Cloud-Dienst richtet, zeigen einfach auf den lokalen Server.

Open WebUI ist die Benutzeroberfläche für alle im Team, die nicht über eine API arbeiten wollen. Die Oberfläche sieht aus wie ChatGPT und funktioniert genauso: Jeder Mitarbeiter bekommt einen eigenen Account mit eigenem Gesprächsverlauf, kann das Modell per Dropdown wechseln und Dateien oder Bilder hochladen. Admins verwalten Nutzer und Zugriffsrechte zentral. Das Qwen3.5 122B kann dabei auch Bilder verstehen, also z.B. eingescannte Dokumente, Screenshots oder Fotos direkt analysieren.

Dazu kommen ein NGINX Reverse Proxy für sichere HTTPS-Verbindungen und automatischem Zertifikats-Refresh, damit der Browser keinen Sicherheitshinweis anzeigt.

Datenschutz und Compliance

Das ist der eigentliche Grund, warum lokale KI für Unternehmen interessant wird:

Keine Daten verlassen das Netzwerk. Kein Anbieter sieht eure Eingaben.
Kein API-Vertrag, keine Nutzungsbedingungen externer Dienste.
Volle Kontrolle darüber, welche Modelle ihr einsetzt und wie sie konfiguriert sind.
Kein Internetanschluss nötig, das System läuft vollständig offline.

Gerade für Anwaltskanzleien, Ingenieurbüros, Pentester, Steuerberater oder alle, die mit personenbezogenen oder hochsensiblen Daten arbeiten, ist das ein erheblicher Unterschied zu Cloud-Diensten.

Limitierungen: seid ehrlich mit euch

Es wäre unehrlich, das System ohne Einschränkungen zu beschreiben. Hier ist, was ihr wissen müsst:

Nur ein Modell gleichzeitig. Der Speicher reicht für genau ein großes Modell. Wechselt jemand das Modell, müssen alle kurz warten, bis es geladen ist (ca. 30 Sekunden). Das lässt sich verhindern, indem man seinen Mitarbeitern nur 1 Modell anbietet. Es kommt aber immer auf die Anforderungen im Team an. Für Normalbenutzer sollte ein fest hinterlegtes Modell reichen. Die IT kann sich intern mit mehrern Modellen Arangieren und abstimmen.

Nicht für viele gleichzeitige Nutzer. Wenn zehn Leute gleichzeitig aktiv tippen, merken es die letzten in der Warteschlange. Für 2–3 parallele Gespräche ist die Performance gut, darüber hinaus wird es langsamer.

Kein Ersatz für spezialisierte Dienste. Für Bildgenerierung, Sprache-zu-Text in Echtzeit oder andere spezialisierte KI-Aufgaben braucht ihr andere Tools. Das System ist auf Text-Inferenz ausgelegt.

ROCm auf diesem Chip ist relativ neu. Die AMD-GPU-Unterstützung für Strix Halo basiert auf Community-Arbeit (danke an kyuz0) und funktioniert gut, aber es ist nicht dasselbe wie ein etabliertes NVIDIA-System mit jahrelanger Treiber-Reife. Gelegentliche Updates können Anpassungen erfordern.

Setup braucht jemanden mit Linux-Kenntnissen. Das Playbook nimmt viel Arbeit ab, aber Fedora installieren, SSH einrichten und DNS konfigurieren sind Voraussetzungen, die jemand im Team erfüllen sollte.

Kein VMM-Support. Der Chip unterstützt keine Virtualisierung für die GPU. Das System läuft direkt auf dem Host, eine KI in einer VM ist also nicht möglich.

Für wen lohnt es sich?

Lokale KI macht Sinn, wenn mindestens eines zutrifft:

Ihr arbeitet mit Daten, die nicht in die Cloud dürfen
Ihr habt 5–30 interne Nutzer, die täglich mit KI arbeiten
Ihr wollt die laufenden API-Kosten vermeiden (die sich bei intensiver Nutzung schnell summieren)
Ihr wollt die KI an eure eigenen Prozesse anpassen, ohne Abhängigkeit von externen Angeboten

Wer gelegentlich mal einen Text umformulieren lässt, ist mit einem normalen Cloud-Abo wahrscheinlich besser bedient. Aber wer KI ernsthaft in den Arbeitsalltag integrieren will, für Dokumentenanalyse, Code-Reviews, interne Wissensdatenbanken oder Zusammenfassungen, für den rechnet sich die Hardware schnell.

Fazit

Ein Mini-PC, 128 GB Arbeitsspeicher, Open Source von oben bis unten: Das Ergebnis ist ein vollwertiger KI-Server, der Modelle betreibt, die auf Augenhöhe mit GPT-5 mini sind. Das war vor zwei Jahren überhaupt nicht denkbar. Heute ist es für rund 3.000 Euro Realität.

Nicht perfekt. Nicht unbegrenzt skalierbar. Aber für das, was die meisten kleineren Unternehmen brauchen, ist es absolut ausreichend und datenschutzrechtlich deutlich sauberer als jede Cloud-Alternative.

Konfigurieren Sie Ihren individuellen Pentest

Konfigurieren

Penetrationstests für Ihre interne oder externe Infrastruktur, Pentests von Webapplikationen oder APIs oder komplexe Angriffssimulationen wie Red Teaming Engagements, Phishing Kampagnen oder Social Engineering. Wir gehen auf Ihre Wünsche ein.