DeepSeek offline nutzen: So installiert ihr ChatGPT-Alternativen sicher auf eurem PC

Robert Schanze,12.02.2025, 16:49 Uhr

16 min Lesezeit

DeepSeek lässt sich auch lokal auf dem eigenen PC ausführen. (© Logo: DeepSeek / Bearbeitung: GIGA)

DeepSeek erobert das Internet und wird als genauso gut, wenn nicht sogar besser als ChatGPT und Co. gepriesen. Allerdings gibt es Bedenken hinsichtlich des Datenschutzes. Es gibt aber eine Lösung: Man speichert und startet DeepSeek auf dem eigenen Recher, sodass keine Nutzerdaten den PC verlassen. Wie das in wenigen Schritten in Windows, Linux und MacOS geht, seht ihr hier.

Wenn du über diese Links einkaufst, erhalten wir eine Provision, die unsere redaktionelle Arbeit unterstützt. Der Preis für dich bleibt dabei unverändert. Diese Affiliate-Links sind durch ein Symbol gekennzeichnet. Mehr erfahren.

Inhaltsverzeichnis

DeepSeek und KI-Klone auf dem PC speichern

Bei cloud-basierten KI-Modellen wie DeepSeek und ChatGPT weiß man nicht sicher, wohin die eingegebenen Daten geschickt werden. Bei lokalen KI-Modellen, die von euren eigenen Rechner aus starten, ist das anders: Niemand sieht eure Eingaben, wenn ihr DeepSeek oder andere ChatGPT-Klone etwas fragt. Sie funktionieren also selbst dann, wenn ihr keine Internetverbindung habt.

Allerdings sei klargestellt, dass die bekannten Cloud-KI-Dienste eine viel höhere Leistung haben, weil sie über das Internet und Netzwerke auf massive Datensätze und Hardware zugreifen können. Für alltägliche Aufgaben reichen lokale KI-Modelle aber oft aus.

Es gibt zwei beliebte Methoden, um KI-Modelle wie ChatGPT lokal vom eigenen Rechner zu starten:

Entweder man verwendet das Programm „LM Studio“ mit einer grafischen Benutzeroberfläche (GUI) oder
man nutzt ein einfaches Kommandozeilen-Fenster in Kombination mit der Software-Plattform Ollama.

KI-Modelle laufen am besten, wenn ihr eine schnelle dedizierte Grafikkarte habt (Beispiele: NVIDIA GeForce RTX 3080, AMD Radeon RX 6800 XT), da die notwendigen Berechnungen von diesen schneller durchgeführt werden. Die meisten KI-Modelle funktionieren aber auch ohne dedizierte GPU. Es dauert dann aber deutlich länger, bis eine Antwort generiert wird.

KI mit „LM Studio“ speichern und starten (GUI)

Die erste Methode nutzt eine grafische Benutzeroberfläche (GUI), über die man KI-Modelle auf dem PC speichern und starten kann. Dies ist etwa für diejenigen gedacht, die ein bekanntes Chat-Fenster haben wollen, ähnlich wie man es von DeepSeek, ChatGPT und Co. kennt.

KI-Modelle herunterladen

Ladet euch das Programm LM Studio für euer Betriebssystem herunter und installiert es.
Im Programm selbst klickt ihr links dann auf das Lupen-Symbol, um nach kompatiblen KI-Modellen zu suchen.
Sucht einfach nach „deepseek R1“, um das sogenannte Reasoning-Modell zu finden. Dieses lässt euch den eigenen „Denkprozess“ sehen, bevor DeepSeek antwortet (bei komplexen Aufgaben sinnvoll). Wenn euch der Denkprozess zu lange dauert, sucht stattdessen nach dem normalen Modell „deepseek V3“. Dieses antwortet direkt ohne Denkprozess.
Orientiert euch bei den verfügbaren Parameter- und Quantisierungsangaben bei der unteren Erklärung. Kurz: Für die Parameter sind gute Werte 7B bis 9B. Bei der Quantisierung ist Q4_K_M meist eine gute Wahl. Modelle in dem Bereich sollten etwa 4 bis 10 GB groß sein.
Klickt auf den Button „Download“, um das KI-Modell herunterzuladen. Dabei wird auch die benötigte Speichergröße angezeigt.

LM-Studio mit ausgewähltem KI-Modell, bereit zum Download. — Hier könnt ihr Modelle suchen und herunterladen. (© GIGA)

KI-Modell starten

Wenn ihr ein KI-Modell heruntergeladen habt, könnt ihr es im Hauptfenster von „LM Studio“ starten.

Klickt oben auf den Button „Select a model to load“ und wählt euer heruntergeladenes KI-Modell aus.
Es erscheint ein Fenster mit den gewünschten Einstellungen. Am besten lasst ihr die Voreinstellungen und klickt auf den Button „Load Model“.
Danach könnt ihr im Chat-Fenster eure Fragen stellen.

LM Studio mit geöffnetem KI-Modell — Oben ladet ihr das Modell, unten wird gechattet. (© GIGA)

Um ein KI-Modell wieder zu löschen, klickt ihr im Hauptfenster links auf das rote Ordner-Symbol. Ihr seht nun eine Liste aller installierten KI-Modelle. Klickt auf die drei Punkte (…) neben dem entsprechenden Modell und wählt „Delete“ aus, um es wieder zu entfernen.

DeepSeek oder ChatGPT? Was ist besser? Hier gehen wir auf die Unterschiede ein:

Lesetipp

DeepSeek vs. ChatGPT – die wichtigsten Unterschiede

Robert Schanze

KI mit Ollama speichern und starten (Terminal)

Diese Variante ist vermutlich eher etwas für Power-User, weil man die KI-Modelle einfach per Terminal-Fenster verwalten und starten kann.

Ollama installieren

Zunächst müsst ihr das Programm Ollama auf eurem Betriebssystem installieren:

Für Windows 10/11 ladet ihr euch die Datei „OllamaSetup.exe“ von der Ollama-Webseite herunter und installiert sie per Doppelklick.
In Linux führt ihr dazu im Terminal laut Ollama-Webseite den folgenden Befehl aus: curl -fsSL https://ollama.com/install.sh | sh
Für macOS 11 oder später ladet ihr euch die Datei „Ollama-darwin.zip“ von der Ollama-Webseite herunter.

Ollama starten und KI-Modelle herunterladen

Nach der Installation von Ollama seht ihr in Windows unten rechts in der Taskleiste ein neues Lama-Symbol.
Öffnet nun die Powershell, indem ihr mit der rechten Maustaste auf den Startbutton klickt und in Windows 11 „Terminal“ auswählt beziehungsweise „Windows PowerShell“ in Windows 10. In Linux beziehungsweise macOS öffnet ihr das Terminal.
Um nun beispielsweise DeepSeek in einer sehr einfachen Form herunterzuladen und zu starten, gebt ihr den Befehl ollama run deepseek-r1:1.5b ein und drückt Enter.
Wartet bis die erforderlichen Dateien heruntergeladen werden und „success“ angezeigt wird. Das KI-Modell startet danach automatisch.
Nun könnt ihr dem KI-Modell im Terminal eure Fragen stellen, ähnlich wie bei ChatGPT oder DeepSeek.
Das gewählte Modell ist aber ziemlich klein und die Antworten sind eher rudimentär formuliert. Anhand des kleinen Modells könnt ihr aber schon mal testen, ob das Programm auf eurem PC funktioniert.
Danach könnt ihr mit dem Befehl ollama run deepseek-r1:8b ein deutlich stärkeres Modell mit intelligenteren Antworten herunterladen. Achtet aber darauf, vorher das laufende kleine Modell mit dem Befehl /bye zu beenden.

Terminal-Fenster mit Ollama-Download-Befehl eines KI-Modells. — Das KI-Modell wird heruntergeladen und danach lokal gestartet. (© GIGA)

Bedienung: Hilfreiche Befehle & Tastenkombinationen

Mit diesen Befehlen könnt ihr KI-Modelle anzeigen, herunterladen, starten, beenden und löschen.

Alle installierten KI-Modelle anzeigen

Der Befehl ollama list zeigt alle derzeit heruntergeladenen lokalen KI-Modelle an.

Ein KI-Modell starten (oder herunterladen und dann starten)

Der Befehl ollama run (gefolgt von einem Namen, der bei „ollama list" ausgegeben wird) startet die jeweilige KI. Beispiel: ollama run deepseek-r1:1.5b

Das derzeitige KI-Modell beenden

Die Tastenkombination Strg + D beendet die jeweilige KI. Alternativ könnt ihr auch /bye eintippen und Enter drücken.

Alle laufenden KI-Modelle anzeigen

Der Befehl ollama ps zeigt alle derzeit laufende Ki-Modelle an (falls ihr beispielsweise ein Modell in einem anderen Terminal-Fenster laufen habt, wird das dann ersichtlich).

Ein KI-Modell löschen

Der Befehl ollama rm (gefolgt von einem Namen, der bei „ollama list" ausgegeben wird) löscht die jeweilige KI. Beispiel: ollama rm deepseek-r1:1.5b. Das KI-Modell muss das nächste mal dann also wieder aus dem Internet heruntergeladen werden mit olama run … .

Wie erkenne ich gute KI-Modelle?

Dies ist eine stark vereinfachte Erklärung. Als Beispiel nehmen wir das KI-Modell „deepseek-r1:1.5b“ von oben:

Die Zahl hinten (1.5b) bedeutet, dass das Modell ungefähr 1,5 Milliarden Parameter hat.
Je höher dieser Wert ist, desto leistungsfähiger ist das Modell und desto besser kann es komplexe Muster in den Daten erkennen und euch antworten.
Ein gutes Mittelmaß sind Modelle mit 6 bis 8 Milliarden Parametern (6B bis 8B), da sie eine starke Leistung bieten, ohne zu hohe Ressourcen zu benötigen.
Allerdings ist es von eurer Hardware abhängig, ob die Modelle auch einigermaßen zügig antworten. Außerdem belegen sie mit 4 bis 9 GB mehr Speicherplatz auf eurer Festplatte.

Ollama-Fenster mit 8b-Deepseek-Modell. — Das KI-Modell hat mehr Parameter und ist damit „klüger“. (© GIGA)

Neue KI-Modelle von Ollama herunterladen

Nun könnt ihr die Webseite Ollama öffnen und oben links auf „Models“ klicken. Sucht hier nach bestimmten Modellen wie „deepseek“ oder „gpt“. Unter dem jeweiligen Sucheintrag seht ihr dann auch mit wie vielen Parametern das Modell verfügbar ist.

Ollama-Webseite mit Modell-Suche. — Hier sucht ihr nach KI-Modellen. (© GIGA)

Wenn ihr ein Modell angeklickt habt, wählt ihr im Reiter links die Parameter-Anzahl aus (Beispiel: 2b, 9b oder 27b), Je größer, desto „klüger“ ist die KI. Rechts daneben seht ihr dann den nötigen Befehl, um diese KI mit den ausgewählten Parametern im Kommandozeilen-Fenster zu installieren. Außerdem seht ihr bei „Pulls“, wie oft das Modell heruntergeladen wurde, was ein Hinweis dafür sein kann, ob das Modell beliebt und/oder gut ist.

Ollama-Modell gemma2 mit Download-Optionen. — Hier wählt ihr aus, wie „gut“ das Modell sein soll (Parameter). Daneben steht der Download-Befehl. (© GIGA)

In unserem Beispiel wäre es also der Befehl ollama run gemma2:9b, um das Modell „Google Gemma 2“ mit 9b in unserem Terminal-Fenster- beziehungsweise Powershell-Fenster herunterzuladen und zu starten.

Zusammen mit den obigen Befehlen wisst ihr nun alle Grundlagen, um KI-Modelle zu finden und ausprobieren zu können.

Weitere KI-Modelle von „Hugging Face“ herunterladen

Alternativ zu Ollama findet ihr weitere KI-Modelle auf der Webseite „Hugging Face“. Allerdings müsst ihr dafür pro Modell den richtigen Download-Befehl herausfinden. Das geht so:

Klickt auf der Webseite oben auf „Models“ und dann links in der Navigation auf „Libraries“. Wählt darunter das Format „GGUF“ aus.

Bei Bedarf könnt ihr unter „languages“ auch noch „German“ für die deutsche Sprache auswählen, die meisten englischsprachigen Modelle antworten euch aber auch ziemlich gut auf Deutsch, wenn ihr sie später dazu auffordert.

Nun könnt ihr im rechten Fensterbereich im Suchfeld „Models“ nach weiteren Modellen suchen. Die Parameterzahl (B) findet ihr oft bereits in der Überschrift angezeigt.

Webseite Hugging Face mit Format GGUF ausgewählt. — So findet ihr kompatible KI-Modelle auf Hugging-Face. (© GIGA)

Nachdem ihr ein Modell angeklickt habt, seht ihr rechts die Download-Zahlen. Klickt auf den Button „Use this model“ > „Ollama“.

Hugging-Face-Webseite mit Ollama-Download markiert. — Klickt hier, um das richtige Modell auszuwählen. (© GIGA)

Es öffnet sich ein kleines Fenster, indem ihr nun die sogenannte Quantisierung auswählt. Sie bestimmt, wie die Präzision der Modellparameter reduziert wird, um Speicherbedarf und Berechnungszeiten zu verringern, während die Leistung des Modells weitgehend erhalten bleibt. Ein guter Richtwert ist Q4_K_M, sofern vorhanden. Scrollt ansonsten auf der Webseite des jeweiligen KI-Modells herunter, um eine Empfehlung für eine geeignete Quantisierung zu finden. Danach klickt ihr daneben auf „Copy“, um den nötigen Terminal-Befehl in eure Zwischenablage zu kopieren.

Quantisierung eines KI-Modells auswählen für Ollama auf Hugging-Face-Webseite. — Wählt die Quantisierung aus und kopiert den Befehl per „Copy“ in die Zwischenablage. (© GIGA)

In unserem Beispiel lautet der kopierte Befehl also ollama run hf.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF:Q4_K_M, um das KI-Modell in Ollama herunterzuladen und zu starten. Ihr entfernt sie wieder mit den obigen gezeigten Befehlen.

Quantisierung „Q4_K_M“ erklärt

Auf der Webseite Hugging-Face kann man oft die Quantisierung des KI-Modells auswählen. Es gibt verschiedene Stufen der Quantisierung (Q2, Q3, Q4, Q5, Q6, Q8), wobei die Zahl nach dem Q die Anzahl der Bits pro Gewicht angibt. Niedrigere Zahlen bedeuten weniger Bits und daher mehr Speicherplatzersparnis, aber potenziell auch eine geringere Genauigkeit. Höhere Zahlen bedeuten mehr Bits und daher eine bessere Genauigkeit, aber auch einen höheren Speicherbedarf.

Suffixe wie Q4_K_S, Q4_K_M, Q5_K_M und Q5_K_L werden verwendet, um verschiedene Quantisierungsmethoden für große Sprachmodelle (Large Language Models = LLMs) zu beschreiben, die jeweils unterschiedliche Stufen von Präzision und Speicherbedarf aufweisen.

Die Ziffer hinter dem Q steht für die Anzahl der verwendeten Bits. Eine 4-Bit-Quantisierung wie bei „Q4_K_M“ bedeutet, dass jeder einzelne Wert (z.B. ein Gewicht in einem neuronalen Netzwerk) durch 4 Bits dargestellt wird.

Hier ist eine vereinfachte Erklärung am Beispiel von Q4_K_M:

Q4 steht für eine 4-Bit-Quantisierung. Quantisierung ist ein Prozess, bei dem die Präzision der Daten im Modell reduziert wird, um Speicherplatz zu sparen und die Verarbeitungsgeschwindigkeit zu erhöhen. Je höher die Zahl nach dem Q, desto mehr Bits werden pro Gewicht verwendet, was tendenziell zu höherer Genauigkeit und größerem Speicherbedarf führt.
K steht für "k-quant", eine spezielle Methode der Quantisierung, die darauf abzielt, die Effizienz und Leistung des Modells zu verbessern. Diese Methode bewirkt, dass das Modell weniger Speicherplatz benötigt und schneller verarbeitet werden kann, auch wenn die Daten vereinfacht wurden.
M ist eine zusätzliche Optimierung oder Konfiguration innerhalb der k-quant-Modelle, die ein gutes Gleichgewicht zwischen Modellgröße und Genauigkeit hat. Diese Optimierung hilft, das Modell kleinzuhalten, während es dennoch sehr gut arbeitet.

Man kann die oben genannten Quantisierungsmethoden also von „besser“ bis „schlechter“ wie folgt in eine Reihenfolge bringen:

Q5_K_L: Sehr gut – höchste Qualität und Leistung, aber hohe Ressourcen-Anforderungen.
Q5_K_M: Gut – gute Balance zwischen Modellgröße und Leistung, moderate Ressourcen-Anforderungen.
Q4_K_M: Befriedigend – ausgewogene Qualität, nahe an der ursprünglichen Modellleistung, leicht reduzierte Hardware-Anforderungen.
Q4_K_S: Ausreichend – geeignet für Geräte mit begrenzten Ressourcen, aber häufiger kleinere Ungenauigkeiten bei komplexen Aufgaben.

Wie gut sind lokale KI-Modelle wirklich?

Lokale KI-Modelle mit 4-Bit-Quantisierung und einem Parameterbereich von 7 bis 9 Millionen, wie oben von uns empfohlen, sind heruntergerechnete (destillierte) Modelle, die ausgewogen funktionieren, jedoch auf Kosten der Genauigkeit und Flexibilität. Dafür respektieren sie die Privatsphäre und schützen eure Daten vor dem Internet. Außerdem gibt es die Option, auch nach unzensierten Modellen zu suchen.

Cloud-basierte KI-Modelle wie DeepSeek und ChatGPT hingegen profitieren von kontinuierlichen Updates, massiver Rechenleistung und hoher Skalierbarkeit. Diese Modelle liefern eine überlegene Leistung bei komplexen Aufgaben wie Sprachverarbeitung und Bildanalyse, da sie auf riesige Datenmengen zugreifen und diese in Echtzeit verarbeiten können. Allerdings ist für Anwender auch ungewiss, was mit ihren eingegebenen Daten geschieht.

Wer leistungsstärkere KI-Modelle offline nutzen will, braucht entsprechend stärkere Hardware (starke Grafikkarten und viel Speicherplatz). Sofern man aber keine eigenen Rechenzentren hat, wird man damit nicht an die Leistung der bekannten Cloud-Dienste herankommen. Für alltägliche Aufgaben wie Textgenerierung, Übersetzungen und Coding liefern auch die lokalen KIs sehr brauchbare Antworten.

Vor- und Nachteile von lokalen KI-Modellen

Die folgende Auflistung zeigt die wichtigsten Vor- und Nachteile von lokalen KI-Modellen, die vor allem von Privatnutzern betrieben werden.

Die Vorteile

Lokale KI-Modelle haben folgende Vorteile gegenüber den üblichen Cloud-Varianten, die man im Internet über Browser oder Smartphone-App startet.

Datenschutz & Sicherheit: Eure Daten bleiben lokal, eure Eingaben werden nicht an Dritte gesendet (etwa zu KI-Trainingszwecken etc.).
Ohne Internetverbindung: Ihr könnt KI-Modelle ohne ständige Internetverbindung verwenden.
Kostenersparnis: Ihr vermeidet laufende Kosten für kostenpflichtige Cloud-Dienste und KI-Modelle.
Anpassungsfähigkeit: Ihr habt Kontrolle über das KI-Modell, Integration und eventuelle Anpassungsmöglichkeiten.

Die Nachteile

Allerdings gibt es vor allem für Privatnutzer auch folgende Nachteile.

Hardware-Kosten: Hohe Investitionen in leistungsstarke Hardware wie GPUs.
Erhöhter Energieverbrauch: KI-Modelle verbrauchen verhältnismäßig viel Strom.
Speicherbedarf: KI-Modelle brauchen je nach Variante viel Speicherplatz (etwa zwischen 2 und 400 GB).
Manuelle Wartung: Updates und Wartung müssen selbst durchgeführt werden.
Skalierbarkeit: Begrenzte Skalierbarkeit im Vergleich zu Cloud-Lösungen.
Komplexität: Erhöhte technische Anforderungen und mehr Fachwissen nötig.

GIGA empfiehlt

Weitere interessante Artikel

Hat dir der Beitrag gefallen? Folge uns auf WhatsApp und Google News und verpasse keine Neuigkeit rund um Technik, Games und Entertainment.