KI¶
Siehe auch
- Verwandte Artikel
- Offizielle Dokumentation
- Linuxfabrik
Chat-Bots wie ChatGPT, Claude oder Gemini und die meisten anderen text-basierten KI-Anwendungen beruhen auf Large Language Models (LLMs). Den Grundstein legte 2017 das Paper Attention Is All You Need von Google mit der Transformer-Architektur. 2018 folgte BERT, und ab November 2022 brachte ChatGPT die Technik in die breite Öffentlichkeit.
Funktionsweise¶
Ein Transformer ist eine Architektur neuronaler Netze, mit der ein Computer eine Zeichenfolge in eine andere übersetzt, etwa von einer Sprache in eine andere oder von einer Frage in eine Antwort. Mithilfe von Self-Attention lernt das Modell, welche Teile einer Eingabesequenz für die nächste Vorhersage relevant sind. Transformer bilden das Rückgrat aller grossen Sprachmodelle.
Tokens sind die kleinsten Einheiten, in die Text zerlegt wird. Ein Token entspricht einem Wort, einem Wortteil oder einem einzelnen Zeichen. Ein Tokenizer wandelt Rohtext in eine Sequenz von Token-IDs um, die das Modell weiterverarbeitet. Verbreitete Tokenizer-Verfahren:
Byte-Pair Encoding (BPE)
SentencePiece / Unigram
WordPiece
Jedes Token wird durch einen Vektor (Embedding) dargestellt. Diese Einbettungen sind die Grundlage für alle weiteren Berechnungen im Modell.
Training und Finetuning¶
Beim Pre-Training lernt ein Modell allgemeine Sprachmuster aus riesigen, nicht annotierten Textkorpora, im Wesentlichen Texte aus dem Internet, die vorher nicht manuell beschriftet werden müssen. Die Zahl der dabei optimierten Parameter reicht von einigen Milliarden bis über eine Billion bei den grössten Modellen. Das Training kostet entsprechend viel Rechenzeit und Geld, bei Spitzenmodellen mehrere hundert Millionen Euro. Nach dem Pre-Training kann das Modell bereits zusammenhängende Sätze bilden. Im Ökosystem dominiert das Framework PyTorch, gefolgt von JAX/Flax und TensorFlow.
Für den vorgesehenen Einsatzzweck, etwa als Chatbot, wird ein Modell nachtrainiert (Finetuning). Das ist deutlich weniger aufwendig und gelingt mit moderater Rechenleistung in Stunden bis Tagen. Gängige Verfahren:
Parameter-Efficient Fine-Tuning (PEFT): passt nur wenige zusätzliche Parameter an, etwa über die Adapter-Verfahren LoRA und QLoRA. Schnell und speichersparend.
Reinforcement Learning from Human Feedback (RLHF): optimiert das Modell anhand menschlicher Bewertungen und Belohnungssignale.
Supervised Fine-Tuning (SFT): Training mit kuratierten, annotierten Beispielen.
Retrieval-Augmented Generation (RAG) ist kein Training, sondern bindet zur Laufzeit externe Wissensquellen an den Prompt an. So bleiben Antworten aktuell, ohne dass die Gewichte angepasst werden.
Ein eigenes Modell auf eigene Textnachrichten zu trainieren, läuft grob in diesen Schritten ab:
Daten sammeln: Repräsentative Textkorpora zusammentragen, die ein breites Spektrum an Beispielen und Variationen zum Thema abdecken.
Data Preprocessing: Tokenisierung, Normalisierung und Bereinigung. Inkonsistenzen in der Formatierung entfernen, Gross-/Kleinschreibung vereinheitlichen, Abkürzungen standardisieren.
Annotation: Jedes Beispiel mit einer Bezeichnung versehen, die beschreibt, worum es geht (z.B. „How to“, „What is“, „Why“). Diese Labels dienen zugleich zum Organisieren und Durchsuchen des Trainingssatzes.
Training / Finetuning: Pre-Training oder PEFT, je nach Ziel und Ressourcen.
Evaluation: Mit automatisierten Benchmarks und menschlichem Feedback prüfen, dann nachbessern.
Deployment: Passende Inferenz-Engine und Quantisierungsstrategie auswählen.
Plattformen wie Hugging Face unterstützen den gesamten Prozess.
Inference und Werkzeuge¶
Inference bezeichnet den Einsatz eines fertig trainierten Modells zur Textgenerierung oder -analyse. Werkzeuge zum Ausführen von Modellen:
GPT4All (lokale GUI, quantisierte Modelle für schwache Hardware)
llama.cpp (CPU- und GPU-Inference, GGUF-Modelle)
Ollama (CLI und Desktop, baut auf llama.cpp auf, einfache lokale Deployments)
SGLang (GPU-Server mit hohem Durchsatz)
text-generation-inference / TGI (GPU-Server von Hugging Face)
vLLM (GPU-Server, De-facto-Standard für skalierbares Serving)
Frameworks, um Anwendungen rund um ein Modell zu bauen:
AutoGPT, BabyAGI (autonome Agenten)
LangChain, LlamaIndex (Agenten und RAG-Pipelines)
OpenLLM (Deployment-Abstraktion für lokale Modelle)
Quantisierung und Dateiformate¶
Quantisierung baut ein Modell so um, dass es mit kürzeren Ganzzahlen statt mit Fliesskommazahlen rechnet. Das reduziert Modellgrösse und Rechenaufwand, kostet aber etwas Genauigkeit. Verbreitete Verfahren:
AWQ (Activation-aware Weight Quantization)
GGUF k-quants (verschiedene Stufen, z.B. Q4_K_M, Q5_K_M)
GPTQ (3 bis 4 bit)
Int8 / Int4
QLoRA (4-bit-Quantisierung plus LoRA-Adapter)
Modellgewichte werden in unterschiedlichen Dateiformaten abgelegt:
GGUF (GPT-Generated Unified Format): Containerformat von llama.cpp mit Gewichten und Metadaten, Standard für lokale Inference. Nachfolger des veralteten GGML.
PyTorch-Checkpoints (
.pt/.bin)Safetensors (schnell und sicher, Standardformat auf dem Hugging Face Hub)
Modelle¶
Foundation Models („Basismodelle“) sind vortrainierte Modelle, die als Grundlage für weitere Anwendungen dienen. Sie teilen sich grob in zwei Lager (Stand 2026-06).
Proprietär, nur über eine API nutzbar, Gewichte nicht öffentlich:
Claude von Anthropic
Gemini von Google
GPT- und o-Reihe von OpenAI
Offene Gewichte, herunterladbar und lokal lauffähig, mit Lizenzen von Apache 2.0 bis zu eigenen Community-Lizenzen:
DeepSeek von DeepSeek
Gemma von Google
Llama von Meta
Mistral und Mixtral von Mistral AI
Phi von Microsoft
Qwen von Alibaba
Seit Ende 2024 verbreiten sich Reasoning-Modelle wie die OpenAI-o-Reihe oder DeepSeek-R1, die vor der eigentlichen Antwort eine interne Gedankenkette erzeugen und so bei logik- und mathematiklastigen Aufgaben besser abschneiden.
Für die Entwicklung offener Modelle waren frühe Vertreter wichtig: GPT-2, GPT-J und GPT-NeoX von EleutherAI, BLOOM von der BigScience-Initiative (176 Mrd. Parameter, RAIL-Lizenz) sowie Falcon vom TII. Neben Text gibt es Modelle für andere Modalitäten, etwa Stable Diffusion von Stability AI für die Bildgenerierung.
Begriffe¶
BERT: Bidirectional Encoder Representations from Transformers. Frühes Transformer-Modell von Google.
Checkpoint: Gespeicherter Modellzustand, der weiterverwendet oder deployt werden kann.
Embedding: Vektor-Repräsentation eines Tokens, Grundlage aller weiteren Berechnungen im Modell.
Emergente Fähigkeiten: Kompetenzen, die erst ab einer bestimmten Modellgrösse auftreten und nicht gezielt antrainiert wurden.
Few-Shot: Anfrage, deren Prompt einige wenige Beispiele für die gewünschte Lösung enthält.
Fine-Tuning: Nachtraining eines vortrainierten Modells für einen bestimmten Einsatzzweck.
GPT: Generative Pre-trained Transformer.
Hugging Face: Zentrale Plattform für offene Modelle, Datensätze und Bibliotheken.
Inference: Einsatz eines fertig trainierten Modells, um Text zu erzeugen oder zu analysieren.
LoRA / QLoRA: Speichersparende PEFT-Verfahren, die nur kleine Zusatzmatrizen trainieren.
Maximum Length: Maximale Antwortlänge in Token.
Parameter: Eine während des Trainings gelernte Variable des Modells.
Prompt Engineering: Formulieren wirksamer Eingaben, um bessere Antworten zu erhalten.
Quantisierung: Umbau eines Modells, sodass es mit kürzeren Ganzzahlen rechnet. Spart Speicher und Rechenzeit.
RAG: Retrieval-Augmented Generation. Kombiniert Dokumenten-Retrieval mit generativer Antwort.
Repeat Penalty: Bestraft Wiederholungen bei der Generierung.
RLHF: Reinforcement Learning from Human Feedback. Nachtraining anhand menschlicher Bewertungen.
Temperature: Steuert Zufälligkeit und Kreativität der Ausgabe. Niedrig wirkt vorhersehbar, hoch kreativer.
Token: Kleinste Verarbeitungseinheit, ungefähr ein Wort oder Wortteil.
Top-K / Top-P: Sampling-Strategien für das nächste Token. Top-K wählt aus den K wahrscheinlichsten Token, Top-P (Nucleus Sampling) aus den wahrscheinlichsten Token bis zu einer kumulierten Wahrscheinlichkeit P.
Transformer: Von Google entwickelte Architektur neuronaler Netze, Grundlage aller LLMs.
Zero-Shot: Anfrage ganz ohne Beispiele im Prompt.