Glossar

KI-Glossar für deutsche Builder

Alle Fachbegriffe, die in den Artikeln von kiforge.de vorkommen — knapp und auf Deutsch erklärt. 37 Einträge in 5 Bereichen, sortiert nach Themenblock statt alphabetisch, damit verwandte Konzepte nebeneinander stehen.

Begriff fehlt? Schreib mir an info@kiforge.de.

10 Einträge

KI & LLMs

Grundbegriffe rund um Sprachmodelle und Künstliche Intelligenz.

LLM — Large Language Model: Ein großes Sprachmodell, das Texte vorhersagt — z.B. Claude, GPT-4, Llama. „Groß" heißt: Milliarden Parameter, trainiert auf riesigen Textmengen. Was du im Alltag „KI" nennst, ist meistens ein LLM.
Token: Die kleinste Einheit, mit der ein LLM rechnet — meistens etwa 4 Buchstaben oder ein halbes Wort. Wichtig fürs Verständnis: API-Kosten und Context-Window-Größen werden in Tokens gerechnet, nicht in Wörtern. 1.000 Tokens ≈ 750 Wörter Deutsch.
Context Window: Wie viel Text ein Modell gleichzeitig „sehen" kann. Claude Sonnet 4.6 hat z.B. ein 200.000-Token-Kontextfenster — das sind ~150.000 Wörter, also ein Roman. Reicht das nicht, muss man Inhalte chunkeln oder mit RAG arbeiten.
Inference: Der eigentliche Vorgang, wenn ein bereits trainiertes Modell antwortet. „Inference-Kosten" sind die Kosten pro API-Call. Bei lokalem Hosting bedeutet Inference: dein Rechner rechnet.
Prompt: Die Anweisung, die du dem Modell gibst. „Prompt Engineering" heißt: präzise formulieren, strukturieren und Beispiele geben, damit das Modell das tut, was du willst.
System-Prompt: Eine Anweisung, die vor jedem User-Prompt mitgeschickt wird und den Charakter, die Rolle oder die Format-Regeln des Modells definiert. „Du bist ein technischer Lektor und antwortest in JSON" wäre ein System-Prompt.
Embedding: Eine Zahlenrepräsentation eines Textstücks (typisch 1.024–4.096 Dimensionen). Texte, die thematisch ähnlich sind, haben mathematisch ähnliche Embeddings — Basis für semantische Suche und RAG.
RAG — Retrieval-Augmented Generation: Vor dem LLM-Call wird relevantes Material aus einer Datenbank gezogen (per Embedding-Suche) und mit in den Prompt gegeben. Lösung gegen Halluzinationen und für Zugriff auf eigenes Wissen, ohne das Modell zu re-trainieren.
Halluzination: Wenn das Modell selbstbewusst etwas Falsches behauptet. Hat zwei Ursachen: das Wissen war im Training nicht oder falsch enthalten, oder das Modell extrapoliert plausibel-aber-erfunden. Hauptgrund, warum Fakten-Check in jeder Pipeline gehört.
Vector Database: Spezialdatenbank für Embeddings — z.B. Pinecone, Chroma, Qdrant, pgvector. Findet ähnliche Vektoren in Millisekunden. Voraussetzung für skalierbares RAG.

5 Einträge

Agents & Protokolle

Begriffe rund um Agents, Tool-Use, MCP und autonome Workflows.

Agent: Ein LLM, das nicht nur antwortet, sondern auch Tools aufruft, um Aufgaben in der Welt zu erledigen — z.B. eine Datei lesen, eine API abfragen, einen Befehl ausführen. Agentic Loop: Plan → Tool-Call → Resultat → Re-Plan.
Tool-Use: Das Format, mit dem ein LLM Funktionen aufrufen kann (Function Calling). Anthropic, OpenAI und Google haben ihre eigenen Varianten — alle laufen auf dasselbe hinaus: das Modell erkennt, dass es etwas nicht weiß, und ruft eine vordefinierte Funktion auf.
MCP — Model Context Protocol: Offener Standard von Anthropic (2024), mit dem LLMs Tools, Daten und Umgebungen einheitlich anbinden können. Ein MCP-Server stellt Werkzeuge bereit (Datei lesen, DB abfragen, API call), Claude Desktop oder ein Agent-Client nutzen sie. Aktuell der pragmatischste Standard für Tool-Integration.
Cowork-Modus: Modus von Claude Desktop, in dem Claude direkten Zugriff auf einen vom User ausgewählten Ordner bekommt — kann lesen, schreiben, Befehle ausführen. Praktisch ein „Pair Programmer" mit Datei-Rechten. Anders als die normale Web-Chat-Variante.
Function Calling: Synonym zu Tool-Use bei OpenAI. Das Modell antwortet nicht in Text, sondern in einem strukturierten JSON-Aufruf einer Funktion, die du im Request mitdefiniert hast.

9 Einträge

Lokale KI & Hardware

Self-Hosting, GPU-Begriffe, Inference-Server.

VRAM — Video RAM: Speicher auf deiner Grafikkarte. Faustregel: ein 7B-Modell braucht ~5 GB VRAM in 4-bit-Quantisierung, ein 70B-Modell ~40 GB. VRAM ist die wichtigste Spec, wenn du lokal LLMs hosten willst — wichtiger als reine GPU-Rechenleistung.
GPU — Graphics Processing Unit: Im KI-Kontext nicht zum Zocken da, sondern zum schnellen Multiplizieren großer Matrizen. NVIDIA dominiert wegen CUDA, AMD holt mit ROCm langsam auf. Apple-Silicon (M-Chips) hat eigene Wege via Metal/MLX.
CUDA: NVIDIAs Programmierplattform für GPU-Rechnen. Das meiste KI-Framework-Ökosystem läuft auf CUDA. Wenn du dir eine NVIDIA-Karte kaufst, bekommst du das Ökosystem quasi geschenkt — bei AMD musst du aufpassen, was unterstützt wird.
ROCm: AMDs Antwort auf CUDA. Funktioniert für viele KI-Workloads, aber Treiber-Stabilität und Tool-Support hinken NVIDIA hinterher. Für Stable Diffusion und ein paar LLMs okay, für State-of-the-Art-Forschung eher nicht.
Quantisierung: Komprimierung eines Modells: 16-bit-Gewichte werden auf 8, 4 oder sogar 2 Bit reduziert. Trade-Off: weniger VRAM, leichter Qualitätsverlust. Für lokale Deployments fast immer Pflicht. Q4_K_M ist ein gängiger Sweet-Spot in der GGUF-Welt.
GGUF: Dateiformat für quantisierte Modelle (Nachfolger von GGML). Wird von llama.cpp, Ollama und LM Studio gelesen. Wenn du auf HuggingFace ein Modell mit `Q4_K_M.gguf` siehst — das ist eine 4-bit-quantisierte Version, die auf normaler Hardware läuft.
Ollama: Ein-Befehl-Tool, um lokale LLMs zu betreiben. `ollama run llama3` und du chattest im Terminal. Eingebauter Modell-Download, REST-API auf Port 11434 — perfekt als lokaler Drop-In für ChatGPT-Kompatibilität.
LM Studio: GUI-Alternative zu Ollama: lädt GGUF-Modelle, bietet Chat-Interface und einen lokalen API-Server. Komfortabler als Ollama, aber Closed-Source.
Inference-Server: Ein Server, der ein LLM lädt und API-Anfragen entgegennimmt. Bekannte Optionen: vLLM (Python, schnell), llama.cpp (C++, low-overhead), Text Generation Inference (HuggingFace). Wer nicht selbst hosten will: Replicate, Together, Fireworks.

5 Einträge

Datenschutz & Recht

DSGVO-Begriffe, die für KI-Nutzung im DACH-Raum wichtig sind.

DSGVO — Datenschutz-Grundverordnung: EU-Verordnung, die regelt, wie personenbezogene Daten verarbeitet werden dürfen. Im KI-Kontext relevant, weil viele Tools Daten in die USA schicken — was nur unter bestimmten Bedingungen erlaubt ist (Standardvertragsklauseln, AVV, Data Privacy Framework).
AVV — Auftragsverarbeitungsvertrag: Vertrag zwischen dir (als Verantwortlichem) und einem Anbieter (z.B. OpenAI, Anthropic), der regelt, wie deine Kundendaten verarbeitet werden. Für KI-Tools, die personenbezogene Daten verarbeiten, in Deutschland Pflicht.
DPA — Data Processing Agreement: Englische Bezeichnung für AVV. Steht meistens im Anbieter-Portal als „Sign DPA" — bei US-Anbietern oft nur in den höheren Tarifen verfügbar.
DPF — Data Privacy Framework: Nachfolger des EU-US-Privacy-Shield (2023). Erlaubt Datenübermittlungen an zertifizierte US-Unternehmen. Anbieter wie Anthropic und OpenAI sind im DPF gelistet, aber das hilft nur, wenn der jeweilige Tarif den DPF-Schutz auch wirklich anwendet.
Double-Opt-In: Newsletter-Anmeldung mit zweistufiger Bestätigung: User trägt sich ein, kriegt eine Bestätigungsmail, klickt den Link. Ohne den Klick kein Eintrag in die Liste. In Deutschland faktisch Pflicht — sonst drohen Abmahnungen.

8 Einträge

Build & Deploy

Web-Begriffe, die im kiforge-Stack vorkommen.

Astro: JavaScript-Framework für Content-fokussierte Sites. Generiert HTML zur Build-Zeit (SSG), kann aber auch SSR. kiforge.de läuft auf Astro 6. Stärke: minimaler JS-Footprint und hervorragender MDX-Support.
MDX: Markdown mit JSX-Erweiterung. Du schreibst normalen Markdown-Text, kannst aber Komponenten direkt im Artikel verwenden — z.B. <NewsletterBox /> mitten im Absatz. Genial für Content-Sites, die mehr als nur Text brauchen.
SSG — Static Site Generation: Komplette Website wird zur Build-Zeit als statisches HTML gerendert. Vorteil: superschnell, billig zu hosten, sicher. Nachteil: Content-Updates brauchen einen Re-Build. Cloudflare Pages und Vercel sind klassische SSG-Hosts.
Content Collection: Astros Mechanismus für typsichere Content-Verwaltung. Du definierst ein Zod-Schema für jeden Artikel-Typ, Astro validiert die Frontmatter beim Build. Wenn jemand `pubDate` falsch tippt, scheitert der Build statt eine kaputte Seite zu deployen.
Frontmatter: Der YAML-Block am Anfang eines Markdown-Files (zwischen `---`-Zeilen) mit Metadaten — Titel, Datum, Tags. Wird von Astro gelesen und in der Seite ausgewertet.
API — Application Programming Interface: Die Schnittstelle, über die zwei Programme reden. Bei KI-Anbietern: HTTP-Endpoints, an die du JSON schickst und JSON zurückbekommst. Kommt mit API-Keys (Authentifizierung) und Rate-Limits.
API-Key: Geheimer Token, der dich gegenüber einer API authentifiziert. Niemals ins Git-Repo committen — gehört in `.env` und nur dort. Wer einen API-Key in den öffentlichen Code schiebt, riskiert binnen Stunden eine fünfstellige Cloud-Rechnung.
Cloudflare Pages: Hosting-Service von Cloudflare für statische Sites. Free-Tier reicht für die meisten Solo-Projekte: unlimitierte Bandwidth, automatische HTTPS, Git-Integration. kiforge.de läuft hier.

Wöchentlich

Mehr aus der Schmiede

Wenn du das Glossar hilfreich fandst — der wöchentliche Newsletter macht aus diesen Begriffen praktische Workflows.

Newsletter abonnieren