Glossar
KI-Glossar für deutsche Builder
Alle Fachbegriffe, die in den Artikeln von kiforge.de vorkommen — knapp und auf Deutsch erklärt. 37 Einträge in 5 Bereichen, sortiert nach Themenblock statt alphabetisch, damit verwandte Konzepte nebeneinander stehen.
Begriff fehlt? Schreib mir an info@kiforge.de.
10 Einträge
KI & LLMs
Grundbegriffe rund um Sprachmodelle und Künstliche Intelligenz.
- LLM — Large Language Model
- Ein großes Sprachmodell, das Texte vorhersagt — z.B. Claude, GPT-4, Llama. „Groß" heißt: Milliarden Parameter, trainiert auf riesigen Textmengen. Was du im Alltag „KI" nennst, ist meistens ein LLM.
- Token
- Die kleinste Einheit, mit der ein LLM rechnet — meistens etwa 4 Buchstaben oder ein halbes Wort. Wichtig fürs Verständnis: API-Kosten und Context-Window-Größen werden in Tokens gerechnet, nicht in Wörtern. 1.000 Tokens ≈ 750 Wörter Deutsch.
- Context Window
- Wie viel Text ein Modell gleichzeitig „sehen" kann. Claude Sonnet 4.6 hat z.B. ein 200.000-Token-Kontextfenster — das sind ~150.000 Wörter, also ein Roman. Reicht das nicht, muss man Inhalte chunkeln oder mit RAG arbeiten.
- Inference
- Der eigentliche Vorgang, wenn ein bereits trainiertes Modell antwortet. „Inference-Kosten" sind die Kosten pro API-Call. Bei lokalem Hosting bedeutet Inference: dein Rechner rechnet.
- Prompt
- Die Anweisung, die du dem Modell gibst. „Prompt Engineering" heißt: präzise formulieren, strukturieren und Beispiele geben, damit das Modell das tut, was du willst.
- System-Prompt
- Eine Anweisung, die vor jedem User-Prompt mitgeschickt wird und den Charakter, die Rolle oder die Format-Regeln des Modells definiert. „Du bist ein technischer Lektor und antwortest in JSON" wäre ein System-Prompt.
- Embedding
- Eine Zahlenrepräsentation eines Textstücks (typisch 1.024–4.096 Dimensionen). Texte, die thematisch ähnlich sind, haben mathematisch ähnliche Embeddings — Basis für semantische Suche und RAG.
- RAG — Retrieval-Augmented Generation
- Vor dem LLM-Call wird relevantes Material aus einer Datenbank gezogen (per Embedding-Suche) und mit in den Prompt gegeben. Lösung gegen Halluzinationen und für Zugriff auf eigenes Wissen, ohne das Modell zu re-trainieren.
- Halluzination
- Wenn das Modell selbstbewusst etwas Falsches behauptet. Hat zwei Ursachen: das Wissen war im Training nicht oder falsch enthalten, oder das Modell extrapoliert plausibel-aber-erfunden. Hauptgrund, warum Fakten-Check in jeder Pipeline gehört.
Verwandt: Token, Inference, Context Window
Verwandt: System-Prompt
Verwandt: RAG, Vector Database
Verwandt: Embedding, Vector Database, Halluzination
5 Einträge
Agents & Protokolle
Begriffe rund um Agents, Tool-Use, MCP und autonome Workflows.
- Agent
- Ein LLM, das nicht nur antwortet, sondern auch Tools aufruft, um Aufgaben in der Welt zu erledigen — z.B. eine Datei lesen, eine API abfragen, einen Befehl ausführen. Agentic Loop: Plan → Tool-Call → Resultat → Re-Plan.
- Tool-Use
- Das Format, mit dem ein LLM Funktionen aufrufen kann (Function Calling). Anthropic, OpenAI und Google haben ihre eigenen Varianten — alle laufen auf dasselbe hinaus: das Modell erkennt, dass es etwas nicht weiß, und ruft eine vordefinierte Funktion auf.
- MCP — Model Context Protocol
- Offener Standard von Anthropic (2024), mit dem LLMs Tools, Daten und Umgebungen einheitlich anbinden können. Ein MCP-Server stellt Werkzeuge bereit (Datei lesen, DB abfragen, API call), Claude Desktop oder ein Agent-Client nutzen sie. Aktuell der pragmatischste Standard für Tool-Integration.
- Cowork-Modus
- Modus von Claude Desktop, in dem Claude direkten Zugriff auf einen vom User ausgewählten Ordner bekommt — kann lesen, schreiben, Befehle ausführen. Praktisch ein „Pair Programmer" mit Datei-Rechten. Anders als die normale Web-Chat-Variante.
- Function Calling
- Synonym zu Tool-Use bei OpenAI. Das Modell antwortet nicht in Text, sondern in einem strukturierten JSON-Aufruf einer Funktion, die du im Request mitdefiniert hast.
Verwandt: Tool-Use
9 Einträge
Lokale KI & Hardware
Self-Hosting, GPU-Begriffe, Inference-Server.
- VRAM — Video RAM
- Speicher auf deiner Grafikkarte. Faustregel: ein 7B-Modell braucht ~5 GB VRAM in 4-bit-Quantisierung, ein 70B-Modell ~40 GB. VRAM ist die wichtigste Spec, wenn du lokal LLMs hosten willst — wichtiger als reine GPU-Rechenleistung.
- GPU — Graphics Processing Unit
- Im KI-Kontext nicht zum Zocken da, sondern zum schnellen Multiplizieren großer Matrizen. NVIDIA dominiert wegen CUDA, AMD holt mit ROCm langsam auf. Apple-Silicon (M-Chips) hat eigene Wege via Metal/MLX.
- CUDA
- NVIDIAs Programmierplattform für GPU-Rechnen. Das meiste KI-Framework-Ökosystem läuft auf CUDA. Wenn du dir eine NVIDIA-Karte kaufst, bekommst du das Ökosystem quasi geschenkt — bei AMD musst du aufpassen, was unterstützt wird.
- ROCm
- AMDs Antwort auf CUDA. Funktioniert für viele KI-Workloads, aber Treiber-Stabilität und Tool-Support hinken NVIDIA hinterher. Für Stable Diffusion und ein paar LLMs okay, für State-of-the-Art-Forschung eher nicht.
- Quantisierung
- Komprimierung eines Modells: 16-bit-Gewichte werden auf 8, 4 oder sogar 2 Bit reduziert. Trade-Off: weniger VRAM, leichter Qualitätsverlust. Für lokale Deployments fast immer Pflicht. Q4_K_M ist ein gängiger Sweet-Spot in der GGUF-Welt.
- GGUF
- Dateiformat für quantisierte Modelle (Nachfolger von GGML). Wird von llama.cpp, Ollama und LM Studio gelesen. Wenn du auf HuggingFace ein Modell mit `Q4_K_M.gguf` siehst — das ist eine 4-bit-quantisierte Version, die auf normaler Hardware läuft.
- Ollama
- Ein-Befehl-Tool, um lokale LLMs zu betreiben. `ollama run llama3` und du chattest im Terminal. Eingebauter Modell-Download, REST-API auf Port 11434 — perfekt als lokaler Drop-In für ChatGPT-Kompatibilität.
- LM Studio
- GUI-Alternative zu Ollama: lädt GGUF-Modelle, bietet Chat-Interface und einen lokalen API-Server. Komfortabler als Ollama, aber Closed-Source.
- Inference-Server
- Ein Server, der ein LLM lädt und API-Anfragen entgegennimmt. Bekannte Optionen: vLLM (Python, schnell), llama.cpp (C++, low-overhead), Text Generation Inference (HuggingFace). Wer nicht selbst hosten will: Replicate, Together, Fireworks.
Verwandt: Quantisierung, GPU
Verwandt: VRAM
5 Einträge
Datenschutz & Recht
DSGVO-Begriffe, die für KI-Nutzung im DACH-Raum wichtig sind.
- DSGVO — Datenschutz-Grundverordnung
- EU-Verordnung, die regelt, wie personenbezogene Daten verarbeitet werden dürfen. Im KI-Kontext relevant, weil viele Tools Daten in die USA schicken — was nur unter bestimmten Bedingungen erlaubt ist (Standardvertragsklauseln, AVV, Data Privacy Framework).
- AVV — Auftragsverarbeitungsvertrag
- Vertrag zwischen dir (als Verantwortlichem) und einem Anbieter (z.B. OpenAI, Anthropic), der regelt, wie deine Kundendaten verarbeitet werden. Für KI-Tools, die personenbezogene Daten verarbeiten, in Deutschland Pflicht.
- DPA — Data Processing Agreement
- Englische Bezeichnung für AVV. Steht meistens im Anbieter-Portal als „Sign DPA" — bei US-Anbietern oft nur in den höheren Tarifen verfügbar.
- DPF — Data Privacy Framework
- Nachfolger des EU-US-Privacy-Shield (2023). Erlaubt Datenübermittlungen an zertifizierte US-Unternehmen. Anbieter wie Anthropic und OpenAI sind im DPF gelistet, aber das hilft nur, wenn der jeweilige Tarif den DPF-Schutz auch wirklich anwendet.
- Double-Opt-In
- Newsletter-Anmeldung mit zweistufiger Bestätigung: User trägt sich ein, kriegt eine Bestätigungsmail, klickt den Link. Ohne den Klick kein Eintrag in die Liste. In Deutschland faktisch Pflicht — sonst drohen Abmahnungen.
8 Einträge
Build & Deploy
Web-Begriffe, die im kiforge-Stack vorkommen.
- Astro
- JavaScript-Framework für Content-fokussierte Sites. Generiert HTML zur Build-Zeit (SSG), kann aber auch SSR. kiforge.de läuft auf Astro 6. Stärke: minimaler JS-Footprint und hervorragender MDX-Support.
- MDX
- Markdown mit JSX-Erweiterung. Du schreibst normalen Markdown-Text, kannst aber Komponenten direkt im Artikel verwenden — z.B.
<NewsletterBox />mitten im Absatz. Genial für Content-Sites, die mehr als nur Text brauchen. - SSG — Static Site Generation
- Komplette Website wird zur Build-Zeit als statisches HTML gerendert. Vorteil: superschnell, billig zu hosten, sicher. Nachteil: Content-Updates brauchen einen Re-Build. Cloudflare Pages und Vercel sind klassische SSG-Hosts.
- Content Collection
- Astros Mechanismus für typsichere Content-Verwaltung. Du definierst ein Zod-Schema für jeden Artikel-Typ, Astro validiert die Frontmatter beim Build. Wenn jemand `pubDate` falsch tippt, scheitert der Build statt eine kaputte Seite zu deployen.
- Frontmatter
- Der YAML-Block am Anfang eines Markdown-Files (zwischen `---`-Zeilen) mit Metadaten — Titel, Datum, Tags. Wird von Astro gelesen und in der Seite ausgewertet.
- API — Application Programming Interface
- Die Schnittstelle, über die zwei Programme reden. Bei KI-Anbietern: HTTP-Endpoints, an die du JSON schickst und JSON zurückbekommst. Kommt mit API-Keys (Authentifizierung) und Rate-Limits.
- API-Key
- Geheimer Token, der dich gegenüber einer API authentifiziert. Niemals ins Git-Repo committen — gehört in `.env` und nur dort. Wer einen API-Key in den öffentlichen Code schiebt, riskiert binnen Stunden eine fünfstellige Cloud-Rechnung.
- Cloudflare Pages
- Hosting-Service von Cloudflare für statische Sites. Free-Tier reicht für die meisten Solo-Projekte: unlimitierte Bandwidth, automatische HTTPS, Git-Integration. kiforge.de läuft hier.
Verwandt: Astro, Frontmatter
Verwandt: API-Key
Wöchentlich
Mehr aus der Schmiede
Wenn du das Glossar hilfreich fandst — der wöchentliche Newsletter macht aus diesen Begriffen praktische Workflows.
Newsletter abonnieren