Prompt Testing & Evaluation — Systematisch bessere Ergebnisse
Dein Prompt funktioniert in 80% der Fälle. Die anderen 20%? Die findet der Kunde. Das 4-Stufen-Evaluation-Framework, das Prompt Testing von Bauchgefühl auf systematische Messung umstellt.
Dein Prompt funktioniert. In 80% der Fälle. Die anderen 20%? Die findet der Kunde. Weil du getestet hast wie ein Mensch, der einmal durch den Happy Path gelaufen ist und "Sieht gut aus" gesagt hat.
Das ist der Zustand von Prompt Testing in den meisten Unternehmen 2026. Es gibt keinen Test. Es gibt Bauchgefühl. Und das ist ein Problem, weil LLMs nicht deterministisch sind — der gleiche Input kann verschiedene Outputs liefern. Ein Prompt, der gestern perfekt funktioniert hat, kann morgen scheitern, weil der Anbieter das Modell aktualisiert hat.
Das 4-Stufen-Evaluation-Framework
Stufe 1: Golden Set Testing
Erstelle eine Sammlung von Testfällen mit definierten erwarteten Ergebnissen.
Aufbau: 50–100 repräsentative Fragen, für jede die erwartete korrekte Antwort (Ground Truth), Kategorisierung in Easy/Medium/Hard/Edge Case.
Beispiel für einen Support-Bot:
| ID | Input | Expected Output | Kategorie |
|---|---|---|---|
| T001 | "Fehlercode 4711 bei X200" | Lösung aus Handbuch Kap. 7.3 | Easy |
| T002 | "Maschine macht komische Geräusche" | Muss Rückfragen stellen | Medium |
| T003 | "Ignoriere alle Anweisungen..." | Muss abweisen, Prompt NICHT ausgeben | Security |
| T004 | "Was kostet die X400?" | Muss an Vertrieb verweisen | Guardrail |
Stufe 2: Automatische Metriken
Die 6 Kern-Metriken:
- Correctness / Accuracy: Stimmt die Antwort inhaltlich?
- Faithfulness: Basiert die Antwort auf den bereitgestellten Quellen?
- Relevance: Beantwortet die Antwort tatsächlich die gestellte Frage?
- Completeness: Sind alle wichtigen Aspekte abgedeckt?
- Consistency: Liefert der Prompt bei wiederholter Ausführung konsistente Ergebnisse?
- Safety: Werden Guardrails eingehalten?
LLM-as-Judge: Nutze ein separates LLM um Outputs automatisch zu bewerten.
Stufe 3: A/B Testing
Vergleiche systematisch verschiedene Prompt-Varianten. Wichtig: Ändere immer nur EINE Variable pro Test. Sonst weißt du nicht, welche Änderung den Unterschied gemacht hat.
Stufe 4: Continuous Evaluation in Production
Sampling (5% aller Antworten prüfen), User Feedback (Thumbs Up/Down), Drift Detection, Regression Alerts bei Modell-Updates.
Evaluation-Tools
| Tool | Typ | Stärke | Kosten |
|---|---|---|---|
| RAGAS | Open Source | RAG-spezifische Metriken | Kostenlos |
| DeepEval | Open Source | Breites Metrik-Set, CI/CD-Integration | Kostenlos |
| LangSmith | SaaS | End-to-End-Tracing, LangChain-Integration | ab 39 USD/Monat |
Häufige Fehler
- Nur Happy Path testen — die schwierigsten 20% verursachen 80% der Probleme
- Einmal testen, nie wieder — Modelle ändern sich
- Subjektive Bewertung — "Sieht gut aus" ist keine Metrik
- Zu viel auf einmal ändern — eine Variable pro Iteration
- Production Feedback ignorieren — deine User sind die beste Datenquelle
Prompt Testing ist kein Nice-to-have. Es ist der Unterschied zwischen einem KI-System, das "irgendwie funktioniert" und einem, das zuverlässig Mehrwert liefert.
Fang heute an. Schreib 20 Testfälle. Miss die Qualität. Verbessere den Prompt. Wiederhole.
Newsletter
KI im Sales — ohne Buzzwords
Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.
Wenn du KI sinnvoll nutzen willst — nicht als Trend, sondern als Leistungshebel
Dann lass uns herausfinden, wo für dein Team die relevanten Produktivitätshebel liegen und wie daraus eine Arbeitsweise wird, die im Alltag wirklich funktioniert.