Agents brauchen Evals, nicht Vibes
Die meisten Agent-Demos funktionieren, weil der Mensch still für den Agenten kompensiert. In Production ist niemand da, um das Modell zu korrigieren. So bauen Sie Agents, die die Realität überleben.
Die unbequeme Wahrheit
Die meisten Agent-Demos funktionieren, weil der Mensch still für den Agenten kompensiert.
In Production ist niemand da, um das Modell zu „nudgen", einen Prompt während der Ausführung umzuschreiben oder einen Fehlerfall zu ignorieren. Wenn Sie Agents wollen, die den Kontakt mit der Realität überleben, brauchen Sie Evaluationen, die:
Die minimale Eval-Infrastruktur
Sie brauchen kein Forschungslabor. Sie brauchen fünf Dinge:
1. **Eine Task-Spezifikation** — strikter Input/Output-Vertrag
2. **Ein Datensatz mit Szenarien** — 30–100 realitätsnahe Fälle
3. **Eine Bewertungsrubrik** — pass/fail wo möglich
4. **Instrumentierung** — Schritte, Tool-Aufrufe, Latenz, Token-Kosten, Fehlermodi tracen
5. **Ein Gate in CI** — wenn Eval fehlschlägt, wird nicht deployed
Das ist alles. Starten Sie dort. Sophistication kann später kommen.
Was Sie messen sollten
Tracken Sie diese Metriken von Tag eins:
Eine praktische Bewertungsrubrik
Für jedes Szenario, bewerten Sie auf vier Dimensionen:
Ergebnis: korrekt / teilweise / inkorrekt Policy: sicher / unsicher Effizienz: im Budget / über Budget Erklärbarkeit: Trace lesbar / Trace ChaosWenn Sie nicht alle vier bewerten können, starten Sie mit Ergebnis + Policy. Das allein fängt die meisten Production-Fehler ab.
Der Weg nach vorn
Wenn Sie einen agentischen Workflow haben, der wichtig ist, kann ich eine production-reife v1 mit Eval-Harness in 1–3 Wochen bauen. Das Lieferergebnis umfasst:
Gespräch vereinbaren, um Ihren spezifischen Workflow zu besprechen.
Möchten Sie dieses Thema besprechen?
Ich spreche gerne darüber, wie diese Ideen auf Ihre spezifische Situation anwendbar sind.
20-min Gespräch buchen