Rogue Iteration Studio
Zurück zu Insights
agentsevaluationproduction
15. Januar 2024

Agents brauchen Evals, nicht Vibes

Die meisten Agent-Demos funktionieren, weil der Mensch still für den Agenten kompensiert. In Production ist niemand da, um das Modell zu korrigieren. So bauen Sie Agents, die die Realität überleben.

Die unbequeme Wahrheit

Die meisten Agent-Demos funktionieren, weil der Mensch still für den Agenten kompensiert.

In Production ist niemand da, um das Modell zu „nudgen", einen Prompt während der Ausführung umzuschreiben oder einen Fehlerfall zu ignorieren. Wenn Sie Agents wollen, die den Kontakt mit der Realität überleben, brauchen Sie Evaluationen, die:

  • **Wiederholbar** sind — gleiche Eingaben, gleiche Bewertungskriterien
  • **Repräsentativ** sind — Szenarien, die der echten Nutzung entsprechen
  • **Automatisiert** sind — kein Mensch in der Bewertungsschleife
  • **An Geschäftsergebnisse geknüpft** sind — nicht nur „hat es funktioniert?", sondern „hat es gut genug funktioniert?"
  • Die minimale Eval-Infrastruktur

    Sie brauchen kein Forschungslabor. Sie brauchen fünf Dinge:

    1. **Eine Task-Spezifikation** — strikter Input/Output-Vertrag

    2. **Ein Datensatz mit Szenarien** — 30–100 realitätsnahe Fälle

    3. **Eine Bewertungsrubrik** — pass/fail wo möglich

    4. **Instrumentierung** — Schritte, Tool-Aufrufe, Latenz, Token-Kosten, Fehlermodi tracen

    5. **Ein Gate in CI** — wenn Eval fehlschlägt, wird nicht deployed

    Das ist alles. Starten Sie dort. Sophistication kann später kommen.

    Was Sie messen sollten

    Tracken Sie diese Metriken von Tag eins:

    Metrik
    Beschreibung

    --------
    --------------

    Erfolgsrate
    % der korrekt abgeschlossenen Tasks

    Tool-Korrektheit
    Hat der Agent die richtigen Tools mit validen Argumenten aufgerufen?

    Sicherheits-Constraints
    Hat er Grenzen respektiert und verbotene Aktionen vermieden?

    Latenz (p50/p95)
    Wie lange dauert End-to-End?

    Kosten (Tokens/Modell/Retries)
    Was kostet ein Request?

    Regression
    Hat diese Änderung etwas kaputt gemacht, das vorher funktionierte?

    Eine praktische Bewertungsrubrik

    Für jedes Szenario, bewerten Sie auf vier Dimensionen:

    Ergebnis: korrekt / teilweise / inkorrekt Policy: sicher / unsicher Effizienz: im Budget / über Budget Erklärbarkeit: Trace lesbar / Trace Chaos

    Wenn Sie nicht alle vier bewerten können, starten Sie mit Ergebnis + Policy. Das allein fängt die meisten Production-Fehler ab.

    Der Weg nach vorn

    Wenn Sie einen agentischen Workflow haben, der wichtig ist, kann ich eine production-reife v1 mit Eval-Harness in 1–3 Wochen bauen. Das Lieferergebnis umfasst:

  • Funktionierender Agent mit typisierten Tools
  • Eval-Suite (30–100 Golden Scenarios)
  • CI-Gate, das schlechte Deploys blockiert
  • Observability Dashboard für laufendes Monitoring
  • Gespräch vereinbaren, um Ihren spezifischen Workflow zu besprechen.

    Möchten Sie dieses Thema besprechen?

    Ich spreche gerne darüber, wie diese Ideen auf Ihre spezifische Situation anwendbar sind.

    20-min Gespräch buchen