Fine-tune, RAG oder Prompt? Ein gnadenloser Entscheidungsrahmen

Günstig anfangen

Die Reihenfolge von Komplexität (und Kosten) ist:

1. **Prompting** — schnell, günstig, flexibel

2. **RAG (Retrieval-Augmented Generation)** — fügt Wissen ohne Retraining hinzu

3. **Fine-tuning** — tiefere Verhaltensänderung, mehr Wartung

Die meisten Teams springen zu früh zum Fine-tuning. Es ist teuer, braucht gelabelte Daten und erzeugt Wartungsaufwand. Fine-tunen Sie nur, wenn günstigere Optionen versagen—und Sie es mit Evals beweisen können.

Der Entscheidungsbaum

Problem: Fehlendes Wissen

Das Modell kennt keine Fakten, die spezifisch für Ihre Domain sind.

Lösung: RAG

Relevanten Kontext zur Laufzeit abrufen und in den Prompt injizieren. Kein Retraining nötig. Wissen kann aktualisiert werden, ohne das Modell anzufassen.

Problem: Fehlende Format-Disziplin

Die Model-Outputs sind inkonsistent, unstrukturiert oder folgen nicht Ihrem Schema.

Lösung: Prompt + Validation zuerst

JSON-Modus, Function Calling oder Structured-Output-APIs verwenden. Validation und Retry-Logik hinzufügen. Die meisten Format-Probleme werden durch besseres Prompting und Post-Processing gelöst.

Problem: Fehlendes stabiles Verhalten oder Stil

Der Ton, das Reasoning-Muster oder die Entscheidungsfindung des Modells ist inkonsistent, selbst mit guten Prompts.

Lösung: Fine-tuning in Betracht ziehen—wenn Sie die Daten haben

Fine-tuning kann konsistentes Verhalten einprägen, aber nur wenn:

Sie gelabelte Beispiele korrekten Verhaltens haben (Hunderte bis Tausende)

Sie Evals haben, die beweisen, dass das Fine-tune besser ist als Prompting

Sie auf laufende Wartung vorbereitet sind (Modelle driften, Fine-tunes brauchen Updates)

Die versteckten Kosten des Fine-tunings

Fine-tunes driften. Base-Modelle werden aktualisiert. Ihre Trainingsdaten werden veraltet. Wenn Sie sich nicht committen können zu:

Regelmäßiger Evaluation gegen ein Golden Set

Periodischer Retraining-Kadenz

A/B-Testing von Fine-tuned vs. Base-Modellen

...dann fine-tunen Sie noch nicht. Die Wartungslast wird Ihre Produktivität auffressen.

Die Checkliste

Vor dem Fine-tuning, beantworten Sie diese Fragen:

[ ] Habe ich besseres Prompting mit Structured Outputs versucht?

[ ] Habe ich RAG für fehlendes Wissen hinzugefügt?

[ ] Habe ich 500+ gelabelte Beispiele korrekten Verhaltens?

[ ] Habe ich Evals, die die Lücke zwischen Ist und Soll quantifizieren?

[ ] Bin ich auf laufende Wartung und Retraining vorbereitet?

Wenn irgendeine Antwort „nein" ist, gehen Sie zurück und beheben Sie das zuerst.

Der Weg nach vorn

Wenn Sie Post-Training in Betracht ziehen, kann ich Ihnen helfen zu beweisen, ob es notwendig ist—und das Eval-Harness installieren, das es sicher macht.

Gespräch vereinbaren, um Ihren spezifischen Fall zu besprechen.