Fortgeschritten
Software Factory aufbauen
Vom einzelnen Agent zur reproduzierbaren Pipeline
Du baust nicht Software, du baust die Pipeline
Eine Software Factory ist kein Tool, sondern ein Mindset-Shift: Statt jedes Feature einzeln mit Claude zu bauen, baust du das System, das deine Features baut. Specs, Konventionen, Rollen und Feedback-Loops werden zur eigentlichen Arbeit.
Du bist nicht mehr Coder, du bist Team Lead
Der eigentliche Rollenwechsel: Statt jeden Schritt selbst zu tippen, definierst du Rollen, Übergaben und Qualitätskriterien – und lässt mehrere spezialisierte Agents gemeinsam ein Feature von der Idee bis zum Pull Request bringen. Du gibst Richtung vor, du kontrollierst Qualität, aber du sitzt nicht mehr im Maschinenraum.
Tipp
Die sechs Reifestufen
Stufe 0 ist der Allzweck-Agent – der Ausgangspunkt, mit dem die meisten anfangen. Die sechs Stufen darüber baust du additiv ein, jede löst ein konkretes Problem der vorigen.
| Stufe | Was kommt dazu | Welches Problem es löst |
|---|---|---|
| 1 | CLAUDE.md als Verfassung | Konventionen werden vergessen |
| 2 | Slash Commands | Workflows werden ad-hoc improvisiert |
| 3 | Hooks als Sicherheitsnetz | Agent vergisst Linter / Format |
| 4 | Spezialisierte Subagents | Allzweck-Agent driftet |
| 5 | Pipeline-Orchestrierung | Phasen müssen manuell verkettet werden |
| 6 | Plan-First + Compliance-Gate | Agent halluziniert Fertigstellung |
Stufe 0: Der Allzweck-Agent
So fangen die meisten an: Eine Claude-Session, die alles macht – planen, coden, testen, committen. Das funktioniert für kleine Tasks, aber ab einer gewissen Komplexität wird es brüchig:
- Conventions werden vergessen, sobald der Context voll ist
- Der Code-Stil driftet zwischen Files
- Tests werden vergessen oder nur halb geschrieben
- Du kannst denselben Workflow morgen nicht reproduzieren
Stufe 0 ist nicht falsch – sie ist der Ausgangspunkt. Aber sie ist nicht das Ziel.
Stufe 1: CLAUDE.md als Verfassung
Die erste Investition ist ein hartes, schriftliches Regelwerk. Nicht nur Tech-Stack, sondern auch Golden Rules – die Prinzipien, an denen jeder Output gemessen wird.
## Golden Rules
- Minimale Diffs, einfach > clever
- Existierenden Patterns folgen, nicht neue erfinden
- Jede Code-Änderung braucht Tests
- Kein neuer Code ohne Plan
Diese Datei ist keine Doku – sie ist die Verfassung des Projekts. Jeder Subagent, den du später spawnst, wird sie als ersten Kontext lesen.
Wann erweitern: Sobald du merkst, dass du dieselben Anweisungen mehrfach pro Woche in den Prompt tippst.
Stufe 2: Slash Commands für wiederkehrende Schritte
Commands sind Markdown-Dateien in .claude/commands/, die als Slash-Befehle verfügbar werden.
Sie machen Workflows explizit und reproduzierbar:
/commit– analysiert Diff, schreibt Conventional-Commit-Message/test– mappt geänderte Files auf ihre Specs, läuft sie/review– Diff-Review gegen eine Checkliste/pr– Push, PR-Beschreibung,gh pr create
Jeder Command ist ein Prompt-Template, kein eigenständiger Agent. Aber du machst aus „dem üblichen Prozess" einen einzigen Befehl – der morgen, übermorgen und in sechs Wochen identisch läuft.
Wann erweitern: Wenn ein Command mehrere Tools braucht und seine Arbeit nicht in einen einzigen Prompt passt.
Stufe 3: Hooks als Sicherheitsnetz
Commands und Skills sind Vorschläge – Claude kann sie ignorieren oder vergessen. Hooks sind anders: sie laufen deterministisch, vom Harness erzwungen, ohne Claudes Zustimmung.
// .claude/settings.json { "hooks": { "PostToolUse": [{ "matcher": "Edit|Write", "hooks": [{ "type": "command", "command": "bin/rubocop -A" }] }] } }
Damit ist Auto-Formatierung garantiert. Style-Diskussionen mit dem Agent entfallen komplett. Hooks sind das Werkzeug für Regeln, die du nicht der Wahrscheinlichkeit eines Sprachmodells überlassen willst.
Wann erweitern: Wenn ein einzelner Allround-Agent zu generisch für die anstehenden Aufgaben wird.
Stufe 4: Spezialisierte Subagents
Hier passiert der eigentliche Mindset-Shift. Statt einem Allzweck-Agent definierst du Rollen:
| Rolle | Job | Tool-Zugang |
|---|---|---|
| Planner | Liest Issue, exploriert Codebase, schreibt Plan | Read, Grep – kein Edit |
| Developer | Implementiert nach Plan, inkrementell | Voller Zugang |
| Tester | Mappt Files auf Specs, läuft sie, screenshottet UI | Bash, Read |
| Reviewer | Diff prüfen, Plan-Compliance verifizieren | Read, Edit zum Fixen |
Der Trick: Tool-Beschränkung als harte Garantie. Ein Planner ohne Edit-Access kann gar nicht implementieren, selbst wenn er „würde wollen". Das ist stärker als jede Anweisung im Prompt.
Jeder Subagent läuft in eigenem Context – das hat den Nebeneffekt, dass dein Hauptcontext sauber bleibt.
Wann erweitern: Wenn die Übergaben zwischen den Rollen so vorhersehbar sind, dass sich eine feste Abfolge lohnt.
Stufe 5: Pipeline-Orchestrierung
Jetzt verkabelst du die Rollen zu einer Pipeline. Ein einziger „Team Lead"-Befehl
(z.B. /ship 42) ruft die Phasen in fester Reihenfolge auf:
/ship 42
↓
[Phase 1] Planner (Opus) → Plan
↓
[Phase 2] Developer (Opus) → Implementation
↓
[Phase 3] Tester ║ Reviewer ← parallel, ein Tool-Call
(Sonnet) (Sonnet)
↓
[Phase 4] Team Lead → Commit + PR
Zwei Optimierungen, die schnell Wirkung zeigen:
- Parallelisierung: Tester und Reviewer arbeiten an demselben Diff, müssen also nicht warten. Spawn beide in einem Tool-Call.
- Modell-Tiering: Opus für kreative Aufgaben (Planning, Implementation), Sonnet für mechanische Verifikation. Spart Token, beschleunigt die Pipeline.
Wann erweitern: Wenn die Pipeline stabil läuft und du das nächste Qualitätsproblem angehen willst: Agents, die behaupten, fertig zu sein.
Stufe 6: Plan-First und Compliance-Gate
Das letzte Problem, das auch eine geölte Pipeline noch hat: halluzinierte Fertigstellung. Der Developer meldet „done", aber drei Acceptance Criteria sind verschwunden, und niemand merkt es.
Die Lösung ist ein hartes Gate:
- Der Planner schreibt einen Plan mit expliziten Acceptance Criteria
- Im Interactive-Modus bestätigst du den Plan, bevor der Developer loslegt
- Der Reviewer hat einen Plan-Compliance-Mode: er prüft jedes Criterion einzeln gegen den Diff
- Bei Abweichung geht der Task zurück zum Developer – maximal zwei Runden, dann eskaliert die Pipeline
Tipp
Ausblick: Adversarial Agents und Scenario Testing
Die Frontier sieht so aus: konkurrierende Agent-Teams (Builder vs. Bug-Finder), End-to-End-Scenarios statt klassischer Test-Suites, und „Digital Twins" von Drittsystemen für unbegrenztes Testen. StrongDMs Setup ist das prominenteste Beispiel.
Für die meisten Projekte ist das aktuell Overkill. Aber es zeigt die Richtung: Qualitätssicherung wird selbst zu einer Pipeline aus Agents, nicht zu einem manuellen Schritt am Ende.
Wo solltest du anfangen?
Eine ehrliche Empfehlung:
| Wenn du … | Reicht meistens |
|---|---|
| … an einem Solo-Side-Projekt arbeitest | Stufe 1–2 |
| … ein Projekt mit klaren Konventionen pflegst | Stufe 1–3 |
| … mehrere Features pro Woche durchschiebst | Stufe 1–5 |
| … ein Team von Agents brauchst, weil die Komplexität es verlangt | Stufe 1–6 |
Wichtig
Zusammenfassung
- Software Factory ist Mindset, nicht Tool – du baust die Pipeline, nicht das Feature
- Sechs Stufen, additiv – CLAUDE.md → Commands → Hooks → Subagents → Pipeline → Compliance-Gate
- Tool-Beschränkung als harte Garantie – Planner ohne Edit-Access kann nicht implementieren
- Plan-Compliance gegen Halluzinationen – jedes Acceptance-Criterion einzeln verifiziert
- Hooks für deterministische Regeln – was nicht am LLM-Glück hängen darf