Quelle: https://unsplash.com/de/fotos/ywwuOBJy60c
Um einen Tisch sitzen Menschen, jeder mit einem kleinen Kartenset in der Hand. Eine Aufgabe wird vorgestellt, kurz diskutiert, dann wählen alle eine Karte mit einer Zahl darauf. Erst wenn alle bereit sind, wird gleichzeitig aufgedeckt – das ist Planning Poker.
Dort, wo die Schätzungen weit auseinanderliegen, entstehen Diskussionen, die nicht nur Missverständnisse auflösen, sondern das ganze Team näher zusammenbringen. Aber wie genau funktioniert das und warum könnten sogar LLMs helfen?
Wie Planning Poker funktioniert
Planning Poker ist im Kern einfach, gleichzeitig steckt viel Psychologie dahinter. Allerdings muss man nicht optimale Poker Anbieter durchforsten, um es auszuprobieren. Stattdessen handelt es sich um ein Konzept, das mit richtigem Poker, wie man es aus dem Internet kennt, wenig gemeinsam hat – mit der Ausnahme, dass bestimmte Spielkarten zum Einsatz kommen.
Das Spiel beginnt mit einer User Story oder Aufgabe, die der Product Owner vorstellt. Das Team kann Fragen stellen, offene Punkte klären und sich ein Bild von dem machen, was erledigt werden soll. Anschließend nimmt jedes Mitglied seine Karten zur Hand, die typischerweise Zahlen aus der modifizierten Fibonacci-Reihe zeigen: 1, 2, 3, 5, 8, 13, 20, 40 oder 100. Manche Teams nutzen auch T-Shirt-Größen wie XS bis XL, wenn es mehr um grobe Komplexität als um feine Unterschiede geht.
Jeder wählt eine Karte, hält sie verdeckt und legt sie dann gleichzeitig mit den anderen offen auf den Tisch. Diese Gleichzeitigkeit ist entscheidend. Es verhindert, dass eine Person den Ton setzt und die anderen unbewusst beeinflusst.
Kommt es zu stark unterschiedlichen Einschätzungen, liegt der Fokus nicht auf dem Mittelwert, sondern auf den Extremen. Wer hat 2 gewählt, wer 20? Die Diskussion dreht sich nun genau darum, warum diese Unterschiede existieren. Oft kommen an dieser Stelle verborgene Abhängigkeiten oder Annahmen ans Licht, die vorher niemand bedacht hatte.
Manchmal ist eine zweite oder dritte Runde nötig, bis sich das Team einigt. Der Prozess bleibt jedoch schlank, denn eine klare Timebox sorgt dafür, dass nicht endlos debattiert wird. Am Ende steht ein Wert, den das Team gemeinsam trägt. Und weil dabei alle Perspektiven eingeflossen sind, ist er meist deutlich robuster als jede Einzelmeinung.
Warum diese Schätzmethode so erfolgreich ist
Die Stärke von Planning Poker liegt nicht darin, dass die Karten besonders hübsch sind, sondern in den Effekten, die es auslöst. Menschen neigen dazu, sich an dem zu orientieren, was andere vorgeben.
Der erste Vorschlag in einer Runde kann wie ein Magnet wirken, der die restlichen Schätzungen verzerrt. Mit Planning Poker wird dieser Effekt umgangen, weil niemand weiß, was die anderen denken, bis die Karten gleichzeitig aufgedeckt werden.
Hinzu kommt, dass Diskussionen plötzlich dort entstehen, wo sie wirklich gebraucht werden. Wenn einer ein Ticket als klein und simpel ansieht, ein anderer jedoch gleich mehrere Risiken erkennt, entsteht ein Gespräch, das genau diese Unterschiede aufklärt. So verschwinden stille Wissensinseln, und es entwickelt sich ein gemeinsames Bild.
Nebenbei macht das Ganze auch mehr Spaß als klassische Zahlenrunden. Das Spielerische sorgt für Energie, selbst bei langwierigen Backlog-Refinements. Und weil es nie um absolute Genauigkeit geht, sondern nur um eine verlässliche relative Einschätzung, bleibt der Prozess effizient. Planung darf schließlich Zeit kosten, aber nicht so viel, dass das eigentliche Arbeiten darunter leidet.
Was Large Language Models in diesem Kontext leisten können
An dieser Stelle kommt ein neuer Akteur ins Spiel: Large Language Models. Modelle wie GPT oder Claude sind nicht dafür bekannt, selbst Software zu schreiben und dann Sprint um Sprint durchzuarbeiten, doch sie können im Umfeld von Planning Poker erstaunlich nützlich werden.
Zunächst einmal sind sie hervorragende Moderatoren. Ein Modell kann Diskussionen strukturieren, offene Fragen identifizieren und dafür sorgen, dass Argumente klarer auf den Tisch kommen.
Während ein Mensch den Überblick verliert, wenn mehrere Stimmen gleichzeitig reden, hat ein LLM keine Mühe damit, Notizen zu ordnen, Zusammenfassungen zu erstellen und den nächsten logischen Schritt vorzuschlagen.
Darüber hinaus können LLMs User Stories inhaltlich durchleuchten. Aus einem Text, der auf den ersten Blick simpel wirkt, lassen sich Akzeptanzkriterien, Abhängigkeiten oder technische Risiken herausziehen. Das Modell kann Hinweise geben, ob eine Aufgabe eher nach einem kleinen Schritt oder einem größeren Brocken aussieht. Damit entsteht ein Gesprächsaufhänger, der dem Team hilft, Unklarheiten zu beseitigen.
Welche Grenzen LLMs nicht überschreiten können
So reizvoll das klingt, Grenzen sind unübersehbar. Ein Modell kann zwar Muster erkennen, aber keine echten Projekterfahrungen sammeln. Es kennt keine Stolperfallen einer bestimmten Codebasis und hat nie selbst mit knappen Deadlines oder unvollständiger Dokumentation gearbeitet. Seine Vorschläge können also plausibel wirken, ohne wirklich fundiert zu sein.
Hinzu kommt die Gefahr, dass ein LLM durch seine Autorität Diskussionen verzerrt. Wenn ein Tool einen Wert ausspuckt, neigen Menschen dazu, ihn als Wahrheit zu sehen. Dabei ist gerade der Diskurs zwischen unterschiedlichen Einschätzungen der wertvollste Teil von Planning Poker. Wird er durch ein KI-Urteil abgekürzt, verliert die Methode ihre Kraft.
Auch das Problem der Halluzinationen bleibt. Sprachmodelle können Antworten erfinden, die gut klingen, aber keinerlei Substanz haben. In einem kreativen Brainstorming mag das inspirierend sein, in einem Planungsprozess kann es teuer werden. Deshalb sollten Ergebnisse eines LLM immer als Impuls verstanden werden, nie als Entscheidung.
Hybride Ansätze als Zukunftsperspektive
Die Lösung liegt daher nicht im Entweder-Oder, sondern im Sowohl-als-auch. Ein hybrider Ansatz verbindet die Verlässlichkeit klarer Logik mit der Flexibilität von Sprachmodellen.
Code übernimmt die harten Regeln: Wie läuft eine Session ab, welche Timebox gilt, wann wird erneut abgestimmt. Das sorgt für Wiederholbarkeit und verhindert Chaos. Das LLM hingegen übernimmt die sprachliche und inhaltliche Arbeit: User Stories analysieren, offene Fragen hervorheben und Diskussionen zusammenfassen. So bleibt der Prozess klar strukturiert, gleichzeitig aber reich an Input.
Ein möglicher Ablauf könnte so aussehen: Die Backlog-Items werden aus einem Tool wie Jira oder Linear importiert. Das LLM erstellt eine Liste offener Fragen, markiert potenzielle Risiken und schlägt eine passende Skala vor.
Während der eigentlichen Session achtet der Code auf die Timebox, das LLM fasst abweichende Schätzungen zusammen und stellt gezielt die Argumente gegenüber. Ein Konsens wird nicht durch Mittelwerte erzeugt, sondern durch erneute Diskussion der Unterschiede. Am Ende dokumentiert das System alles sauber und exportiert es zurück ins Projektmanagement-Tool.
Besonders interessant wird es, wenn LLMs verschiedene Entwicklerrollen gleichzeitig simulieren. So lassen sich Diskussionen anstoßen, die in der realen Runde vielleicht gar nicht aufkommen würden. Das Modell kann zum Beispiel den Blickwinkel eines QA-Ingenieurs hervorheben, auch wenn in der echten Sitzung gerade keiner anwesend ist.
Damit ein solcher hybrider Ansatz funktioniert, braucht es klare Regeln. Prompts und Anleitungen müssen so gestaltet sein, dass das Modell nicht als Entscheidungsträger wahrgenommen wird. Es ist nur Unterstützer, der Input liefert. Die Entscheidung bleibt im Allgemeinen beim Team.

