Clear Sky Science · de

Intelligente Verfahren für prädiktive Analytik in der agilen Softwareentwicklung

· Zurück zur Übersicht

Warum Vorhersagen zur Softwarearbeit wichtig sind

Wer schon einmal auf eine Fehlerbehebung oder eine neue Funktion gewartet hat, kennt die Frustration, nicht zu wissen, wann sie wirklich fertig sein wird. Im Hintergrund versuchen Teams zu erraten, wie lange jede Aufgabe dauert, was Fristen, Budgets und das Vertrauen der Kundschaft beeinflusst. Dieser Artikel untersucht, wie moderne datengetriebene Methoden solche Schätzungen in fundierte Prognosen verwandeln können und agilen Softwareteams helfen, ihre Arbeit in Tagen zu planen, statt sich auf vage „Story Points" zu verlassen.

Figure 1
Figure 1.

Von groben Schätzungen zu datenbasierten Vorhersagen

In vielen agilen Teams basieren Aufwandsschätzungen noch immer auf Gruppen­diskussionen, Planungsspielen oder den Einschätzungen erfahrener Entwickler. Diese Vorgehensweisen sind vertraut, aber subjektiv: Zwei Teams können für dieselbe Aufgabe stark unterschiedliche Schätzungen abgeben. Frühere Studien nutzten meist private oder kostenpflichtige Firmendaten oder konzentrierten sich auf spezielle Maße wie Story Points, die von Organisation zu Organisation unterschiedlich definiert sind. Das erschwert den Vergleich über Projekte hinweg und macht es Außenstehenden nahezu unmöglich, die Arbeiten zu reproduzieren oder weiterzuführen.

Ein neues offenes Fenster in die agile Arbeit

Um diese Barriere zu durchbrechen, stellen die Autoren AgES vor, einen neuen offenen Datensatz, der vollständig aus öffentlichen GitHub-Projekten mit agilen Praktiken aufgebaut ist. Anstelle unscharfer Story Points erfasst AgES die tatsächliche Zeit in Tagen zwischen dem Öffnen und dem Schließen eines Issues. Jedes von mehr als 35.000 Issues enthält reichhaltigen Kontext: wer es gemeldet hat, wer daran gearbeitet hat, wie viele Kommentare es erhielt und welche Labels und Komponenten (etwa Benutzeroberfläche, Backend oder Sicherheit) betroffen sind. Mithilfe von Textverarbeitung leitet das Team außerdem höherwertige Informationen ab, etwa ob es sich um einen Bug, eine Verbesserung oder eine neue Funktion handelt und wie erfahren die Beitragenden mit ähnlicher Arbeit sind.

Die Daten reinigen, damit Maschinen lernen können

Rohdaten aus realen Projekten sind unordentlich: Einige Issues sind noch offen, manche Felder fehlen, und viele Details liegen als Freitext vor. Die Forschenden entwerfen eine sorgfältige Pipeline zur Bereinigung und Transformation. Sie entfernen doppelte oder unvollständige Einträge, wandeln Textlabels und Kategorien in numerische Form um und berechnen neue Merkmale wie die Expertise von Beitragenden. Da die Zeit bis zur Lösung stark verzerrt ist—die meisten Issues werden schnell gelöst, während einige sehr lange dauern—wenden sie mathematische Transformationen und Skalierungen an, damit kein einzelner Faktor den Lernprozess dominiert. Das Ergebnis ist ein gestraffter, einheitlich formatierter Datensatz, den Computer nutzen können, um Zusammenhänge zwischen Issue-Eigenschaften und der benötigten Anzahl an Tagen zu erkennen.

Figure 2
Figure 2.

Mehrere intelligente Methoden im Vergleich

Mit den bereinigten AgES-Daten vergleichen die Autoren neun verschiedene Ansätze des maschinellen Lernens, von klassischen Entscheidungsbäumen und Random Forests bis hin zu Deep-Learning-Modellen wie rekurrenten und konvolutionalen Netzen. Jedes Modell wird mit dem Großteil der Daten trainiert und anschließend an ungesehenen Issues getestet; die Leistung wird daran gemessen, wie nah die Vorhersagen an den tatsächlichen Lösungszeiten liegen. Die Studie verwendet mehrere gängige Fehlermetriken, um sowohl typische Fehler als auch seltene, aber große Fehlprognosen zu erfassen. Außerdem werden AgES und die Modelle anhand von zwei bekannten agilen Datensätzen aus früherer Arbeit benchmarked, um zu zeigen, wie sich der neue Datensatz und die Modelle einordnen.

Was am besten funktionierte und warum das wichtig ist

Über alle Bewertungsmaße hinweg liefert eine Methode namens Extreme Gradient Boosting (XGBoost), die viele kleine Entscheidungsbäume kombiniert, durchgängig die genauesten Vorhersagen auf dem AgES‑Datensatz. Baum­basierte Verfahren wie XGBoost und Random Forests kommen mit realen tabellarischen Daten und fehlenden Werten gut zurecht und können nuancierte, nichtlineare Zusammenhänge abbilden—beispielsweise wie die Kombination aus Issue‑Typ, Komponente und Entwicklerexpertise die Durchlaufzeit beeinflusst. Wenn die gleichen Modellfamilien auf ältere Datensätze angewendet werden, erzielt AgES in Verbindung mit XGBoost geringere Fehler, was sowohl die Stärke der neuen Daten als auch die Eignung dieser Technik für Aufwandsschätzung in agilen Projekten unterstreicht.

Vom Forschungsmodell zum alltäglichen Werkzeug

Für Nichtfachleute ist die Kernaussage einfach: Indem Systeme aus Tausenden vergangener Issues lernen, können sie mit nützlicher Genauigkeit vorhersagen, wie lange neue Probleme dauern könnten—vor allem wenn sie reichhaltige, offene Daten aus realen Projekten nutzen. Das lässt sich in leichte Web‑Tools integrieren oder an bestehende Plattformen anbinden, sodass beim Erstellen eines Tickets sofort eine Prognose zur Zeit bis zur Lösung angeboten wird, basierend auf ähnlichen Fällen aus der Vergangenheit. Zwar weisen die Autoren darauf hin, dass die Ergebnisse in sehr großen oder geschlossenen Industriesettings abweichen können, doch zeigt ihre Arbeit einen praktischen Weg zu zuverlässigerer, transparenterer Planung in der agilen Softwareentwicklung—weg vom Bauchgefühl, hin zu evidenzbasierter Terminplanung.

Zitation: Shankar, S.P., Chaudhari, S.S., Mishra, V. et al. Intelligent techniques for predictive analytics in Agile software development. Sci Rep 16, 11195 (2026). https://doi.org/10.1038/s41598-026-41102-4

Schlüsselwörter: Agile Softwareentwicklung, Aufwandsschätzung, prädiktive Analytik, maschinelles Lernen, Projektplanung