Clear Sky Science · de
Unsicherheitsbewusste und erklärbare Vorhersage von Baukosten mittels eines hybriden probabilistischen Lernmodells
Warum der Preis eines Gebäudes wichtig ist, bevor es gebaut wird
Bevor die erste Schaufel in die Erde geht, müssen Eigentümer und Bauunternehmer schätzen, wie viel ein Projekt tatsächlich kosten wird. Liegt diese Schätzung falsch, platzen Budgets, Zeitpläne verschieben sich und das Vertrauen zwischen den Partnern leidet. In diesem Papier wird ein neuer Ansatz zur Vorhersage von Baukosten vorgestellt, der nicht nur auf Genauigkeit abzielt, sondern auch angibt, wie sicher die Prognose ist und warum das Modell ein Projekt für teuer oder billig hält. Gerade die Kombination aus Genauigkeit, Ehrlichkeit gegenüber Unsicherheit und klare Erklärungen macht diese Arbeit für alle wichtig, die wissen möchten, wie Daten und künstliche Intelligenz große Projekte weniger riskant machen können.

Die Schwächen traditioneller Kostenschätzungen
Jahrzehntelang wurden Baukosten mit Expertenurteil und einfachen statistischen Methoden geschätzt. Diese Verfahren stützen sich stark auf vergangene Projekte und menschliche Erfahrung. Sie sind leicht nachvollziehbar, haben aber Schwierigkeiten, wenn Projekte komplexer werden, Märkte volatil sind oder viele Faktoren auf verschachtelte Weise zusammenwirken. Klassische statistische Werkzeuge gehen von linearen Zusammenhängen zwischen Eingaben und Kosten aus, obwohl reale Projekte durch Sprünge bei Materialpreisen, Designentscheidungen, Baugrundverhältnisse und veränderte Arbeitsmärkte beeinflusst werden. Viele neuere Machine‑Learning‑Modelle können diese unordentlichen Muster erfassen, agieren jedoch oft als Blackbox und liefern typischerweise nur einen einzelnen besten Schätzwert, ohne anzugeben, wie groß der Fehler dieser Schätzung sein könnte.
Ein neues hybrides Modell für intelligentere Prognosen
Die Autoren schlagen ein hybrides Lernsystem namens NGBoost‑ETR vor, das versucht, drei Probleme gleichzeitig anzugehen: Genauigkeit, Unsicherheit und Transparenz. Im Kern steht eine Technik namens Natural Gradient Boosting (NGBoost), die darauf ausgelegt ist, nicht nur eine Kostenschätzung auszugeben, sondern eine gesamte Wahrscheinlichkeitsverteilung um diese Schätzung herum. Anstatt zu sagen: „Die Platte kostet 17 Dollar pro Quadratfuß“, gibt das Modell effektiv an: „17 ist der wahrscheinlichste Wert, aber so viel höher oder niedriger könnte er realistisch liegen.“ Um NGBoost für Baudaten leistungsfähiger zu machen, ersetzen die Autoren die üblichen einfachen Bäume durch einen stärkeren baumbasierten Lerner namens Extra Trees Regression, der besonders gut nichtlineare Beziehungen zwischen Eingaben wie Plattentyp, Fläche, Lasten und Materialeinzelpreisen erfassen kann.
Wie das Modell in der Praxis getestet wurde
Um zu prüfen, ob der Ansatz in der Praxis funktioniert, trainierten und testeten die Forschenden ihr Modell anhand von 4.477 realen Einträgen aus RSMeans, einer in den USA weit verbreiteten Kostendatenbank für Bauteile. Jeder Datensatz beschreibt eine strukturelle Bodenplatte—etwa Einwegscheiben, Flachdecken oder Waffeldecken—zusammen mit ihrer Fläche, erwarteten Lasten und dem Einheitspreis für Beton und Schalung. Die Leistung des Modells wurde mit 10 populären Machine‑Learning‑Methoden und 9 weiteren NGBoost‑Hybriden verglichen. Standardmäßige Genauigkeitsmaße zeigten, dass NGBoost‑ETR einige der besten Punktschätzungen lieferte, mit sehr kleinen durchschnittlichen Fehlern bei bisher ungesehenen Daten. Ebenso wichtig bewertete das Team, wie gut die vorhergesagten Bereiche der Realität entsprachen, mithilfe einer Suite von sechs Unsicherheitsmetriken, die sowohl beurteilen, wie oft die tatsächlichen Kosten innerhalb des prognostizierten Bereichs liegen, als auch wie eng dieser Bereich ist.

Erkennen, welche Faktoren die Kosten antreiben
Da Entscheidungsträger zögern, einer Blackbox zu vertrauen, integrieren die Autoren Erklärbarkeit in ihr Design mithilfe von SHAP, einer modernen Technik, die jedem Eingabewert für jede Vorhersage einen Beitragswert zuordnet. Das ermöglicht Anwendern zu sehen, wie stark etwa hohe Schalungspreise, ein bestimmter Plattentyp oder eine große tributäre Fläche eine Prognose für ein einzelnes Projekt nach oben oder unten gedrückt haben. Im Datensatz erweist sich die Schalungskosten als der einzelner Einflussfaktor mit der größten Wirkung auf die Gesamtkosten, gefolgt von Plattentyp und Fläche. Indem diese Erklärungen direkt mit der zentralen Kostenschätzung des Modells verknüpft werden, können Praktiker prüfen, ob die Vorhersagen mit ihrem Fachwissen übereinstimmen und entsprechend Entwürfe oder Verhandlungen anpassen.
Was das für zukünftige Projekte bedeutet
Insgesamt liefert das NGBoost‑ETR‑Framework hochgenaue Kostenvorhersagen, relativ enge, aber gut kalibrierte Unsicherheitsbereiche und klare Einsichten darin, welche Variablen am wichtigsten sind. Einige konkurrierende Modelle erreichten zwar eine etwas höhere Abdeckung der tatsächlichen Kosten, taten dies jedoch nur, indem sie unrealistisch breite Bereiche vorhersagten, die praktisch kaum nützlich sind. Das neue Modell findet stattdessen ein Gleichgewicht: Es kann die exakten Kosten etwas seltener treffen als eine extrem konservative Methode, doch wenn es einen Bereich liefert, ist dieser kompakt genug, um reale Budgetierung, Ausschreibungen und Risikoplanung zu unterstützen. Für Laien lautet die zentrale Erkenntnis: Diese Forschung verschiebt die Kostenvorhersage im Bauwesen von fundierten Schätzungen hin zu einer ehrlicheren, datengetriebenen „Wettervorhersage" für Projektbudgets—eine Vorhersage, die nicht nur sagt, was wahrscheinlich passieren wird, sondern auch, wie sicher diese Aussage ist.
Zitation: Chen, L., Khalid, O.W., Tiang, JJ. et al. Uncertainty aware and explainable construction cost prediction using a hybrid probabilistic learning model. Sci Rep 16, 10973 (2026). https://doi.org/10.1038/s41598-026-44904-8
Schlüsselwörter: Kostenvorhersage im Bauwesen, probabilistisches maschinelles Lernen, Projekt-Risikomanagement, erklärbare KI, Infrastrukturplanung