Clear Sky Science · de

Groß angelegte Modellierung zur Vorhersage des Wohnungszustands mit Algorithmen des maschinellen Lernens

2026-03-11 · Zurück zur Übersicht

Warum der Zustand unserer Wohnungen wichtig ist

Ob ein Zuhause sicher, trocken und komfortabel ist, beeinflusst alles von der Gesundheit eines Kindes bis zur finanziellen Stabilität einer Familie. Während wir jedoch Hauspreise bis auf Straßenniveau verfolgen, fehlt oft ein ebenso detailliertes Bild der tatsächlichen Wohnqualität. Diese Studie schließt diese Lücke, indem sie moderne Computermethoden nutzt, um den Zustand nahezu jeder Wohneinheit in den Vereinigten Staaten zu schätzen und Karten erstellt, die zeigen, wo Wohnungen gut geeignet sind und wo sie Bewohnern Risiken aussetzen können.

Von Hauspreisen zur Wohnqualität

Forschende modellieren schon lange, wie viel Häuser wert sind, doch über die Bewohnbarkeit dieser Häuser weiß man deutlich weniger. Bestehende nationale Erhebungen liefern meist nur grobe Momentaufnahmen, oft auf Ebene ganzer Bundesstaaten oder Metropolregionen, und viele staatliche Datensätze konzentrieren sich eher auf Erschwinglichkeit oder Überbelegung als auf den physischen Zustand von Gebäuden. Da lokale Stellen Wohnungsbestände unterschiedlich erfassen und bewerten, gab es bisher keinen einheitlichen, detaillierten Überblick über Wohnungszustände im ganzen Land. Diese Lücke erschwert es Planenden, Gesundheitsbehörden und Gemeinschaften, zu erkennen, wo minderwertiger Wohnraum Risiken wie Schimmel, Lecks, extreme Innentemperaturen oder unsichere Bauwerke konzentrieren könnte.

Big Data in die Nachbarschaft bringen

Um diese Lücke zu schließen, kombinierten die Autorinnen und Autoren zwei große Datenquellen. Die erste ist eine landesweite Immobiliendatenbank mit über 111 Millionen Wohneinheiten, einschließlich Angaben wie Anzahl der Schlafzimmer und Badezimmer, Baujahr und Renovierungsjahr, Dach- und Außenmaterialien, Heizungssystem, Parkmöglichkeiten, Steuern und—sofern verfügbar—eine sechsstufige Bewertung des Gebäudezustands von „mangelhaft“ bis „ausgezeichnet“. Die zweite Quelle sind US-Census- und verwandte Nachbarschaftsdaten, die lokale Einkommensniveaus, Hauswerte, den Anteil von Eigentümern und mobilen Wohnungen, Bevölkerungsdichte, Armut sowie den urbanen oder ländlichen Charakter eines Gebiets beschreiben. Durch die räumliche Zuordnung jeder Immobilie zu ihrer umgebenden Census-Trakt- oder Blockgruppenebene entstand ein einheitlicher Datensatz, der Gebäudeeigenschaften mit dem sozialen und wirtschaftlichen Umfeld jedes Hauses verknüpft.

Maschinen beibringen, Wohnqualität zu erkennen

Etwa die Hälfte der Einträge in der Datenbank hatte keine offizielle Zustandsbewertung. Die Forschenden trainierten drei fortgeschrittene Modelle des maschinellen Lernens—CatBoost, LightGBM und XGBoost—an den Häusern mit vorhandenen Bewertungen und ließen die Algorithmen lernen, wie Kombinationen aus Objekt- und Nachbarschaftsmerkmalen mit dem Wohnungszustand zusammenhängen. Sie bereinigten die Daten sorgfältig, gingen mit Ausreißern und fehlenden Werten um und nutzten einen Hochleistungsrechner mit leistungsfähigen Grafikprozessoren, um effizient nach den besten Modelleinstellungen zu suchen. Um zu vermeiden, dass die Modelle die Trainingsdaten nur „auswendig lernen“, arbeiteten sie mit balancierter Genauigkeit und Kreuzvalidierung und stimmten dann das Siegermodell weiter ab, sodass seine geschätzten Wahrscheinlichkeiten den realen Ergebnissen möglichst genau entsprachen.

Vorhersagen in nützliche Karten verwandeln

Sobald das leistungsstärkste Modell (CatBoost) ausgewählt war, wurde es verwendet, um Zustandsbewertungen für die Millionen von Häusern mit fehlenden Angaben vorherzusagen. Die Kategorie jedes Hauses wurde in einen numerischen Wert von eins (am schlechtesten) bis sechs (am besten) übersetzt. Um die Privatsphäre zu schützen und Muster leichter erkennbar zu machen, mittelten die Forschenden diese Werte anschließend über drei Gebietstypen: Census-Tracts, ZIP-Code-Tabulationsbereiche und ein regelmäßiges Raster aus Hexagonen von etwa 36 Quadratkilometern Größe, das das gesamte Land überdeckt. Das Ergebnis sind nationale Karten, die breite Landschaften der Wohnqualität offenbaren und zugleich detailliert genug sind, um lokale Analysen zu unterstützen. Das Team prüfte außerdem die Modellleistung mit mehreren statistischen Tests und stellte trotz der Größe und Komplexität der Aufgabe eine moderate, aber aussagekräftige Übereinstimmung fest.

Was bessere oder schlechtere Wohnungen antreibt

Durch die Untersuchung, welche Eingaben für das Modell am wichtigsten waren, liefert die Studie Hinweise darauf, was den Wohnungszustand bestimmt. Merkmalen auf Objektebene kam die größte Bedeutung zu: geschätzte Steuerhöhe, Außenverkleidung, Dachtyp, Heizungssystem sowie das Alter und die Renovierungsgeschichte eines Hauses waren besonders einflussreich. Nachbarschaftsfaktoren wie Armutsraten, Bevölkerungsdichte und der Anteil mobiler Häuser spielten eine kleinere, aber dennoch wichtige Rolle. Diese Ergebnisse fügen sich in breitere Forschung ein, die zeigt, dass einkommensschwächere Haushalte, Mieterinnen und Mieter sowie Communities of Color eher in minderwertigen Wohnungen leben—teils begünstigt durch ungleiche Kreditvergaben und ungleichmäßige Durchsetzung von Wohnstandards.

Ein neues Werkzeug für sichereren, gerechteren Wohnraum

Vereinfacht gesagt nutzt diese Arbeit Muster in bestehenden Aufzeichnungen, um die fehlenden Teile eines nationalen Puzzles zur Wohnqualität zu ergänzen. Die resultierenden öffentlich zugänglichen Karten und Datensätze geben Planenden, Gesundheitsbehörden und Gemeinschaftsgruppen ein mächtiges neues Instrument an die Hand, um zu erkennen, wo Wohnungen Bewohner gefährden könnten und wo Investitionen den größten Nutzen bringen könnten. Zwar ist kein Modell perfekt, besonders bei ungleichmäßigen Ausgangsdaten, doch dieser großflächige Ansatz ist ein bedeutender Schritt hin zum Verständnis und letztlich zur Verbesserung der Alltagsumgebungen, die Menschen ihr Zuhause nennen.

Zitation: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Schlüsselwörter: Wohnqualität, maschinelles Lernen, räumliche Daten, öffentliche Gesundheit, Stadtplanung