Clear Sky Science · ru

Масштабное моделирование состояния жилья с помощью алгоритмов машинного обучения

· Назад к списку

Почему важно состояние наших домов

То, насколько дом безопасен, сух и комфортен, влияет на все — от здоровья ребёнка до финансовой стабильности семьи. Несмотря на то что мы отслеживаем цены на жильё вплоть до отдельных улиц, у нас редко бывает столь же детальная картина качества самого жилья. В этом исследовании авторы закрывают эту слепую зону, применяя современные вычислительные методы для оценки состояния почти каждой жилой единицы в Соединённых Штатах и создавая карты, показывающие, где дома в порядке, а где они могут ставить жителей под угрозу.

Figure 1
Figure 1.

От цен на дома к качеству жилья

Исследователи давно моделируют стоимость домов, но о том, насколько эти дома пригодны для жизни, известно значительно меньше. Существующие национальные опросы дают лишь грубые снимки, часто на уровне целых штатов или столичных зон, а многие госданные сосредоточены на доступности жилья или плотности заселения, а не на физическом состоянии зданий. Поскольку местные органы собирают и оценивают жильё по-разному, не существовало единого, детального взгляда на состояние жилья по всей стране. Этот пробел затрудняет работу планировщиков, специалистов в области здравоохранения и сообществ, которым нужно понимать, где низкое качество жилья может концентрировать риски — плесень, протечки, экстремальные внутренние температуры или опасные конструкции.

Привлечение больших данных в соседство

Чтобы восполнить этот пробел, авторы объединили два крупных источника данных. Первый — общенациональная база по недвижимости, содержащая более 111 миллионов жилых единиц, включая такие подробности, как число спален и ванных комнат, год постройки и ремонта, материалы крыши и фасада, система отопления, парковка, налоги и — когда доступно — шестиступенчатая оценка состояния здания от «непригодно» до «отлично». Второй источник — данные Бюро переписи населения США и сопутствующие сведения о микрорайонах, которые описывают местные уровни доходов, стоимость жилья, долю владельцев и мобильных домов, плотность населения, уровень бедности и степень урбанизации. Пространственно сопоставив каждую собственность с окружающим цензовым трактом или блок-группой, команда создала единый реестр, связывающий характеристики зданий с социально-экономическим контекстом вокруг каждого дома.

Обучение машин распознавать «здоровье» жилья

Около половины объектов в базе не имели официальной оценки состояния. Исследователи обучили три продвинутые модели машинного обучения — CatBoost, LightGBM и XGBoost — на домах с наличествующими оценками, попросив алгоритмы выяснить, как сочетания признаков собственности и округа соотносятся с состоянием жилья. Они тщательно очистили данные, обработали выбросы и пропуски и использовали высокопроизводительный вычислительный кластер с мощными графическими процессорами для эффективного поиска оптимальных настроек моделей. Чтобы избежать «запоминания» тренировочных данных, применяли сбалансированную точность и кросс-валидацию, а затем дополнительно настраивали победившую модель так, чтобы её прогнозные вероятности как можно точнее соответствовали реальным результатам.

Figure 2
Figure 2.

Преобразование прогнозов в полезные карты

После выбора наилучшей модели (CatBoost) её использовали для предсказания оценок состояния для миллионов домов с отсутствующей информацией. Категории каждого дома были переведены в числовой балл от одного (худшее) до шести (лучшее). Чтобы защитить приватность и сделать закономерности более наглядными, исследователи затем усреднили эти баллы по трём типам территорий: цензовым трактам, зонам табуляции почтовых индексов (ZIP code tabulation areas) и регулярной сетке шестиугольников примерно по 36 квадратных километров, покрывающей всю страну. В результате получился набор национальных карт, раскрывающих общие ландшафты качества жилья, но при этом достаточно детальных для локального анализа. Команда также проверила качество работы модели с помощью нескольких статистических тестов и обнаружила умеренное, но значимое совпадение с учётом масштаба и сложности задачи.

Что определяет лучшее или худшее жильё

Анализ наиболее влиятельных входных переменных дал подсказки о причинах состояния жилья. Доминировали признаки на уровне собственности: оценочная сумма налога, наружная отделка, тип крыши, система отопления, а также возраст дома и история ремонтов оказались особенно важными. Факторы микрорайона — такие как уровень бедности, плотность населения и доля мобильных домов — играли меньшую, но всё же значимую роль. Эти выводы согласуются с более широкими исследованиями, показывающими, что домохозяйства с низкими доходами, арендаторы и сообщества цветных меньшинств с большей вероятностью живут в ниже среднего качестве жилья, чему способствуют неравные кредитные практики и неравномерное соблюдение жилищных норм.

Новый инструмент для безопасного и справедливого жилья

Проще говоря, эта работа использует шаблоны в существующих записях, чтобы заполнить пробелы в национальной мозаике качества жилья. Полученные общедоступные карты и наборы данных дают планировщикам, агентствам здравоохранения и общественным группам мощный новый инструмент для выявления мест, где жильё может подвергать жителей риску, и где инвестиции принесут наибольшую пользу. Хотя ни одна модель не идеальна, особенно при работе с неоднородными исходными данными, этот масштабный подход представляет собой важный шаг к пониманию и, в конечном счёте, улучшению повседневной среды, которую люди называют домом.

Цитирование: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w

Ключевые слова: качество жилья, машинное обучение, пространственные данные, общественное здоровье, городское планирование