Clear Sky Science · es
Modelización a gran escala para la predicción del estado de la vivienda mediante algoritmos de aprendizaje automático
Por qué importa el estado de nuestras viviendas
Que una vivienda sea segura, seca y confortable puede incidir en todo, desde la salud de un niño hasta la estabilidad económica de una familia. Sin embargo, mientras que seguimos los precios de la vivienda hasta el detalle de calles individuales, rara vez disponemos de una imagen igualmente detallada sobre la calidad habitacional en sí. Este estudio aborda ese punto ciego empleando técnicas informáticas modernas para estimar la condición de casi todas las unidades de vivienda en Estados Unidos, creando mapas que muestran dónde las viviendas prosperan y dónde pueden estar poniendo en riesgo a sus habitantes.

De los precios de la vivienda a la calidad habitacional
Los investigadores llevan tiempo modelando cuánto valen las viviendas, pero se sabe mucho menos sobre cuán habitables son. Las encuestas nacionales existentes ofrecen solo instantáneas toscas, a menudo a nivel de estados enteros o áreas metropolitanas, y muchos conjuntos de datos gubernamentales se centran en la asequibilidad o la ocupación en lugar de la condición física de los edificios. Dado que las agencias locales recogen y clasifican la vivienda de formas distintas, no ha existido una visión unificada y detallada de las condiciones de la vivienda a lo largo del país. Esta laguna dificulta que planificadores, responsables de salud y comunidades identifiquen dónde la vivienda de mala calidad puede concentrar riesgos como moho, filtraciones, temperaturas interiores extremas o estructuras inseguras.
Introduciendo big data en el vecindario
Para llenar ese vacío, los autores combinaron dos fuentes principales de datos. La primera es una base de datos inmobiliaria nacional que contiene más de 111 millones de unidades de vivienda, con detalles como número de dormitorios y baños, año de construcción y de reformas, materiales de cubierta y exterior, sistema de calefacción, aparcamiento, impuestos y —cuando está disponible— una clasificación de la condición del edificio en seis niveles, desde «insalubre» hasta «excelente». La segunda fuente son los datos del Censo de EE. UU. y datos vecinales relacionados, que describen niveles de ingresos locales, valores de vivienda, proporción de propietarios y viviendas móviles, densidad de población, pobreza y si un área es más urbana o rural. Al emparejar espacialmente cada propiedad con su tracto censal o grupo de bloques circundante, el equipo creó un registro unificado que vincula rasgos del edificio con el contexto social y económico que rodea a cada vivienda.
Enseñando a las máquinas a reconocer la salud habitacional
Aproximadamente la mitad de las propiedades en la base de datos carecían de una valoración oficial de condición. Los investigadores entrenaron tres modelos avanzados de aprendizaje automático —CatBoost, LightGBM y XGBoost— con las viviendas que sí disponían de clasificaciones, pidiendo a los algoritmos que aprendieran cómo las combinaciones de características de la propiedad y del vecindario se relacionan con la condición de la vivienda. Limpiaron cuidadosamente los datos, gestionaron valores atípicos y ausentes, y utilizaron un clúster de computación de alto rendimiento —con potentes procesadores gráficos— para buscar de forma eficiente los mejores parámetros del modelo. Para evitar modelos que simplemente «memoricen» los datos de entrenamiento, emplearon precisión balanceada y validación cruzada, y luego afinado adicional del modelo ganador para que sus probabilidades estimadas concordaran con los resultados del mundo real lo más estrechamente posible.

Convirtiendo predicciones en mapas útiles
Una vez elegido el modelo con mejor rendimiento (CatBoost), se utilizó para predecir las clasificaciones de condición de los millones de viviendas con información faltante. La categoría de cada vivienda se tradujo a una puntuación numérica de uno (peor) a seis (mejor). Para proteger la privacidad y facilitar la visualización de patrones, los investigadores promediaron estas puntuaciones en tres tipos de áreas: tractos censales, áreas tabuladas por código postal (ZCTA) y una cuadrícula regular de hexágonos de aproximadamente 36 kilómetros cuadrados que cubre todo el país. El resultado es un conjunto de mapas nacionales que revelan amplios paisajes de calidad de la vivienda, pero con suficiente detalle para orientar análisis locales. El equipo también comprobó el rendimiento del modelo usando múltiples pruebas estadísticas, encontrando un acuerdo moderado pero significativo dado el tamaño y la complejidad de la tarea.
Qué impulsa viviendas mejores o peores
Al examinar qué entradas importaban más para el modelo, el estudio ofrece pistas sobre los factores que determinan la condición de la vivienda. Predominaron las características a nivel de propiedad: la cantidad estimada de impuestos, el revestimiento exterior, el tipo de techo, el sistema de calefacción y la edad y el historial de renovaciones de una vivienda fueron especialmente influyentes. Factores del vecindario como las tasas de pobreza, la densidad de población y la proporción de viviendas móviles tuvieron un papel menor, pero aún importante. Estos hallazgos encajan con investigaciones más amplias que muestran que los hogares de menores ingresos, los inquilinos y las comunidades de color tienen más probabilidades de vivir en viviendas deficientes, condicionadas en parte por prácticas crediticias desiguales y una aplicación desigual de las protecciones de vivienda.
Una nueva herramienta para viviendas más seguras y justas
En términos sencillos, este trabajo utiliza patrones en registros existentes para completar las piezas faltantes de un rompecabezas nacional sobre la calidad de la vivienda. Los mapas y conjuntos de datos resultantes, disponibles públicamente, proporcionan a planificadores, agencias de salud y grupos comunitarios una nueva y potente manera de ver dónde las viviendas pueden estar poniendo en riesgo a los habitantes y dónde las inversiones podrían producir mayores beneficios. Aunque ningún modelo es perfecto, especialmente cuando se trabaja con datos subyacentes desiguales, este enfoque a gran escala supone un paso importante hacia la comprensión —y, en última instancia, la mejora— de los entornos cotidianos que la gente llama hogar.
Cita: Kim, K., Holmes, T., Powell, E. et al. Large-scale modeling for housing condition prediction using machine learning algorithms. Sci Data 13, 647 (2026). https://doi.org/10.1038/s41597-026-07012-w
Palabras clave: calidad de la vivienda, aprendizaje automático, datos espaciales, salud pública, planificación urbana