Clear Sky Science · es
Programas académicos de ciencia de datos en la era previa a ChatGPT en el Medio Oeste de Estados Unidos: un conjunto de datos curado
Por qué esto importa para estudiantes y comunidades
En todo Estados Unidos, nuevos títulos orientados a datos parecen surgir cada semestre, pero puede ser difícil distinguir qué significan realmente “Ciencia de Datos”, “Análisis de Datos” o un programa “Interdisciplinario”. Este artículo describe un conjunto de datos construido con rigor que mapea y organiza cada programa académico relacionado con datos en el Medio Oeste de Estados Unidos justo antes de que herramientas como ChatGPT se generalizaran, ofreciendo una instantánea clara de cómo las universidades estaban formando a la siguiente generación de profesionales en datos.
Una instantánea tomada antes de la ola de la IA
Los autores se propusieron capturar el estado de la enseñanza de la ciencia de datos en 2023, justo antes de que la inteligencia artificial generativa empezara a remodelar la docencia y el trabajo técnico. Se centraron en instituciones de educación superior de 12 estados del Medio Oeste, desde colleges comunitarios hasta universidades importantes. Siempre que el nombre de un programa incluía la palabra “datos”, lo examinaron en detalle: ¿Dónde se impartía? ¿Era una licenciatura, una asignatura optativa, un certificado? ¿Estaba orientado a estudiantes de grado o de posgrado? ¿Qué departamentos estaban a cargo y qué materias cubría el plan de estudios? Al congelar este momento, el conjunto de datos permite a investigadores futuros ver cómo cambian las ofertas educativas a medida que se difunden las herramientas de IA.

Clasificar distintos tipos de programas de datos
Uno de los mayores retos que afrontaron los autores es que “ciencia de datos” se usa de muchas maneras distintas. Dos títulos con nombres casi idénticos pueden preparar a los estudiantes para carreras muy diferentes. Para poner orden en ese caos, crearon un sistema de clasificación reproducible con cuatro grupos principales. Un programa clásico de Ciencia de Datos combina matemáticas sustantivas, estadística e informática y suele estar liderado por esos departamentos. Los programas de Ciencia de Datos Interdisciplinaria comparten ese núcleo técnico pero están dirigidos en parte por departamentos no técnicos o exigen que los estudiantes añadan una segunda titulación o una asignatura optativa. Ciencia de Datos como Concentración describe casos en los que “datos” es una especialidad dentro de otro título. Los programas de Análisis de Datos incluyen ofertas que usan la palabra “datos” pero carecen de la mezcla completa de matemáticas e informática, o están gestionados por departamentos fuera de los campos cuantitativos centrales.
Cómo se recopiló y verificó la información
Para construir el conjunto de datos, el equipo usó primero la herramienta de búsqueda de universidades del College Board para compilar una lista de instituciones en el Medio Oeste. Luego visitaron manualmente la web de cada centro, buscaron programas con “datos” en el título y registraron los detalles en una hoja de cálculo estructurada. Para cada programa documentaron el estado, la institución, la ciudad, el nombre del programa, si se ofrecía en el campus o en línea, su nivel y tipo, y si era una licenciatura, una asignatura optativa o un certificado. Trataron las licenciaturas y las asignaturas optativas como ofertas potencialmente distintas y prestaron especial atención a qué departamentos eran oficialmente responsables. Cuando la responsabilidad departamental no estaba clara, recurrieron a los listados de cursos y etiquetas temáticas para inferir si el plan de estudios realmente combinaba matemáticas y computación. Tras el trabajo manual, usaron código en Python para limpiar los datos, eliminar duplicados, aplicar categorías consistentes y señalar contradicciones o información faltante.

Qué revela el conjunto de datos sobre el Medio Oeste
La colección final incluye 404 programas únicos de 225 sistemas educativos. Más de la mitad de estos están clasificados como Ciencia de Datos, lo que sugiere que muchas instituciones del Medio Oeste han adoptado el modelo más técnico, centrado en matemáticas y computación. Aproximadamente un tercio corresponden a Análisis de Datos, a menudo vinculados a unidades de negocios, información o tecnología, y que normalmente hacen menos hincapié en la combinación de matemáticas e informática. La Ciencia de Datos Interdisciplinaria y la Ciencia de Datos como Concentración constituyen porciones más pequeñas pero importantes, reflejando esfuerzos por combinar habilidades en datos con campos como negocios, ingeniería o ciencias sociales. Los autores también agrupan las instituciones por tipo —colleges comunitarios, escuelas técnicas y de ingeniería, universidades y otros colegios— y muestran que las universidades dominan en número de ofertas, mientras que los colleges comunitarios y las escuelas técnicas se inclinan más hacia programas de Análisis de Datos.
Cómo otros pueden usar este recurso
El conjunto de datos, disponible públicamente a través de Harvard Dataverse junto con el código utilizado para procesarlo y validarlo, está diseñado para ser reutilizado. Los responsables de políticas pueden examinar cómo se distribuyen los programas relacionados con datos entre estados y tipos de instituciones al planificar inversiones en desarrollo de la fuerza laboral. Los directores de departamento y diseñadores de planes de estudio pueden comparar sus propios programas con los de instituciones cercanas o de tipo similar. Los investigadores en educación pueden seguir cómo cambian los nombres, estructuras y liderazgos de los programas a lo largo del tiempo, especialmente a medida que las herramientas de IA se integran más en aulas y lugares de trabajo. Los docentes incluso pueden usar los datos en proyectos de clase, permitiendo que los estudiantes exploren el panorama educativo real al que están a punto de incorporarse.
Qué nos dice este trabajo, en términos sencillos
En su esencia, este artículo ofrece un mapa bien organizado de cómo las universidades del Medio Oeste enseñaban habilidades en datos justo antes del auge de la IA generativa. Al separar claramente los distintos tipos de programas “de datos” y documentar quién los dirige y qué requieren, los autores proporcionan una línea base para entender cómo la educación se adapta a un cambio tecnológico rápido. Dentro de unos años, esta instantánea ayudará a mostrar si los programas se volvieron más técnicos, más interdisciplinarios o más influidos por la IA, y orientará a instituciones y comunidades sobre cómo preparar mejor a los estudiantes para un mundo impulsado por los datos.
Cita: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4
Palabras clave: educación en ciencia de datos, programas académicos, universidades del Medio Oeste, títulos en análisis de datos, conjunto de datos de educación superior