Clear Sky Science · it
Programmi accademici di data science nell’era pre-ChatGPT nel Midwest degli Stati Uniti: un dataset curato
Perché è importante per studenti e comunità
Negli Stati Uniti, nuovi corsi incentrati sui dati sembrano comparire ogni semestre, ma può essere difficile capire cosa significhi davvero “Data Science”, “Data Analytics” o un programma “Interdisciplinare”. Questo articolo descrive un dataset costruito con cura che mappa e organizza ogni programma accademico correlato ai dati nel Midwest degli Stati Uniti appena prima che strumenti come ChatGPT diventassero diffusi, offrendo un’istantanea chiara di come i college stavano formando la prossima generazione di professionisti dei dati.
Un’istantanea scattata prima dell’ondata dell’IA
Gli autori hanno cercato di catturare lo stato della formazione in data science nel 2023, proprio prima che l’intelligenza artificiale generativa iniziasse a rimodellare l’insegnamento e il lavoro tecnico. Si sono concentrati sulle istituzioni di istruzione superiore in 12 stati del Midwest, dai community college alle grandi università. Ogni volta che il nome di un programma includeva la parola “data”, lo hanno esaminato nei dettagli: dove veniva insegnato? Era una major, una minor, un certificato? Era rivolto a studenti undergraduate o graduate? Quali dipartimenti lo gestivano e quali materie copriva il curriculum? Congelando questo momento nel tempo, il dataset permette ai ricercatori futuri di osservare come le offerte educative cambiano man mano che gli strumenti di IA si diffondono.

Distinguere i diversi tipi di programmi sui dati
Una delle maggiori sfide affrontate dagli autori è che “data science” viene usato in molti modi diversi. Due lauree con nomi quasi identici possono preparare gli studenti a carriere molto diverse. Per mettere ordine in questo caos, hanno creato un sistema di classificazione riproducibile con quattro gruppi principali. Un classico programma di Data Science combina una solida dose di matematica, statistica e informatica ed è tipicamente guidato da quei dipartimenti. I programmi di Data Science Interdisciplinare condividono quel nucleo tecnico ma sono in parte orientati da dipartimenti non tecnici oppure richiedono agli studenti di aggiungere una seconda major o una minor. Data Science come Concentration descrive i casi in cui “data” è una specializzazione all’interno di un’altra laurea. I programmi di Data Analytics comprendono offerte che usano la parola “data” ma non presentano la piena combinazione di matematica e informatica, o sono diretti da dipartimenti al di fuori dei campi quantitativi di base.
Come sono state raccolte e verificate le informazioni
Per costruire il dataset, il team ha prima usato lo strumento di ricerca college del College Board per compilare un elenco di istituzioni nel Midwest. Poi ha visitato manualmente i siti web di ciascuna scuola, ha cercato programmi con “data” nel titolo e ha registrato i dettagli in un foglio di calcolo strutturato. Per ogni programma hanno documentato lo stato, la scuola, la città, il nome del programma, se era offerto in campus o online, il livello e il tipo, e se si trattava di major, minor o certificato. Hanno considerato major e minor come offerte potenzialmente distinte e hanno prestato particolare attenzione a quali dipartimenti fossero ufficialmente responsabili. Quando la responsabilità dipartimentale non era chiara, hanno esaminato i corsi e i tag delle materie per dedurre se il curriculum combinasse veramente matematica e informatica. Dopo il lavoro manuale, hanno usato codice Python per pulire i dati, rimuovere duplicati, applicare categorie coerenti e segnalare eventuali contraddizioni o informazioni mancanti.

Cosa rivela il dataset sul Midwest
La raccolta finale include 404 programmi unici provenienti da 225 sistemi scolastici. Più della metà è classificata come Data Science, suggerendo che molte istituzioni del Midwest hanno adottato il modello più tecnico, incentrato su matematica e informatica. Circa un terzo rientra in Data Analytics, spesso collegato a unità di business, information o technology, e tipicamente con meno enfasi sulla combinazione di matematica e informatica. I programmi di Data Science Interdisciplinare e Data Science come Concentration costituiscono parti più piccole ma importanti, riflettendo sforzi per integrare competenze sui dati con ambiti come business, ingegneria o scienze sociali. Gli autori raggruppano inoltre le scuole per tipologia—community college, scuole tecniche e ingegneristiche, università e altri college—e mostrano che le università dominano per numero di offerte, mentre i community college e le scuole tecniche tendono più verso programmi di Data Analytics.
Come altri possono usare questa risorsa
Il dataset, pubblicamente disponibile su Harvard Dataverse insieme al codice usato per processarlo e verificarlo, è pensato per essere riutilizzato. I responsabili delle politiche possono esaminare come i programmi correlati ai dati sono distribuiti tra stati e tipi di scuola quando pianificano investimenti nello sviluppo della forza lavoro. I direttori di dipartimento e i progettisti del curriculum possono confrontare i propri programmi con quelli vicini o di tipo simile. I ricercatori dell’istruzione possono monitorare come i nomi dei programmi, le strutture e le responsabilità cambino nel tempo, specialmente man mano che gli strumenti di IA diventano più integrati in aule e luoghi di lavoro. Anche gli insegnanti possono utilizzare i dati in progetti di classe, permettendo agli studenti di esplorare il panorama educativo reale in cui stanno per entrare.
Cosa ci dice questo lavoro, in termini semplici
In sostanza, questo articolo offre una mappa ben organizzata di come i college del Midwest insegnavano competenze sui dati proprio prima del boom dell’IA generativa. Separando chiaramente i diversi tipi di programmi “dei dati” e documentando chi li gestisce e cosa richiedono, gli autori forniscono una linea di base per capire come l’istruzione si adatta ai rapidi cambiamenti tecnologici. Tra qualche anno, questa istantanea aiuterà a mostrare se i programmi sono diventati più tecnici, più interdisciplinari o più influenzati dall’IA—andrà a guidare scuole e comunità nella decisione su come preparare al meglio gli studenti per un mondo guidato dai dati.
Citazione: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4
Parole chiave: formazione in data science, programmi accademici, università del Midwest, lauree in analisi dei dati, dataset sull’istruzione superiore