Clear Sky Science · nl

Academische data-scienceprogramma's in het pre-ChatGPT-tijdperk in het Middenwesten van de Verenigde Staten: een gecureerde dataset

2026-01-17 · Terug naar het overzicht

Waarom dit van belang is voor studenten en gemeenschappen

In de Verenigde Staten lijkt er elk semester een nieuwe data-gerichte opleiding te verschijnen, maar het kan lastig zijn te bepalen wat precies wordt bedoeld met “Data Science”, “Data Analytics” of een “Interdisciplinair” programma. Dit artikel beschrijft een zorgvuldig opgebouwde dataset die elk data-gerelateerd academisch programma in het Middenwesten van de Verenigde Staten net voordat tools zoals ChatGPT wijdverspreid raakten in kaart brengt en ordent, en zo een helder momentopname geeft van hoe hogescholen de volgende generatie data-professionals opleidden.

Een momentopname genomen vóór de AI-golf

De auteurs wilden de staat van het data-scienceonderwijs in 2023 vastleggen, precies vóórdat generatieve kunstmatige intelligentie het onderwijs en technisch werk begon te hervormen. Ze concentreerden zich op instellingen voor hoger onderwijs in 12 staten in het Middenwesten, van community colleges tot grote universiteiten. Wanneer de naam van een programma het woord “data” bevatte, onderzochten ze het nauwkeurig: Waar werd het aangeboden? Was het een major, minor of certificaat? Was het gericht op undergraduate- of graduate-studenten? Welke afdelingen waren verantwoordelijk en welke vakgebieden omvatte het curriculum? Door dit moment vast te leggen, maakt de dataset het mogelijk voor toekomstige onderzoekers om te zien hoe onderwijsaanbod verandert naarmate AI-tools zich verspreiden.

Het onderscheiden van verschillende soorten dataprogramma's

Een van de grootste uitdagingen voor de auteurs was dat “data science” op veel verschillende manieren wordt gebruikt. Twee graden met bijna identieke namen kunnen studenten voorbereiden op zeer uiteenlopende carrières. Om orde in die chaos te brengen, creëerden ze een reproduceerbaar classificatiesysteem met vier hoofdgroepen. Een klassiek Data Science-programma combineert substantiële wiskunde, statistiek en informatica en wordt doorgaans geleid door die afdelingen. Interdisciplinair Data Science-programma's delen die technische kern, maar worden gedeeltelijk aangestuurd door niet-technische afdelingen of vereisen dat studenten een tweede major of minor toevoegen. Data Science als Concentratie beschrijft gevallen waarin “data” een track binnen een andere graad is. Data Analytics-programma's omvatten opleidingen die het woord “data” gebruiken maar niet de volledige mix van wiskunde en informatica bieden, of die worden geleid door afdelingen buiten de kernkwantitatieve velden.

Hoe de informatie werd verzameld en gecontroleerd

Om de dataset samen te stellen gebruikte het team eerst de collegezoekfunctie van de College Board om een lijst van instellingen in het Midwesten te verzamelen. Vervolgens bezochten ze handmatig de website van elke school, zochten naar programma's met “data” in de titel en registreerden ze details in een gestructureerd spreadsheet. Voor elk programma documenteerden ze de staat, school, stad, programmanaam, of het op de campus of online werd aangeboden, het niveau en type, en of het een major, minor of certificaat was. Ze behandelden majors en minors als mogelijk onderscheidende aanbiedingen en besteedden bijzondere aandacht aan welke afdelingen officieel verantwoordelijk waren. Wanneer de afdelingstoezicht onduidelijk was, keken ze naar cursuslijsten en onderwerptags om af te leiden of het curriculum daadwerkelijk wiskunde en informatica combineerde. Na het handmatige werk gebruikten ze Python-code om de data te schonen, duplicaten te verwijderen, consistente categorieën af te dwingen en eventuele tegenstrijdigheden of ontbrekende informatie te markeren.

Wat de dataset over het Middenwesten onthult

De definitieve verzameling bevat 404 unieke programma's van 225 schoolsystemen. Meer dan de helft hiervan is geclassificeerd als Data Science, wat suggereert dat veel instellingen in het Midwesten het meer technische, op wiskunde en informatica gerichte model hebben omarmd. Ongeveer een derde valt onder Data Analytics, vaak gekoppeld aan business-, informatie- of technologieneenheden en meestal met minder nadruk op zowel wiskunde als informatica samen. Interdisciplinair Data Science en Data Science als Concentratie vormen kleinere maar belangrijke onderdelen, en weerspiegelen pogingen om data-vaardigheden te combineren met gebieden zoals business, engineering of sociale wetenschappen. De auteurs groeperen scholen ook naar type—community colleges, technische en engineering scholen, universiteiten en andere hogescholen—en tonen aan dat universiteiten domineren in het aantal aanbiedingen, terwijl community colleges en technische scholen meer de nadruk leggen op Data Analytics-programma's.

Hoe anderen deze bron kunnen gebruiken

De dataset, openbaar beschikbaar via Harvard Dataverse samen met de code die is gebruikt om deze te verwerken en valideren, is bedoeld om hergebruikt te worden. Beleidsmakers kunnen onderzoeken hoe data-gerelateerde programma's over staten en schooltypes zijn verdeeld bij het plannen van investeringen in workforce-ontwikkeling. Afdelingsvoorzitters en curriculumontwerpers kunnen hun eigen programma's vergelijken met die in de buurt of van vergelijkbaar type. Onderwijsonderzoekers kunnen bijhouden hoe programmanaamgeving, structuren en leiderschap in de loop van de tijd veranderen, vooral naarmate AI-tools dieper in klaslokalen en werkplaatsen worden ingebed. Instructeurs kunnen de data zelfs gebruiken in klasprojecten, zodat studenten het echte onderwijslandschap kunnen verkennen waar ze op het punt staan binnen te treden.

Wat dit werk ons zegt, in eenvoudige bewoordingen

In wezen biedt dit artikel een goed georganiseerde kaart van hoe hogescholen in het Midwesten data-vaardigheden onderwezen net vóór de opkomst van generatieve AI. Door duidelijk verschillende soorten “data”-programma's te scheiden en vast te leggen wie ze leidt en wat ze vereisen, bieden de auteurs een nulmeting om te begrijpen hoe onderwijs gelijke tred houdt met snelle technologische veranderingen. Jaren later zal deze momentopname helpen aantonen of programma's technischer, meer interdisciplinair of meer door AI gevormd zijn geworden — en zal zij scholen en gemeenschappen begeleiden bij het bepalen hoe zij studenten het beste kunnen voorbereiden op een door data gedreven wereld.

Bronvermelding: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4

Trefwoorden: data science-onderwijs, academische programma's, Middenwestelijke universiteiten, data-analyse diploma's, dataset hoger onderwijs