Clear Sky Science · pt

Programas acadêmicos de ciência de dados na era pré-ChatGPT no Meio-Oeste dos Estados Unidos: um conjunto de dados curado

· Voltar ao índice

Por que isso importa para estudantes e comunidades

Em todo os Estados Unidos, novos cursos focados em dados parecem surgir a cada semestre, mas pode ser difícil entender o que “Ciência de Dados”, “Análise de Dados” ou um programa “Interdisciplinar” realmente significam. Este artigo descreve um conjunto de dados cuidadosamente construído que mapeia e organiza todos os programas acadêmicos relacionados a dados no Meio-Oeste dos EUA pouco antes de ferramentas como o ChatGPT se tornarem amplamente usadas, oferecendo um retrato claro de como as faculdades estavam formando a próxima geração de profissionais de dados.

Um instantâneo capturado antes da onda da IA

Os autores propuseram-se a registrar o estado da educação em ciência de dados em 2023, logo antes de a inteligência artificial generativa começar a remodelar o ensino e o trabalho técnico. Eles concentraram-se em instituições de ensino superior em 12 estados do Meio-Oeste, desde faculdades comunitárias até grandes universidades. Sempre que o nome de um programa incluía a palavra “data”, examinaram-no em detalhe: onde era oferecido? Era um major, um minor, um certificado? Era direcionado a estudantes de graduação ou pós-graduação? Quais departamentos o conduziam e quais disciplinas o currículo abrangia? Ao congelar esse momento no tempo, o conjunto de dados permite que pesquisadores futuros observem como as ofertas educacionais mudam à medida que ferramentas de IA se espalham.

Figure 1
Figure 1.

Classificando os diferentes tipos de programas de dados

Um dos maiores desafios enfrentados pelos autores é que “ciência de dados” é usado de muitas maneiras diferentes. Dois cursos com nomes quase idênticos podem preparar estudantes para carreiras bastante distintas. Para trazer ordem a esse caos, eles criaram um sistema de classificação reproduzível com quatro grupos principais. Um programa clássico de Ciência de Dados combina matemática substancial, estatística e ciência da computação e é tipicamente liderado por esses departamentos. Programas Interdisciplinares de Ciência de Dados compartilham esse núcleo técnico, mas são parcialmente guiados por departamentos não técnicos ou exigem que os estudantes façam um segundo major ou um minor. Ciência de Dados como Concentração descreve casos em que “dados” é uma trilha dentro de outro diploma. Programas de Análise de Dados incluem ofertas que usam a palavra “data” mas não apresentam a combinação completa de matemática e computação, ou são conduzidos por departamentos fora dos campos quantitativos centrais.

Como a informação foi coletada e verificada

Para construir o conjunto de dados, a equipe primeiro usou a ferramenta de busca de faculdades do College Board para compilar uma lista de instituições no Meio-Oeste. Em seguida, visitaram manualmente o site de cada escola, procuraram programas com “data” no título e registraram os detalhes em uma planilha estruturada. Para cada programa documentaram o estado, a escola, a cidade, o nome do programa, se era oferecido no campus ou online, seu nível e tipo, e se era um major, minor ou certificado. Trataram majors e minors como ofertas potencialmente distintas e prestaram atenção a quais departamentos eram oficialmente responsáveis. Quando a liderança departamental não estava clara, recorreram às listas de disciplinas e etiquetas de assuntos para inferir se o currículo realmente combinava matemática e computação. Após o trabalho manual, usaram código Python para limpar os dados, remover duplicatas, aplicar categorias consistentes e sinalizar contradições ou informações faltantes.

Figure 2
Figure 2.

O que o conjunto de dados revela sobre o Meio-Oeste

A coleção final inclui 404 programas únicos de 225 sistemas escolares. Mais da metade deles é classificada como Ciência de Dados, sugerindo que muitas instituições do Meio-Oeste adotaram o modelo mais técnico, voltado a matemática e computação. Cerca de um terço se enquadra em Análise de Dados, frequentemente ligada a unidades de negócios, informação ou tecnologia, e tipicamente com menos ênfase tanto em matemática quanto em ciência da computação em conjunto. Programas Interdisciplinares de Ciência de Dados e Ciência de Dados como Concentração compõem parcelas menores, mas importantes, refletindo esforços para combinar competências em dados com áreas como negócios, engenharia ou ciências sociais. Os autores também agrupam as instituições por tipo — faculdades comunitárias, escolas técnicas e de engenharia, universidades e outras faculdades — e mostram que as universidades dominam o número de ofertas, enquanto faculdades comunitárias e escolas técnicas tendem mais para programas de Análise de Dados.

Como outros podem usar esse recurso

O conjunto de dados, publicamente disponível via Harvard Dataverse junto com o código usado para processá-lo e validá-lo, destina-se a ser reutilizado. Formuladores de políticas podem examinar como os programas relacionados a dados estão distribuídos entre estados e tipos de instituições ao planejar investimentos em desenvolvimento da força de trabalho. Chefes de departamento e designers de currículo podem comparar seus próprios programas com outros próximos ou de tipo similar. Pesquisadores em educação podem acompanhar como nomes, estruturas e liderança de programas mudam ao longo do tempo, especialmente à medida que ferramentas de IA se tornam mais incorporadas em salas de aula e locais de trabalho. Instrutores podem até usar os dados em projetos de aula, permitindo que estudantes explorem o panorama educacional real que estão prestes a entrar.

O que este trabalho nos diz, em termos claros

No seu núcleo, este artigo oferece um mapa bem organizado de como as faculdades do Meio-Oeste estavam ensinando competências em dados pouco antes do boom da IA generativa. Ao separar claramente diferentes tipos de programas “de dados” e documentar quem os dirige e o que exigem, os autores fornecem uma linha de base para entender como a educação acompanha mudanças tecnológicas rápidas. Anos a partir de agora, este instantâneo ajudará a mostrar se os programas se tornaram mais técnicos, mais interdisciplinares ou mais moldados pela IA — e orientará escolas e comunidades ao decidirem a melhor forma de preparar estudantes para um mundo orientado por dados.

Citação: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4

Palavras-chave: educação em ciência de dados, programas acadêmicos, universidades do Meio-Oeste, cursos de análise de dados, conjunto de dados de ensino superior