Clear Sky Science · zh

ChatGPT 流行前时代美国中西部的数据科学学术项目：一个精选数据集

2026-01-17 · 返回目录

这对学生和社区的重要性

在美国，全国各地似乎每学期都有新的以数据为中心的学位出现，但往往很难分辨“数据科学”“数据分析”或“跨学科”项目到底意味着什么。本文描述了一个精心构建的数据集，该数据集在像 ChatGPT 这样的工具广泛流行之前，映射并整理了美国中西部地区所有与数据相关的学术项目，提供了大学如何培养下一代数据专业人才的清晰快照。

在人工智能浪潮到来前的快照

作者旨在捕捉 2023 年的数据科学教育状况，正是在生成式人工智能开始重塑教学和技术工作的前夕。他们的关注对象是 12 个中西部州的高等教育机构，涵盖社区学院到大型大学。凡是项目名称中包含“data”（数据）一词的，他们都会详细审查：在哪所学校开设？是主修、辅修还是证书项目？面向本科生还是研究生？哪个院系负责，课程覆盖哪些学科？通过冻结这一时点，数据集使未来的研究者能够观察随着 AI 工具传播，教育供给如何变化。

区分不同类型的数据项目

作者面临的最大挑战之一是“数据科学”一词有多种用法。两个名称几乎相同的学位可能让学生走向截然不同的职业道路。为了解决这种混乱，他们创建了一个可重复的分类系统，划分为四大类。经典的数据科学项目融合了大量数学、统计学和计算机科学，通常由这些院系主导。跨学科数据科学项目保留了相同的技术核心，但部分由非技术院系参与主导，或要求学生修读第二专业或辅修。作为浓缩方向的数据科学描述的是“数据”作为其他学位内部轨道的情况。数据分析项目则包含那些名称含“数据”但缺乏完整的数学与计算结合，或由核心定量学科以外的院系主导的课程。

信息如何收集和核实

为构建数据集，团队首先使用 College Board 的院校搜索工具汇总了中西部的高校名单。随后他们逐一手工访问每所学校的网站，搜索标题中含有“data”的项目，并将细节记录到结构化的电子表格。对每个项目，他们记录了所在州、学校、城市、项目名称、是否为校园授课或在线、级别与类型，以及是否为主修、辅修或证书。他们将主修与辅修视为可能不同的开设形式，并密切关注哪些院系在官方上负责。当院系归属不明时，他们参考课程清单和学科标签来推断课程是否真正结合了数学与计算。在手工工作完成后，他们使用 Python 代码清理数据、去重、统一类别，并标记任何矛盾或缺失的信息。

数据集揭示了中西部的哪些特点

最终集合包括来自 225 所学校体系的 404 个独立项目。其中超过一半被归类为数据科学，表明许多中西部机构采纳了更偏技术、侧重数学与计算的模式。约三分之一被归入数据分析，通常与商科、信息或技术单位相关，通常在数学与计算机科学两者上不并重。跨学科数据科学和作为浓缩方向的数据科学占比较小但重要，反映了将数据技能与商业、工程或社会科学等领域结合的尝试。作者还将学校按类型分组——社区学院、技术与工程院校、大学以及其他学院——并显示大学在项目数量上占主导，而社区学院和技术学校则更倾向于提供数据分析类项目。

他人如何使用该资源

该数据集及用于处理和验证的代码已在哈佛数据集市（Harvard Dataverse）公开，旨在被重用。决策者在规划劳动力发展投资时可以检查数据相关项目在各州和学校类型间的分布。系主任和课程设计者可以将自校项目与邻近或类似类型的项目进行基准比较。教育研究人员可以追踪项目名称、结构与管理随时间的变化，尤其是在 AI 工具更深入地融入课堂与职场之后。教师甚至可以在课堂项目中使用这些数据，让学生探索他们即将进入的真实教育生态。

用通俗的话说，这项工作告诉我们什么

本质上，本文提供了一张有序的地图，展示了在生成式人工智能热潮之前，中西部高校如何教授数据技能。通过清晰区分不同类型的“数据”项目并记录谁在管理它们以及它们的要求，作者为理解教育如何跟上快速技术变迁提供了基线。若干年后，这一快照将帮助展示项目是否变得更偏技术化、更倾向跨学科，或更多地受到 AI 形塑——并在学校与社区决定如何最好地为学生准备面向数据的世界时提供指引。

引用: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4

关键词: 数据科学教育, 学术项目, 中西部大学, 数据分析学位, 高等教育数据集