Clear Sky Science · ru

Академические программы по науке о данных в преддверии эры ChatGPT на Среднем Западе США: курируемый набор данных

· Назад к списку

Почему это важно для студентов и сообществ

По всей территории США почти каждый семестр появляются новые программы, ориентированные на данные, но порой трудно понять, что конкретно подразумевается под «наукой о данных», «аналитикой данных» или «междисциплинарной» программой. В этой статье описан тщательно составленный набор данных, который отображает и систематизирует все академические программы, связанные с данными, на Среднем Западе США сразу до того, как такие инструменты, как ChatGPT, получили широкое распространение, предлагая ясный снимок того, как колледжи готовили следующее поколение специалистов по данным.

Снимок, сделанный до волны ИИ

Авторы поставили перед собой задачу зафиксировать состояние образования в области науки о данных в 2023 году, непосредственно перед тем как генеративный искусственный интеллект начал преобразовывать преподавание и техническую работу. Они сосредоточились на учреждениях высшего образования в 12 штатах Среднего Запада — от общественных колледжей до крупных университетов. Всякий раз, когда в названии программы встречалось слово «data», они детально исследовали её: где преподавали? Являлась ли она основной специальностью, факультативом или сертификатом? Для студентов бакалавриата или магистратуры? Какие департаменты были ответственны и какие предметы охватывала учебная программа? Зафиксировав этот момент во времени, набор данных позволяет будущим исследователям увидеть, как образовательные предложения меняются по мере распространения инструментов ИИ.

Figure 1
Figure 1.

Разделение различных типов программ по работе с данными

Одна из главных трудностей, с которой столкнулись авторы, состоит в том, что термин «наука о данных» используется по-разному. Две степени с почти одинаковыми названиями могут готовить студентов к совершенно разным карьерам. Чтобы навести порядок в этом хаосе, они разработали воспроизводимую систему классификации из четырёх основных групп. Классическая программа Data Science сочетает значительную математику, статистику и информатику и обычно курируется соответствующими департаментами. Междисциплинарные программы Data Science сохраняют техническое ядро, но частично управляются нетехническими департаментами или требуют от студентов второго направления или факультатива. Data Science как концентрация описывает случаи, когда «данные» являются треком внутри другой степени. Программы Data Analytics включают предложения, в названии которых есть слово «data», но которым не хватает полного сочетания математики и вычислений или которые курируются департаментами за пределами основных количественных областей.

Как собиралась и проверялась информация

Для создания набора данных команда сначала использовала инструмент поиска колледжей College Board, чтобы составить список учреждений на Среднем Западе. Затем исследователи вручную посетили сайты каждого учебного заведения, искали программы с «data» в названии и вносили детали в структурированную электронную таблицу. Для каждой программы они фиксировали штат, учебное заведение, город, название программы, предлагалась ли она очно или онлайн, её уровень и тип, а также была ли это основная специальность, факультатив или сертификат. Они рассматривали основные и факультативные программы как потенциально отдельные предложения и внимательно отслеживали, какие департаменты официально отвечали за них. Когда руководство департамента было неясно, исследователи обращались к спискам курсов и тематическим тегам, чтобы сделать вывод о том, действительно ли учебный план сочетает математику и информатику. После ручной работы они использовали код на Python для очистки данных, удаления дубликатов, приведения категорий к единому виду и пометки противоречий или отсутствующей информации.

Figure 2
Figure 2.

Что набор данных показывает о Среднем Западе

Итоговый сбор включает 404 уникальные программы из 225 образовательных систем. Более половины из них классифицируются как Data Science, что указывает на то, что многие учреждения Среднего Запада приняли более техническую модель с упором на математику и вычисления. Примерно треть относятся к Data Analytics, часто связанные с бизнесом, информационными или технологическими подразделениями и как правило меньше акцентирующие внимание на сочетании математики и информатики. Междисциплинарные программы Data Science и Data Science как концентрация составляют меньшую, но важную долю, отражая усилия по сочетанию навыков работы с данными с такими областями, как бизнес, инженерия или социальные науки. Авторы также группируют учебные заведения по типам — общественные колледжи, технические и инженерные школы, университеты и прочие колледжи — и показывают, что университеты доминируют по числу предложений, тогда как общественные колледжи и технические школы склоняются в сторону программ Data Analytics.

Как другие могут использовать этот ресурс

Набор данных, доступный в открытом доступе через Harvard Dataverse вместе с кодом, использованным для обработки и проверки, предназначен для повторного использования. Политики могут изучать, как программы, связанные с данными, распределены по штатам и типам учебных заведений при планировании инвестиций в развитие рабочей силы. Руководители департаментов и разработчики учебных планов могут сопоставлять собственные программы с аналогичными по местоположению или типу. Исследователи в области образования могут отслеживать, как названия, структуры и руководство программ меняются со временем, особенно по мере того как инструменты ИИ глубже интегрируются в классы и на рабочие места. Преподаватели даже могут использовать данные для студенческих проектов, позволяя учащимся исследовать реальный образовательный ландшафт, в который они собираются войти.

Что говорит нам эта работа, простыми словами

В своей основе эта статья предлагает хорошо организованную карту того, как колледжи Среднего Запада обучали навыкам работы с данными непосредственно перед бумом генеративного ИИ. Чётко разделяя разные типы «программ по данным» и документируя, кто ими управляет и что они требуют, авторы создают исходную точку для понимания того, как образование успевает за быстрыми технологическими изменениями. Годы спустя этот снимок поможет показать, стали ли программы более техническими, более междисциплинарными или сильнее сформированы ИИ — и поможет школам и сообществам решать, как лучше готовить студентов к миру, управляемому данными.

Цитирование: Blackford, D., Maria Selvitella, A. Data science academic programs in the pre-ChatGPT erain the Midwestern United States: a curated dataset. Sci Data 13, 236 (2026). https://doi.org/10.1038/s41597-026-06553-4

Ключевые слова: образование в области науки о данных, академические программы, университеты Среднего Запада, степени по аналитике данных, набор данных высшего образования