Clear Sky Science · ru
SEA CDM: Общая модель данных Study–Experiment–Assay и базы данных для междисциплинарной интеграции и анализа данных
Почему организация лабораторных данных важна для всех нас
Современная медицина опирается на горы экспериментальных данных — от клинических испытаний вакцин и исследований инфекций до геномики рака. Однако эти данные часто хранятся в несовместимых форматах, что затрудняет объединение результатов и обнаружение важных закономерностей, например кто лучше реагирует на вакцину или почему у некоторых людей больше побочных эффектов. В этой статье описан новый подход к организации и связке разнообразных биомедицинских экспериментов, который позволяет исследователям задавать более сложные вопросы и получать более быстрые и надежные ответы, что в конечном счете влияет на методы профилактики и лечения заболеваний.
Общий язык для экспериментов
Разные исследовательские группы и базы данных, как правило, описывают свои исследования по‑разному, даже если выполняют очень похожие задачи. Одна база может специализироваться на испытаниях вакцин, другая — на активности генов в отдельных клетках, третья — на клинических исходах, при этом используются разные обозначения и структуры. Общая модель данных Study–Experiment–Assay, или SEA CDM, предлагает простую общую «грамматику» для всех этих усилий. Она разбивает любой биомедицинский проект на три взаимосвязанных уровня: общее исследование, которое формулирует вопрос; эксперименты, проводимые на людях или животных; и анализы (assays) — например, анализы крови или измерения экспрессии генов, которые генерируют результаты. Вокруг этих этапов модель также стандартизирует ключевые элементы, такие как кто или что исследовалось, какие образцы были взяты, какие лечения применялись и какие анализы выполнялись. 
Онтологии: превращая метки в знание
Просто выровнять заголовки столбцов недостаточно: один и тот же объект могут называть по‑разному в разных местах. SEA CDM опирается на проверенные словари, известные как онтологии, чтобы гарантировать, что «прививка от гриппа», «тривалентная инактивированная вакцина от гриппа» и торговое название вроде «Fluzone» распознаются как связанные понятия. Эти онтологии устроены как древовидные иерархии медицинских и биологических терминов. Поскольку SEA CDM привязывает к каждой переменной официальный идентификатор из онтологии — будь то заболевание, тип клетки или вакцина — компьютеры могут автоматически обходить эти деревья, находить все релевантные записи и даже выводить отношения. Например, короткий запрос может извлечь все исследования, в которых использовалась любая тривалентная вакцина от гриппа, из сотен поданных продуктов, обеспечивая семантический поиск, выходящий далеко за рамки простого совпадения по ключевым словам. 
От разбросанных файлов к связанным базам данных
Чтобы опробовать модель в реальном мире, авторы создали семейство баз данных и инструментов под общим названием OSEAN. Они преобразовали три крупных общедоступных ресурса в структуру SEA CDM: ImmPort, который хранит метаданные исследований иммунного ответа; VIGET, связывающий исследования вакцин с данными об активности генов; и CELLxGENE, сосредоточенный на измерениях на уровне отдельных клеток. С помощью специализированных конвейеров они перевели десятки исходных таблиц и форматов файлов в единый набор таблиц SEA CDM или узлов графа. Это позволило им сохранить более тысячи исследований, связанных с иммунитетом, свыше двух миллионов образцов, а также многочисленные описания вакцин, заболеваний и лабораторных методов в единой согласованной структуре, доступной для поиска с помощью одного и того же программного обеспечения.
Что может показать унифицированная база данных о вакцинах и половых различиях
С этой унифицированной системой команда задала биологически и клинически значимый вопрос: как разные вакцины против гриппа стимулируют иммунную систему у женщин и мужчин? Запросив данные из базы OSEAN на основе VIGET и применив простые правила для определения «стимулированного» гена, они выявили сотни генов, активность которых повышалась после вакцинации либо живыми аттенуированными вакцинами (с ослабленным вирусом), либо инактивированными, «убитыми» вакцинами. Затем они сравнили пути, в которых участвуют эти гены, разделив данные по полу. Один заметный паттерн касался нейтрофилов — типа белых кровяных клеток, которые атакуют микробы, выделяя токсические гранулы — и сигнализации через TNF, ключевую воспалительную молекулу. В большинстве групп вакцинация против гриппа была связана с признаками дегрануляции нейтрофилов, но этот сигнатур отсутствовал у женщин, получивших живую аттенуированную вакцину. Напротив, сигналы, связанные с TNF, были особенно выражены у этих женщин, но не у параллельных мужских групп. Эти находки созвучны данным на животных, указывающим на систематические различия в поведении нейтрофилов и ответах на вакцину между самцами и самками.
Создание экосистемы для будущих открытий
Авторы утверждают, что истинная сила SEA CDM заключается в том, что он делает биомедицинские данные более FAIR — доступными для поиска, доступными, интероперабельными и повторно используемыми. Предоставляя экспериментам общую структуру и привязывая каждую важную метку к точно определенному термину онтологии, их система значительно упрощает объединение данных из разных источников, отслеживание того, как обрабатывались образцы, и воспроизведение анализов. Пример с гриппом демонстрирует, что даже относительно простые запросы к гармонизированной базе данных могут обнаружить тонкие, специфичные для пола закономерности в ответе на вакцину, которые могут повлиять на дозирование или выбор вакцины. По мере того как всё больше ресурсов будет применять эту общую модель и сопровождающие инструменты, исследователи получат лучшие возможности связывать улики между заболеваниями, технологиями и популяциями, превращая разрозненные наборы данных в подлинную интегративную экосистему биоданных.
Цитирование: Huffman, A., Yeh, FY., Hur, J. et al. SEA CDM: Study-Experiment-Assay Common Data Model and Databases for Cross-Domain Data Integration and Analysis. Sci Data 13, 238 (2026). https://doi.org/10.1038/s41597-026-06558-z
Ключевые слова: интеграция данных, биомедицинская онтология, ответ на вакцину, половые различия, граф знаний