Clear Sky Science · ru
Процессы гармонизации онкологических данных в общую модель данных OMOP (Observational Medical Outcomes Partnership)
Почему важно объединять онкологические данные
Онкологическая помощь генерирует огромные объёмы информации из больниц, регистров, лабораторий и даже опросников пациентов, но эти записи часто хранятся в разных форматах и не «разговаривают» друг с другом. В этой статье объясняется, как исследователи разработали понятный пошаговый процесс, чтобы превратить разрозненные онкологические данные в единый, хорошо организованный формат, который можно более надёжно использовать в исследованиях терапевтических паттернов, выживаемости и общественного здоровья.
Много островков данных вместо единой картины
Онкологические данные необычайно подробны. Они описывают тип опухоли, стадию, генетические маркеры, динамику лечений, побочные эффекты и исходы, и поступают из разных мест: электронных медицинских карт, онкологических регистров, страховых данных, биобанков и анкет. Поскольку каждый источник использует свою структуру и правила наименований, их объединение затруднено и часто приводит к пробелам или потере смысла. Общая модель данных Observational Medical Outcomes Partnership (OMOP CDM) предлагает единый каркас для медицинских данных и всё шире применяется в мире. Однако существующие рекомендации по переносу онкологических данных в эту модель были общими, оставляя командам пространство для разработки собственных локальных решений.

Чему учат предыдущие проекты
Авторы проанализировали 20 проектов, взятых из научных журналов и выступлений международного сообщества специалистов по данным, которые уже пытались конвертировать онкологические данные в формат OMOP. Большинство проектов ориентировались либо на исследования на уровне пациентов (например, изучение исходов конкретных терапий), либо на популяционные вопросы, такие как тенденции выживаемости и мониторинг заболеваний. Наиболее распространёнными источниками данных были регистры рака и больничные записи, как правило из европейских центров, реже — из Америки и Азии. Многие команды использовали специализированные инструменты сообщества OMOP для изучения исходных данных, проектирования отображений, проверки качества и получения схем лечения, но способы организации их работы сильно различались.
Ключевые препятствия, которые повторяются
В этих проектах постоянно всплывали три типа проблем. Во‑первых, исходные данные были грязными или неполными: важные детали отсутствовали, находились в свободном тексте или были разбросаны по нескольким системам, а объединение источников требовало значительной очистки и кураторства. Во‑вторых, сопоставление локальных кодов и описаний со стандартными терминами OMOP оказалось сложным, особенно для богатых онкологических данных, таких как стадирование, результаты биомаркеров и сложные комбинации лекарств; стандартные словари порой были недостаточно детализированы, а свободный текст или геномные данные требовали дополнительных инструментов и экспертного участия. В‑третьих, после создания отображения оно не оставалось статичным: модель данных, словари и инструменты быстро развиваются, поэтому командам нужны планы по поддержке актуальности систем с течением времени.
Пятишаговая дорожная карта для команд
Опираясь на шаблоны из обзора и отзывы экспертов по онкологическим данным, авторы выделили общий пятишаговый процесс гармонизации, адаптированный для онкологии. Первый шаг — Инициирование — включает формирование междисциплинарной команды, согласование целей исследования, понимание локальных правил и знакомство с экосистемой OMOP. Анализ требований затем погружается в исходные данные: какие виды данных есть, как они структурированы, насколько полны и надёжны, и где находятся основные риски. Планирование дизайна переводит это понимание в детальный план трансформации и сопоставления данных, выбор инструментов, обработку эпизодов ухода (например, курсов лечения) и критерии оценки успеха.

От сырых записей к пригодным для исследований данным
Четвёртый шаг — Техническая реализация — воплощает план в жизнь. Команды очищают и аккуратно курируют данные, извлекают релевантные фрагменты, преобразуют их в таблицы OMOP и системно проверяют качество. Особое внимание уделяется построению временных шкал онкологического пути каждого пациента с использованием таблиц OMOP, которые представляют эпизоды и связанные события, такие как диагнозы, процедуры и воздействие лекарств. Пятый шаг — Поддержка и обновление — признаёт, что работа не завершается: словари, программные инструменты и онкологические знания меняются, поэтому команды должны планировать обновления, следить за новыми проблемами и уточнять свои отображения и соглашения. Два сквозных принципа поддерживают все этапы: циклы тестирования и улучшения и тщательная документация решений, чтобы работа была прозрачной и повторно используемой.
Что это значит для пациентов и исследователей
Для широкой аудитории главный вывод таков: лучшее использование существующих онкологических данных зависит не столько от новых гаджетов, сколько от тщательных, совместных методов организации информации. Эта статья предлагает практическую дорожную карту, которую любая больница или исследовательская группа может адаптировать, чтобы привести разрозненные онкологические записи к общему формату, уважая при этом локальные правила и технологии. Облегчив объединение данных между центрами и странами, предложенный процесс призван поддержать более надёжные исследования того, как лечат рак и как пациенты себя чувствуют в повседневной практике, помогая клиницистам и политикам принимать решения на основе более ясной и полной картины.
Цитирование: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
Ключевые слова: онкологические данные, OMOP common data model, гармонизация данных, реальные данные (real world evidence), информатика здравоохранения