Clear Sky Science · ru
Многозадачный подход, объединяющий регрессию и классификацию для совместного отбора признаков
Почему этот новый инструмент для данных важен
Современная медицина собирает огромные объёмы информации о каждом пациенте — от лабораторных показателей и жизненных функций до детальных измерений мозга и генетики. Врачи и исследователи часто хотят предсказывать сразу несколько вещей — например, диагноз болезни и уровни важных кровяных маркеров — одновременно выявляя, какие измерения действительно имеют значение. В этой статье представлен новый статистический инструмент под названием MTLComb, который помогает одновременно решать обе эти задачи более справедливо и надёжно, особенно когда разные предсказания относятся к разным типам.

Разные вопросы — общая проблема
Многие системы машинного обучения обучаются отвечать только на один тип вопросов, например предсказывать число (возраст или артериальное давление) или предсказывать да/нет исход (наличие заболевания или нет). Однако в реальных медицинских исследованиях такие вопросы часто встречаются вместе и имеют общие биологические причины. В идеале одна модель справлялась бы со всеми этими вопросами сразу и выделяла бы измерения, важные во всех задачах — потенциальные биомаркеры, общие для нескольких исходов. Существующие методы так называемого многозадачного обучения работают, когда все задачи одного типа, но испытывают трудности при смешивании числовых и бинарных предсказаний. Один тип задачи склонен доминировать в процессе обучения, и важные общие сигналы могут быть упущены.
Балансировка влияния внутри алгоритма
Суть MTLComb — простое, но тщательно выведенное правило для перераспределения того, как разные задачи предсказания влияют на обучение. Авторы показывают, что функции потерь для числовых и бинарных предсказаний естественно работают на разных шкалах и имеют градиенты разной силы. При наивном объединении модели для непрерывных исходов начнут выбирать много признаков, в то время как модели для бинарных исходов при том же уровне штрафа могут не выбрать ничего, и это смещает общий список признаков. Проанализировав поведение градиентов, исследователи определили фиксированный набор весов, который приводит кривые обучения — называемые путями регуляризации — двух типов задач в соответствие. Это означает, что по мере того как модель становится более или менее избирательной, оба типа задач добавляют и исключают признаки согласованно, что делает итоговый набор биомаркеров более сбалансированным и интерпретируемым.

Тестирование метода в контролируемых симуляциях
Чтобы понять, когда MTLComb даёт наибольшую пользу, команда сначала провела обширные симуляционные исследования. Они создали наборы данных, в которых число измерений было значительно больше числа пациентов — типичная ситуация в генетике и исследованиях отделений интенсивной терапии. Они варьировали степень этого дисбаланса, количество включённых задач предсказания и неравномерность бинарных меток. В этих сценариях MTLComb не только предсказывал будущие данные точнее, чем конкурирующие методы, но и лучше восстанавливал реально релевантные признаки, заложенные в симуляциях. Его преимущество было особенно заметно при очень высокой размерности данных или когда один из классов исхода был намного реже другого — оба эти случая известны своей сложностью в медицинских исследованиях.
Проверки на реальных данных: сепсис и шизофрения
Затем авторы применили MTLComb к двум сложным клиническим задачам. При сепсисе, угрожающей жизни реакции на инфекцию, они обучали метод на рутинных данных отделений интенсивной терапии, чтобы предсказывать как наличие сепсиса, так и несколько кровяных маркеров метаболизма и функции почек. MTLComb показал точность предсказаний, сопоставимую с сильными однозадачными методами, но выбранные им признаки были более стабильны в двух независимых когортах пациентов и теснее связаны с известными клиническими шкалами, суммирующими тяжесть состояния. В задаче шизофрении они сочетали предсказание возраста с диагностикой на основе данных экспрессии генов мозга. Здесь MTLComb выявил наборы генов, которые последовательно коррелировали и с возрастом, и со статусом заболевания; эти гены были обогащены путями нейронной сигнализации, уже связанными со шизофренией и старением, что указывает на общую биологическую ветвь, связанную с синаптической пластичностью.
Что это означает в перспективе
Для неспециалиста ключевая мысль в том, что MTLComb позволяет решать несколько медицинских вопросов одновременно, при этом обеспечивая справедливое отношение к каждому из них. Вместо того чтобы позволять одному типу предсказания заглушать остальные, метод аккуратно их уравновешивает, так что наиболее информативные измерения последовательно выходят на первый план. Метод разработан с прицелом на эффективность, хорошо работает в условиях, когда измерений намного больше, чем пациентов, и не опирается на предположения, специфичные для какой‑то одной болезни. Таким образом он даёт исследователям более прозрачный доступ к общим маркёрам риска — будь то при сепсисе, шизофрении или в совершенно других областях, где возникают смешанные задачи предсказания — и может помочь превращать сложные многослойные данные в более надёжные подсказки для диагноза, прогноза и лечения.
Цитирование: Cao, H., Rajan, S., Hahn, B. et al. A multi-task learning approach combining regression and classification tasks for joint feature selection. Sci Rep 16, 12699 (2026). https://doi.org/10.1038/s41598-026-43551-3
Ключевые слова: многозадачное обучение, биомаркеры, сепсис, шизофрения, медицинский ИИ