Clear Sky Science · ru
Оценка эволюционной связи белка, связывающего TATA (TBP), с различными схемами сворачивания доменов белков с использованием метода опорных векторов (SVM)
Как белок‑«выключатель» ДНК связан со многими другими
Белок, связывающий TATA‑бокс, или TBP, — это трудяга наших клеток: он помогает включать гены, захватывая ДНК у множества промоторов. В этом исследовании ставится обманчиво простой вопрос с большими последствиями: существуют ли другие белки с совсем разными функциями, которые незаметно разделяют базовую форму TBP? Сочетая сравнение трёхмерных структур, анализ последовательностей и современные инструменты машинного обучения, авторы прослеживают скрытые родственные связи между TBP и белками, вовлечёнными в метаболизм, нейротрансмиттерную химию и даже пути, связанные с раком.
Ключевой белок в центре контроля генов
TBP стоит на пороге экспрессии генов у организмов от дрожжей до человека. Он распознаёт короткую последовательность ДНК, называемую TATA‑боксом, и изгибает ДНК, чтобы помочь собрать крупный транскрипционный аппарат, переписывающий гены в РНК. Поскольку этот этап настолько важен, сворачивание — трёхмерное расположение — ядра TBP сильно консервативно в ходе эволюции. Авторы сосредотачиваются на хорошо изученной структуре TBP, известной как 1tba, и используют её как зонд для поиска других белков, которые могут разделять её архитектурный план, даже если их аминокислотные последовательности и повседневные функции на первый взгляд выглядят очень по‑разному.

Поиск структурных «кузенов» в плотной белковой вселенной
Современные базы данных содержат сотни тысяч структур белков, что даёт возможность искать дальних родственников по 3D‑форме, а не только по последовательности. С помощью двух мощных инструментов, DALI и TOP‑search, команда сначала отобрала белки со сворачиваниями, похожими на TBP. Затем они классифицировали этих кандидатов с помощью каталога эволюционных доменов и сузили набор до небольшой группы структурно схожих, но функционально разнообразных примеров. Среди них — фермент, синтезирующий глутамин и важный для метаболизма, домен, встречающийся в нескольких ферментах, работающих с тРНК, фермент с характерным «хот‑дог»‑сворачиванием, вовлечённый в химию жирных кислот, и белки, участвующие в синтезе тетрагидробиоптерина, молекулы, критичной для функции мозга. Наложение их структур на TBP показало, что несмотря на разные функции, они сохраняют узнаваемые ядровые мотивы.
Обучение машин распознавать скрытые белковые семейства
Чтобы перейти от показа по одному случаю к масштабному анализу, авторы построили модели машинного обучения, которые могли автоматически отмечать сворачивания, похожие на TBP. Они собрали большие наборы аминокислотных последовательностей, известных как принадлежащие к TBP или к каждому из родственных сворачиваний, а также широкий «фоновой» набор неродственных белков. Каждый белок был представлен простыми числовыми описателями: как часто встречается каждая аминокислота и как часто встречаются все возможные пары аминокислот в последовательности. Эти профили использовались методами опорных векторов (SVM) и случайных лесов, которые научились отделять один тип сворачивания от всех остальных. При строгой перекрёстной проверке модели достигали очень высокой точности — зачастую выше 95 процентов — даже при обучении только на частях последовательностей, соответствующих консервативным областям.

Тестирование моделей на тысячах неизвестных структур
Вооружившись этими обученными классификаторами, команда вернулась к структурным базам данных. Они прогнали тысячи цепочек белков — извлечённых из DALI и TOP‑search — через свои модели, чтобы увидеть, какие из них несут статистические признаки сворачивания, похожего на TBP или на родственные типы. Подходы SVM и случайных лесов в основном сходились и отобрали множество кандидатов, которых структурные инструменты также помечали как похожие. В некоторых случаях ферменты с казалось бы несвязанной активностью тем не менее сильно группировались рядом с TBP или друг с другом, что усиливает идею о том, что эволюция может переназначать одну и ту же базовую структуру для множества различных биохимических ролей.
Почему эти скрытые связи важны
Исследование заключает, что TBP разделяет глубокое структурное родство с несколькими семействами ферментов, включая белки, похожие на глутаминсинтазу, и редактирующие домены ферментов обработки тРНК. Даже когда последовательности дрейфовали и функции расходились, эти белки сохраняют общие архитектурные мотивы, что указывает на происхождение от общего предка. Для неспециалиста ключевое сообщение таково: природа склонна повторно использовать успешные конструкции — одна схема сворачивания может многократно адаптироваться для решения очень разных задач, от включения генов до тонкой настройки метаболизма и работы мозга. Сочетая сравнение 3D‑структур с машинным обучением, авторы предлагают практичный набор инструментов для выявления таких связей, помогая биологам предсказывать функции неохарактеризованных белков и указывая разработчикам лекарств новые, эволюционно обоснованные мишени в путях, связанных с болезнями.
Цитирование: Selvaraj, M.K., Kaur, J. Evaluating the evolutionary relationship of TATA binding protein (TBP) with various folding patterns of protein domains using support vector machine (SVM). Sci Rep 16, 7696 (2026). https://doi.org/10.1038/s41598-026-38883-z
Ключевые слова: белок, связывающий TATA‑бокс, эволюция белков, машинное обучение, структура белка, метод опорных векторов