Clear Sky Science · sv

Utvärdering av den evolutionära relationen mellan TATA-bindande protein (TBP) och olika veckningsmönster hos proteindomäner med hjälp av supportvektormaskin (SVM)

· Tillbaka till index

Hur ett DNA‑"på/av‑switch"‑protein kopplar till många andra

TATA‑box bindande proteinet, eller TBP, är en arbetshäst i våra celler: det hjälper till att slå på gener genom att fästa vid DNA vid många promotorer. Denna studie ställer en vilseledande enkel fråga med stora implikationer: finns det andra proteiner, med mycket olika uppgifter, som i tysthet delar TBP:s underliggande form? Genom att kombinera 3D‑strukturjämförelser, sekvensanalys och moderna maskininlärningsverktyg spårar författarna dolda släktskap mellan TBP och proteiner som är involverade i metabolism, neurotransmittor‑kemi och till och med cancerrelaterade vägar.

Ett nyckelprotein i genregleringens mitt

TBP sitter vid ingången till genuttryck i organismer från jäst till människor. Det känner igen en kort DNA‑sekvens kallad TATA‑boxen och böjer DNA:t för att hjälpa till att montera det stora transkriptionsmaskineriet som kopierar gener till RNA. Eftersom detta steg är så centralt är veckningen — proteinets tredimensionella arrangemang — av TBP:s kärna högt bevarad genom evolutionen. Författarna fokuserar på en välstuderad TBP‑struktur känd som 1tba och använder den som en sond för att söka efter andra proteiner som kan dela dess arkitektoniska ritning, även om deras aminosyrasekvenser och vardagliga uppgifter vid första anblick ser mycket olika ut.

Figure 1
Figure 1.

Hitta strukturella kusiner i ett trångt proteinuniversum

Moderna databaser innehåller hundratusentals proteinstrukturer, vilket gör det möjligt att skanna efter avlägsna släktingar efter 3D‑form snarare än enbart sekvens. Med två kraftfulla verktyg, DALI och TOP‑search, plockade teamet först ut proteiner vars veckningar liknade TBP:s. De klassificerade sedan dessa kandidater med ett evolutionärt domänkatalog och begränsade dem till en liten uppsättning strukturellt lika men funktionellt olika exempel. Dessa inkluderar ett glutaminbildande enzym viktigt i metabolismen, en domän som finns i flera tRNA‑hanterande enzymer, ett enzym med ett distinkt "hot‑dog"‑veck involverat i fettsyrakemi, och proteiner som hjälper till att bilda tetrahydrobiopterin, en molekyl avgörande för hjärnfunktionen. Genom att ligga dessa strukturer över TBP visade det sig att de, trots olika uppgifter, delar igenkännliga kärnmotiv.

Lära maskiner att känna igen dolda proteinfamiljer

För att gå bortom fall‑för‑fall‑inspektion byggde författarna maskininlärningsmodeller som automatiskt kunde flagga TBP‑lika veckningar. De sammanställde stora satsar av proteinsekvenser som var kända att tillhöra TBP eller var och en av de relaterade veckningarna, tillsammans med en bred "bakgrund" av orelaterade proteiner. Varje protein konverterades till enkla numeriska sammanfattningar: hur ofta varje aminosyra förekommer, och hur ofta varje möjlig aminosyrapar uppträder i sekvensen. Dessa profiler matades in i supportvektormaskiner (SVM) och random‑forest‑modeller, som lärde sig att skilja en veckningstyp från alla andra. Med rigorös korsvalidering uppnådde modellerna mycket hög noggrannhet — ofta över 95 procent — även när de tränades på bara delar av sekvenserna som motsvarar konservade regioner.

Figure 2
Figure 2.

Testa modellerna på tusentals okända strukturer

Beväpnade med dessa tränade klassificerare återvände teamet till strukturdatabaserna. De körde tusentals proteinkedjor — hämtade från DALI och TOP‑search — genom sina modeller för att se vilka som bar de statistiska kännetecknen för TBP‑lika eller relaterade veckningar. SVM‑ och random‑forest‑metoderna var till stor del överens och plockade ut många kandidater som även strukturella verktyg flaggat som liknande. I vissa fall klustrade enzymer med till synes orelaterade aktiviteter ändå starkt med TBP eller med varandra, vilket stärker idén att evolutionen kan återanvända samma underliggande ram för många olika biokemiska roller.

Varför dessa dolda kopplingar är viktiga

Studien drar slutsatsen att TBP delar djup strukturell härkomst med flera enzymfamiljer, inklusive proteiner liknande glutaminsyntetas och redigeringsdomäner hos tRNA‑bearbetande enzymer. Även när sekvenser har drivit isär och funktioner divergerat behåller dessa proteiner gemensamma arkitektoniska motiv, vilket tyder på nedstamning från en gemensam förfader. För en icke‑specialist är huvudbudskapet att naturen tenderar att återanvända framgångsrika designer: ett veck kan anpassas upprepade gånger för att lösa mycket olika problem, från att slå på gener till att finjustera metabolism och hjärnkemi. Genom att kombinera 3D‑strukturjämförelse med maskininlärning erbjuder författarna ett praktiskt verktyg för att upptäcka sådana relationer, vilket hjälper biologer att förutsäga vad okaraktäriserade proteiner kan göra och pekar ut evolutionärt vägledda mål för läkemedelsutvecklare i sjukdomsrelevanta vägar.

Citering: Selvaraj, M.K., Kaur, J. Evaluating the evolutionary relationship of TATA binding protein (TBP) with various folding patterns of protein domains using support vector machine (SVM). Sci Rep 16, 7696 (2026). https://doi.org/10.1038/s41598-026-38883-z

Nyckelord: TATA-box bindande protein, proteinevolution, maskininlärning, proteinstruktur, supportvektormaskin