Clear Sky Science · zh
ProteoAutoNet:采用机器人技术和机器学习的高通量共洗脱蛋白分析
为什么理解蛋白伙伴关系很重要
在每个细胞内,蛋白质很少独自工作。它们在不断变化的联盟中协同构建结构、复制 DNA、清除受损成分并支持生长。许多癌症会劫持这些伙伴关系,但要详尽绘制它们一直是缓慢且费力的工作。本研究介绍了 ProteoAutoNet —— 一个由机器人和机器学习驱动的系统,显著加快了科学家发现细胞内蛋白伙伴关系的速度,并展示了该方法如何揭示甲状腺癌中的潜在脆弱点。

打造更快的蛋白伙伴工厂
传统上,科学家使用称为共分离质谱的技术来分离大型蛋白复合体并鉴定其组成。尽管功能强大,但该方法劳动强度大且通量低:手工制备数百个分级样本可能需要多天时间。作者构建了一个机器人辅助平台,自动化了大部分工作流程。细胞内容物首先被温和地裂解以保持天然蛋白复合体完整,然后通过基于尺寸的柱层析将其分成数十个分级。液体处理机器人和机械臂随后接手,添加化学试剂、将蛋白酶解为更小的片段、净化样本并将其送入质谱仪进行测量。该体系可在短短两到三天内处理来自多个甲状腺细胞系的多达540个分级样本,与先前的半自动系统相比,通量大约翻倍。
不仅更快,机器人更可靠
如果结果嘈杂或不一致,仅仅更快是不够的。团队仔细检验了机器人流程是否达到或超过传统手工处理的质量。通过质控样本,他们展示了自动化系统在每个甲状腺细胞系中反复鉴定出近3000种蛋白,重复间具有很高的重叠度且蛋白量测定一致性强。当他们将相同样本的机器人和手工处理直接比较时,两种方法检测到的蛋白数量相近,但机器人方法在计数变异性上略低,蛋白丰度测量更稳定。这意味着新平台不仅节省时间和人力,还支持更可重复的实验——这是大规模研究和临床应用的关键要求。
教计算机识别有意义的连接
即便仪器速度很快,一个核心挑战仍然存在:判定哪些蛋白是真正相互作用,哪些仅是偶然共同出现。为了解决这个问题,作者将经人工整理的蛋白复合体数据库与基于 XGBoost 算法的机器学习模型相结合。他们首先清理并合并了三大蛋白复合体资源,最终得到96,635条已知蛋白–蛋白相互作用。然后使用蛋白在各分级中出现的谱型作为输入特征,并根据数据库将蛋白对标注为可能的伙伴或非伙伴。由于真实的高置信度伙伴关系相对稀少,他们采用了一种针对性的增强策略:对已知阳性示例制作许多轻微扰动的版本,以教会模型识别稳健模式而非记忆特定轨迹。在来自三个甲状腺细胞系的数千万此类样本上训练后,模型表现强劲,在内部测试和独立验证细胞系中均能将真实相互作用显著排在随机之上。
对癌细胞机器的全新观察
借助这一工作流,研究者绘制了一个正常甲状腺细胞系和两个癌性细胞系(一个乳头状甲状腺癌系和一个可转移到肺部的滤泡癌系)的相互作用网络。在这些细胞中,他们识别出超过25,000条可能的蛋白相互作用,并在核糖体(合成蛋白的机器)和蛋白酶体(降解蛋白的机器)等已知细胞机器上发现强烈信号,证实该方法能重现已建立的生物学知识。通过将癌细胞与正常系比较,他们发现了在疾病中上调的网络。在转移性滤泡癌细胞中,蛋白酶体组分和名为 prefoldin 的伴侣复合体在连接性和丰度上明显增强。几个 prefoldin 亚基此前已与其他癌症相关联,但全局蛋白质调查可能错过了它们在甲状腺癌中协同变化的特征,原因可能是这些蛋白受降解严格控制。共分离方法在复合体层面揭示了它们的协同变化。

可引导未来治疗的隐性联系
这项研究还强调了一些可能影响甲状腺癌生长与转移的特定相互作用。一个例子是预测到的 HK1(启动细胞主要糖代谢途径的酶)与 TGM2(一种已知促进甲状腺肿瘤侵袭与转移的蛋白)之间的伙伴关系。这个 HK1–TGM2 连接在现有相互作用数据库中没有记录,但得到了结构建模的支持,并在乳头状癌系中特别活跃,提示代谢重编程与侵袭性行为可能存在物理上的联系。总体而言,ProteoAutoNet 展示了如何将机器人技术与机器学习结合,将缓慢、依赖专家的蛋白网络绘制转变为更具可扩展性的流程。对非专业读者而言,关键结论是该技术既能揭示细胞机器的广泛变化,也能发现意想不到的蛋白伙伴关系,这些发现未来可能帮助医生更好地预测哪些甲状腺癌会表现出侵袭性,并指引新的治疗靶点。
引用: Lyu, M., Hu, P., Zhang, G. et al. ProteoAutoNet: high-throughput co-eluted protein analysis with robotics and machine learning. Nat Commun 17, 1949 (2026). https://doi.org/10.1038/s41467-026-68686-9
关键词: 蛋白相互作用, 质谱, 生物学中的机器学习, 甲状腺癌, 蛋白酶体与折叠前体复合体