尽管生物化学家几十年来一直在测量生物物理参数,但这些测量通常是低通量的。相比之下,基于高通量测序的分析往往侧重于检测仅间接反映这些数量的富集模式。此外,现代机器学习方法,如深度神经网络,往往会产生高度过度参数化的黑箱模型,其参数没有直接的生物物理意义。在此,美国哥伦比亚大学Harmen J. Bussemaker等人描述了一种灵活的机器学习方法并将其称为ProBound,它可以根据平衡结合常数或动力学速率准确定义序列识别。ProBound使用三层对多库测序数据系统地建模:1)结合层利用序列识别模型从序列预测结合自由能或酶效率;2)分析层对生成库的选择步骤进行编码并预测所有配体的频率;3)测序层在测序期间对库的随机采样进行建模。这些层被组合在一个似然函数中,该函数被优化以推断识别模型。尽管由于随机库的复杂性,许多配体具有噪声计数或完全缺失,但最终的识别模型是稳健的。此外,每一层都易于扩展。默认情况下,对应于特定位置的亲和矩阵,结合层可扩展为包括碱基相互作用或多个转录因子(TF)的协同结合。分析层的灵活性使替代过程的建模成为可能,如酶改性。最后,可以联合分析多个测序层以分析更复杂的现象(如甲基化敏感性)。图1. TF结合模型性能的验证作者展示了ProBound使用模型来量化TF的行为,该模型可用于探测以前无法访问的生物物理参数的测序分析,如捕捉DNA改性的影响和多TF复合物的构象灵活性,并直接通过ChIP-seq等体内数据推断特异性而无需峰值调用。当与称为KD-seq的分析结合使用时,该方法可以确定蛋白质-配体相互作用的绝对亲和力。此外,作者还应用ProBound来分析量化了激酶-底物相互作用的动力学。随着在序列识别方面的研究越来越复杂,如序列的综合影响、辅助因素、DNA甲基化和TF浓度或体外和体内观点的整合,作者预计对互补数据的严格整合将变得越来越重要。据预计,ProBound将在配体或底物的合理工程等至关重要的生物技术领域有诸多应用,并为解码生物网络和合理设计蛋白质-配体相互作用开辟新途径。图2. 综合建模量化了甲基化和辅助因子对TF结合的影响Prediction of protein-ligand binding affinity from sequencing data with interpretable machine learning, Nature Biotechnology 2022. DOI: 10.1038/s41587-022-01307-0