X-射线晶体学(X-ray crystallography)是解析蛋白质三维结构的主要方法,成功获得可供衍射的晶体是该结构解析方法顺利进行的关键。然而,在目标蛋白质成功结晶之前,多个实验步骤过程均存在失败的可能性,包括蛋白质克隆失败、蛋白质重组表达失败、纯化失败、以及最终获得高精度的、可供衍射的结晶失败等。因此,从蛋白质一级序列信息出发,准确预测目标蛋白质成功通过多个实验步骤的倾向性,将有助于筛选容易成功结晶的目标蛋白,从而帮助降低实验费用和试错成本,加速蛋白质晶体结构解析的过程。
中科院天津工业生物技术研究所宋江宁研究员带领的结构生物信息学与整合系统生物学研究组与中国农业大学生物信息学中心合作,对蛋白质结晶过程的重要理化性质以及与蛋白质克隆、表达、纯化和结晶等多个实验步骤的相关性进行了深入研究。最近的研究开发出生物信息学工具PredPPCrys,可以用于精确预测目标蛋白质结晶多步骤实验过程成功的倾向性。这一研究首先提取了能够描述蛋白质理化性质的不同方面、互补的基于序列的高维特征值,再进一步应用了高效的多阶段异源特征选择策略,最终获得最优、预测精度最佳的低维特征组合。该研究构建了两层的高准确率支持向量机(SVM)模型:第一层模型PredPPCrys I利用最优特征值组合构建SVM模型;第二层模型PredPPCrys II则进一步利用第一层模型PredPPCrys I的五步骤实验倾向的预测结果,构建第二层的SVM模型。研究结果表明,这一策略可以大幅度提高预测准确率。基于最新和以往的不同独立测试集上的基准测试结果表明,PredPPCrys工具能够提供最佳的预测精度。另外,研究人员还将PredPPCrys工具应用于预测目前尚未结晶的所有的结构基因组学靶标蛋白质,这一结果数据可从天津工业生物所在线网站下载(http://www.structbioinfor.org/PredPPCrys)。该方法还成功研发了在线服务的生物信息学工具,将为世界各地的结构基因组学组织和研究团队的目标蛋白的选择和设计提供极大帮助。
该研究获得国家自然科学基金(61202167, 61303169, 31350110507, 11250110508)资助。研究结果发表在国际开放获取期刊PLoS ONE上,中科院天津工业生物所科研助理王辉林为论文第一作者。
文章链接
预测目标蛋白质克隆、表达、纯化和结晶过程多实验步骤成功倾向性的PredPPCrys方法示意图