被誉为生命科学领域的“登月计划”——人类基因组计划,其测序工作已于2005年基本完成。该项工作为人们理解生物体的奥秘提供了基础,但同时人们也发现单从基因序列的角度并不能完整地阐述生物功能。由此开启了“后基因组时代”的大门。
被誉为生命科学领域的“登月计划”——人类基因组计划,其测序工作已于2005年基本完成。该项工作为人们理解生物体的奥秘提供了基础,但同时人们也发现单从基因序列的角度并不能完整地阐述生物功能。由此开启了“后基因组时代”的大门。
蛋白质作为基因表达的产物,现代生物学的许多研究都依赖于蛋白质的空间结构,但限于实验方法测定蛋白质结构的速度和代价,蛋白质结构预测算法成为了首选途径。
目前为止,已经有许多蛋白质结构预测算法被提出,然而如何从数量巨大的候选结构中选出最接近天然状态的结构目前仍是一个悬而未决的问题。
Zhang Yang 等提出的I-TASSER 蛋白质结构预测算法在多届CASP大赛中名列前茅,其使用了一种基于动态阈值的聚类算法 SPICKER。最近兰州大学的路永钢教授及其同事在此基础上,提出了一种新的聚类方法(Selecting near-native protein structures from ab initio models using ensemble clustering)【1】,发表在最近一期的 Quantitative Biology 期刊中。
在蛋白质预测过程中,通常使用启发式方法搜索整个构象空间,以某种置信度为约束,比如计算能量或先验概率。然而这些约束并不足够可靠,难以准确计算或是经验性的,因而会产生大量候选结构。Shortle 等人的试验证明了聚类的有效性,中心结构比其它候选结构更接近天然状态。
传统聚类方试图寻找一种更精确的划分,进而使用最优簇的中心模型或平均模型作为最终结果。SPICKER中使用了平均模型策略,虽然平均模型能减小结果的平均误差,但是往往会得到一些不规则结构。其次,贪心策略的使用可能导致最终结果距离最佳聚类较远,这也可能是其在较差的预测数据集中表现不佳的原因之一。
在文中作者提出了一种基于集成聚类的方法,通过对不同的聚类划分进行横向选择,直接聚焦候选结构中潜在的代表性结构的选取。进而对这些代表性结构进行纵向对比,同时考虑代表簇的大小和密度,定义了置信分数,分数最大的代表结构作为最后结果。
相比于 SPICKER 方法,初步的实验结果表明,大部分情况下文中提出的集成聚类方法能获得较好的结果模型,并且不存在与候选结构集中的最佳结构相差较大的情况。
copyright©金宝搏网站登录技巧 版权所有,未经许可不得复制、转载或镜像
京ICP证120392号 京公网安备110105007198 京ICP备10215607号-1 (京)网药械信息备字(2022)第00160号