港中文李煜团队开发基于蛋白质语言模型和向量比对的超快速同源序列检索方法DHR

图片
研究背景
      蛋白质同源序列检测是计算生物学中几乎所有序列相关研究的基础,也常常是进化分析、生物标志物预测和药物发现的首要步骤。随着下一代测序技术给生物序列数据库带来显著数量增长,传统的蛋白质同源序列搜索方法难以平衡速度和灵敏度,往往难以发现低相似度同源,要么在过滤阶段就发生了丢失,要么就依赖耗时的序列对齐。
      为处理海量的序列数据,基于蛋白质语言模型和向量比对,香港中文大学李煜团队研发了一种无需对齐,超快速且高度灵敏的方法DHR(Dense Homolog Retrieval),用于在海量数据中检测低相似度同源序列,并提高我们对蛋白质进化、结构和功能的认识。
      就像ChatGPT能够有效处理人类语言一样,在大量序列数据集上预训练的蛋白质语言模型也拥有捕捉进化信息的能力,并且无需进行耗时的动态规划对齐便能够超快速地处理序列。香港中文大学李煜团队开发的DHR方法(图1)利用微调的蛋白质语言模型对查询序列和数据库进行编码,通过对比学习进行训练最后通过对嵌入向量表示进行相似度排序来进行同源性比对。DHR构建的结果相比传统方法(如PSI-BLAST)能够大幅提速22倍以上,相比HMMER更是可以提速28,700倍,同时灵敏度也能显著提升约10%,能检测到其他方法遗漏的新的低相似度同源蛋白。
图片

图1. 无需进行序列对齐,DHR可超快速且灵敏地能检测到低相似度同源蛋白并帮助我们理解蛋白质的进化、结构和功能。

      当其丰富的结果作为MSA(对序列对齐)用于下游任务时,我们发现它与金标准工具的结果高度相似并且有同等的下游任务效果,而构建时长只需要1/93。这是DHR作为单独工具的强大之处。此外,DHR还能与别的方法工具互补结合以创建更多样化和全面的MSA,更进一步帮助下游的任务。以蛋白质结构预测作为例子,将基于DHR构建的MSA和AlphaFold2原本使用的MSA进行融合,我们可以将AlphaFold2在CASP13/14/15数据集上蛋白质结构预测精度提升0.4 Å RMSD。这说明了DHR确实可以找到其他方法遗漏的新的低相似度同源蛋白并且帮助我们理解蛋白质的进化、结构和功能。


作者简介

Fast, sensitive detection of protein homologs using deep dense retrieval