NAR|IMG/VR v4:在广泛的功能、分类学和生态学元数据框架内的未培养病毒基因组扩展数据库

在广泛的功能、分类学和生态学元数据框架内的未培养病毒基因组扩展数据库
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata
Article,Nucleic Acids Research,2023-01-06, [IF 19.16]
DOI:10.1093/nar/gkac1037
第一作者:Antonio Pedro Camargo(共通讯)
通讯作者:Nikos C Kyrpides, Simon Roux
主要单位:联合基因组研究所,劳伦斯伯克利国家实验室,伯克利(DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA 94720, USA DOE)
翻译:周之超@UW-Madison
图片
- 背景 -
病毒被广泛认为是所有微生物组的重要成员。宏基因组学实现了对全球病毒圈的大规模探索,逐步揭示了地球上病毒的广泛基因组多样性,并强调了病毒影响生物过程的各种方式。IMG/VR提供了从(宏)基因组获得的最大的病毒序列集合,以及功能注释和丰富的元数据(metadata)。一个网络界面使用户能够根据基因组特征和/或序列相似性有效地浏览和搜索病毒。在这里,我们提出了IMG/VR的第四个版本,由超过1500万个病毒基因组和基因组片段组成,与前一个版本相比,规模增加了≈6倍。这些病毒聚类为870万个病毒操作分类单位,包括231408个至少有一个高质量的代表。IMG/VR中的病毒序列现在使用一种新的检测方法(geNomad)从基因组、元基因组和元转录组中系统地识别出来,IMG标准注释还辅以使用CheckV的基因组质量评估、反映最新分类标准的分类法和微生物宿主分类法的预测。IMG/VR v4可在https://img.jgi.doe.gov/vr,基础数据可在https://genome.jgi.doe.gov/portal/IMG_VR 下载。
相比于2022年年初发表的V3(https://mp.weixin.qq.com/s/kytq3Ec35EUO_RMOn24Hzg ),2023年年初发表的IMG/VR V4有如下方面的提升:
1.病毒基因组和片段的数量达到1500万个,是以前的6倍。231408个vOTU至少有一个高质量代表序列,比之前的数字11577提升了近20倍。
2.添加了丰富的元数据,在用户界面和下载页面可以方便获取。
3.发明了新的检测方法geNomad。
- 讨论(需要注意的方面) -
1.虽然在过去的几年里,病毒序列预测工具的性能和准确性有了很大的提高,但这些预测仍然不完善,特别是对于短序列和与其他类型的移动遗传元素(如质粒)密切相关的病毒。由于不同类型的UViG分析可以容纳不同程度的非病毒序列,而且为了使用户能够应用他们自己喜欢的严格程度,IMG/VR v4现在将最有把握的预测归入 "高信心 "类别,并提供与每个UViG相关的原始geNomad分数,以便进一步细化。
2.目前的预测方法通常存在召回率(recall)低或准确性(accuracy)低的问题。对于IMG/VR v4,选择了一套保守的方法和截止点,这应该产生准确的预测,但只对少数的UViG产生预测。尽管如此,对这些宿主的预测应谨慎解释,不能将其视为确定的病毒-宿主关联。
3.自2016年以来,IMG/VR通过提供来自广泛环境和病毒类型的大量病毒基因组,成为病毒生态学领域的旗舰数据库。这里介绍的新的IMG/VR v4版本拥有迄今为止最大的UViGs集合。
参考文献
Antonio Pedro Camargo, Stephen Nayfach, I-Min A Chen, Krishnaveni Palaniappan, Anna Ratner, Ken Chu, Stephan J Ritter, T B K Reddy, Supratim Mukherjee, Frederik Schulz, Lee Call, Russell Y Neches, Tanja Woyke, Natalia N Ivanova, Emiley A Eloe-Fadrosh, Nikos C Kyrpides, Simon Roux, IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata, Nucleic Acids Research, Volume 51, Issue D1, 6 January 2023, Pages D733–D743, https://doi.org/10.1093/nar/gkac1037
- 作者简介 -
图片
微生物组数据科学组
Nikos C. Kyrpides 
Ph.D
Kyrpides博士于2004年加入能源部联合基因组研究所,领导基因组生物学项目和微生物基因组和元基因组的比较分析平台(IMG)的开发。他在2010年成为元基因组学项目负责人,并从2011年起负责微生物基因组和元基因组的合并项目。在加入能源部联合基因组研究所之前,Kyrpides博士在伊利诺伊州芝加哥的Integrated Genomics Inc.领导基因组分析和生物信息学核心的发展。他在伊利诺伊大学厄巴纳-香槟分校和阿贡国家实验室跟随Carl Woese进行了博士后研究。Kyrpides博士的研究重点是微生物组研究,重点是微生物组数据科学。他的小组正在开发新的方法,以实现大规模的比较分析,以及大数据的挖掘和可视化。
https://jgi.doe.gov/our-science/scientists-jgi/nikos-kyrpides/
图片
美国能源部联合基因组研究所
Simon Roux
组长,Ph.D
Roux博士于2017年加入JGI,作为元基因组计划的一部分领导病毒基因组学研究。他的职责包括开发新的计算工具来识别病毒序列,设计新的实验方法将病毒与它们的宿主联系起来,与JGI用户合作分析病毒数据集,并组织病毒生态基因组学领域的社区建设工作。对于这个角色,Roux博士可以依靠他在病毒生态学和病毒基因组学领域超过10年的专业知识,他在那里参与了跨学科的合作研究,重点是发展微生物系统中病毒多样性和病毒-宿主互动的基础知识。通过2021年能源部早期职业研究计划,Roux博士在JGI建立了病毒基因组学小组,目前正在领导该小组进一步探索土壤微生物群落中病毒-宿主动态的生态和进化驱动因素。
https://jgi.doe.gov/our-science/scientists-jgi/simon-roux/