微生物多样性系列1:16S rRNA引物的选择及其测序策略

  随着新一代DNA测序技术出现,人们能够同时对多个DNA样本的宏基因组进行并行分析。尤其是以16S rRNA基因高变区为分子标记的测序已经成为微生物多样性研究最为简洁有效的方法。目前二代高通量测序的读长不能覆盖16S rRNA基因的全长,需要选择一个有效的高变区进行测序。十多年来,对于16S rRNA基因高变区的选择策略没有统一的标准。本文分析了常用的高变区选择策略,指出不同环境条件是影响高变区选择的重要因素之一。在此基础上,提出了高变区选择的参考准则,同时建议应对选择的高变区进行有效评估。

  1. 16S rRNA 的结构

  图1 16S rRNA一级结构示意图

  Figure 1 Primary structure of 16S rRNA

  16S rDNA指的是基因组中与编码核糖体16S rRNA分子对应的DNA序列。一般进行系统进化分析或是对某特定环境进行细菌群落结构分析时,所分析的对象都是16S rDNA。因为DNA 提取容易,也比较稳定,但研究者从习惯上往往还是以 16S rRNA来进行描述。在基因组上,16S rRNA基因与5S rRNA和23S rRNA的各自编码基因组成一个转录单元,共同转录。大肠杆菌16S rRNA全长基因约为1,542 bp,由9个可变区和10个保守区组成,其中保守区反映了生物物种间的亲缘关系,而可变区则表明物种间的差异,其位置和长度见图1和表1。

  表 1 16SrRNA可变区在16SrRNA基因上的位置

  Table1 Position of the hypervariable regions in 16S rRNA

  注:大肠杆菌16S rRNA位点Position in 16S rRNA ofE.coli

  在分析原核微生物多样性时,最为常用的基因是核糖体RNA(rRNA)基因。由于功能上高度保守,序列上的不同位置具有不同的变异速率,核糖体RNA (rRNA)是目前在微生物分子生态学上最为有用以及应用最广泛的分子标记。一般认为,rRNA基因很少发生大规模的横向基因迁移,具有一系列由非常保守到高变的区域,适合于原核微生物分类信息的确定。通过rRNA序列比对,可以分析不同分类水平的系统发育关系。对于16S rRNA基因序列,序列之间有97%以上的相似性可以认为是同种,95%以上的相似性可以认为是同属,80%以上的相似性则可认为是同门。

  2. 为什么要进行16S rRNA的V区测序

  从目前的研究来看,以16S rRNA作为分子标记的应用最为广泛。因此,这里我们主要探讨基于16S rRNA基因扩增子(16S rRNA gene amplicons)的宏基因组学研究。大肠杆菌(Escherichia coli)的16S rRNA全长约1,542 bp,但是目前主流的二代测序技术,如Illumina Miseq(PE300), Illumina Hiseq2000(PE100), Illumina Hiseq2500(PE250), Roche 454 FLX+(PE600)和Ion Torrent PGM(400)等读长均不能覆盖16S rRNA全长,必须选择一个或多个短的、有效的高变区(hypervariable regions)作为替代。然而,扩增16S rRNA不同的V区会对原核微生物群落结构的分析结果产生明显的影响。在16S rRNA高变区(V区)的选择策略方面还存在较大争议。目前用于多样性分析的V区主要分为两类,一类是单独V区,如V3、V4、V5、V6和V7等,另一类是连续V区,如V1-V2、V1-V3、V3-V4、V3-V5、V4-V5、V4-V6、V5-V6、V6-V7、V5-V8、V6-V8、V7-V8、V1-V8,V5-V9、V6-V9和NLF(nearly full-length)等。因此,对不同类型样本的16S rRNA高变区(V区)进行有效性评估以及研究V区的选择策略对于原核微生物群落的研究非常必要。

  3. V区及其引物对选择的标准

  V区的选择标准主要有:1) 该区具有较高的可变性,能够很好的区别物种;2) 该区两边的侧翼位点具有较好的保守型,能够抓取绝大多数微生物。由图2可知,16S rRNA各V区的熵(H’),H’越大代表该区的可变性越大。通常,可变和中度保守的16S rRNA区域被认为是进行多样性分析的最佳选择。

  引物选择的标准主要有覆盖率Coverage、覆盖范围Spectrum和可注释率POAOs等3个标准。覆盖率Coverage和覆盖范围Spectrum是指在特定数据库中(Silva, RDP, Greengenes)中,一个特定的分类级别(界、门、纲、目、科和属),一对引物所能匹配数据库中序列的百分比和序列所涵盖的分类个数。例如,Phylum spectrum就是指在门水平上,某个引物所能“抓取”门的个数。作者定义POAOs,也即OTU注释率(The percentage of annotated OTUs, POAOs),具体见下面公式:

  POAOs=注释OTUs/全部OTUs×100%

  其中,全部OTUs是指在Qiime中调用uclust的方法对优质序列按相似度0.97进行聚类后所获得的OTU数目,而注释OTUs是指通过特定数据库注释后有明确分类信息的OTU数目。

  图2 16S rRNA各V区的熵

  Figure 2 Entropy plot of 42,109 soil derived 16S rRNA gene sequence alignment. Hypervariable regions indicated as designated by Baker et al. E. coli nucleotide numbering. Sequence area presented excludes poorly supported areas from the beginning and end of the sequences (due to nearly full sequences) and thus excludes the V9 region. doi:10.1371/journal.pone.0042671.g001

  4. 最佳V区及其引物对

  以富营养化水体太湖为例(图3),结合数据库模拟和实验验证,论证了在富营养化水体中进行水体细菌多样性分析的最佳V区和最佳引物。pobeBase 2016是一个在线的rRNA寡核苷酸探针和引物数据库。利用数据库(http://www.probebase.net)收集了常用75个引物的名称、碱基序列、位点、长度和 Tm 等基本信息。此外,还通过TestPrime1.0 (www.arb-silva.de/ search/testprime)对引物对进行基于 SILVA SSU Ref 123NR数据库的in silicoPCR模拟。最终,共有49个引物对,对常用的12个不同V区进行了基于SILVA SSU Ref 123NR数据库的in silicoPCR模拟评估。同时,开展了历时1年多,覆盖3个不同湖区,以及两个不同类型的样本的验证实验,基本满足了研究太湖水体中细菌多样性的样本要求。基于模拟和验证的结果表明,V4的表现最好,基于Coverage、Spectrum和POAOs等3个评价标准,推荐S-D-Bact-0564-a-S-15/S-D-Bact-0785-b-A-18作为太湖水体细菌多样性调查的最佳引物对(图4)。

  图3 太湖蓝藻水华

  Figure 3 Cyanobacterial blooms in Lake Taihu

  图4 研究概要

  Figure 4 Graphical abstract

  5. 几个关键问题的讨论

  5.1引物偏好性

  一般来说,引物偏好性(Primer set bias)主要是在目标序列的PCR扩增和测序过程被引入。测序错误率高度依赖于测序平台,及其所使用的仪器和化学试剂。PCR错误可以通过优化PCR条件来降低,而不像依赖于测序平台的错误那样很难解决。偏向性在某些环境样本中的影响会非常大,会造成对某些种类过低或过高的估计,甚至有些群体被完全遗漏。例如,8F、337F、338R、515F、915F和930R和1061R等一些通用的引物在肠道微生物群落的研究中,通过RDP数据库可以比对95%以上的主要门类(Firmicutes,Bacteroidetes,Actinobacteria,Verrucomicrobia和Proteobacteria)序列。但是对于某些门类的缺失也同样存在,如784F很难区分Verrucomicrobia的种类;967F只能比对不足5%的Bacteroidetes序列;1492R只能比对61%的Actinobacteria,54%的Proteobacteria序列和不到一半的其他门类。同时,也有通过优化引物设计,来实现对98.0%的细菌和94.6%古细菌在RDP数据库中同时分析的策略。在玉米根际微生物群落的研究中,可能是因为过长的原因,804F-1392R产生的序列数最少;27F-338R对于Verrucomicrobia扩增的效率不高;926F-1392R扩增了大量的色素体(Plastid)16S rRNA基因;515F-806R在域和门的水平上获得的多样性最好。Klindworth等通过计算机模拟在SILVA数据库中研究了175条引物和512对引物,结合引物的物种覆盖度(Taxonomic coverage)和门覆盖度(Phylum spectrum)认为仅有10条可以被推荐为广谱性引物(Broad range primers),同时推荐扩增长度为464 bp的S-D-Bact-0341-b-S-17/S-D-Bact-0785-a-A-21为最好的引物组合。不同测序平台引物的表现有所不同,同时一些被认为是通用的引物(例如,F515-R806)表现也并非最为突出。

  5.2调查环境影响

  从本质上讲,最敏感和特定的通用16S rRNA引物对选择极大地依赖于调查的样品类型和目标群落。基于16S rRNA扩增子的太湖水体多样性研究,V4(F)被认为是一种较为可靠的细菌多样性引物对。16S rRNA的V4区被广泛运用于多种类型样本的细菌多样性调查。然而,正如本研究中所示,不同的V区选择,甚至针对相同的V区,不同的引物对所获得的结果在各个分类水平(门、纲、目、科、属、种)均有所不同。这与我们先前的研究结果,在物种注释中,每一个属均有自己偏好的V区选择结果一致。实际上,目前使用的引物没有真正意义上的完全“通用”,因为没有一个确定的引物对可以保证扩增所有的原核微生物。此外,也没有一个完美的引物对能够覆盖所有来源的样本,尽管不断有新的引物对被设计用来提高物种分类。因此,对于16S rRNA的最佳V区(或引物对),也许根本无法达到共识,但是非常有必要在慎重考虑调查环境或样本类型的基础上选择更加合适的引物对。

  5.3 16S rRNA全长测序

  16S rRNA全长测序被看作是克服V区(单个和多个)测序物种鉴定局限性的灵丹妙药。几年前,第三代测序技术所提供的16S rRNA全长测序被给予厚望,然而,Pac Bio SMRT测序平台的高错误率极大地限制了该技术在微生物系统发育和物种分类中的运用。直到最近,Pac Bio SMRT的应用仍然受困于其测序错误率和测序成本。但是,随着测序平均读长的不断增加,错误率的急剧减少,以及测序成本的持续下降,16S rRNA基全长测序必定给细菌多样性和生态学的研究注入新的动力。此外,准确的物种鉴定高度依赖于现有的参考数据库( SILVA、GG、RDP 和FW),因此已有学者在数据库的建设和使用上做出了大量工作。同时,随着读长更长,成本更低和更快的DNA测序技术出现,这必将极大的丰富现有数据库中的序列。强大的参考数据库结合即将到来的全长16S rRNA测序,必将给微生物群落的分类和功能的多样性提供前所未有的解决方案。

  5.4 数据库的影响

  利用数据库对聚类后的OTU进行注释是多样性分析中的重要环节,目前常用的数据库有SILVA、GG 和RDP。因此数据库中序列的多样性、全面性和准确性对多样性的分析结果具有明显的影响。因此,为了验证不同数据库对本研究结论的影响,除SILVA (Release 123)的注释结果外,分别用GG (Aug. 2013)和RDP (Release 11.5)数据库对OTU进行了注释。值得注意的是,在GG和RDP的注释结果中,V4(F)相比于V3(C)和V6(F)在覆盖率和注释率上从门到属水平上均具有较为明显的优势。同时V4(F)的这种优势同样体现在覆盖范围上。可见GG和RDP与SILVA注释的结果基本一致;V4(F) 不但可以覆盖更多的常见门类,而且在覆盖率和注释率上具有较为明显的优势;因此V4(F)可以被推荐为太湖水体细菌多样性研究的最佳引物。

  全面、可靠的数据库和有效的分析工具作为微生物多样性研究的重要内容,是支撑微生物多样性研究的基础工作,目前已经开展了大量的研究工作。除了SILVA、GG 和RDP这些通用数据库外,还有在一些特殊领域,例如淡水(Freshwater)、人体微生物(Human body microbiome)、蓝藻(Cyanobacteria)等专业数据库被运用于微生物多样性分析。随着测序成本的不断下降,以及更快、更长和更准的测序技术的不断涌现,可以预见这些数据库将会得到不断的充实和完善,而这也将必定促进微生物群落及其功能多样性研究前所未有的大发展。

  5.5 小结

  本研究中,通过16S rRNA扩增子测序来调查太湖水体中细菌群落,其结果受到不同V区(引物对)的显著影响。结合In silico模拟和实验验证结果,V4区具有很好“捕捉”细菌多样性的能力,并推荐S-D-Bact-0564-a-S-15/S-D-Bact-0785-b-A-18作为太湖水体细菌多样性调查的最佳引物对。尽管如此,仍然没有一个单V区或连续的多个V区能够完全替代全长16S rRNA的测序。因此,在不久的将来,全长16S rRNA测序必将成为一个主流的方法。此外,基于高通量测序技术的微生物多样性研究,非常依赖于一个能够提供更准、更多、更全分类信息的数据库。因此数据库的建设和完善将是微生物多样性研究中必将面对的重要课题。

  6. 结论

  随着高通量测序技术的不断发展,尤其是测序成本的持续下降,微生物多样性必将迎来新一轮的研究高峰。目前基于微生物多样性的测序平台,V区测序主要是Illumina HiSeq 2500和Illumina Miseq,而16S rRNA全长测序主要以PacBio RS II和PacBio Seque l平台为主。近期,V区扩增子的测序费用已经降至500元以下,而全长测序的费用还在1,000元以上,因此在未来很长一段时间内,V区扩增子的测序仍是主流。随着测序成本的快速下降,高通量测序越来越凸显其研究手段的真实一面。因此,盲目测序的研究将越来越少,合理的“实验设计”和精彩的“故事”才是科研永恒的主题。

  参考文献

  Zhang JY, Ding X, Guan R, Zhu CM, Xu C, ZhuBC, Zhang H, Xiong ZP, Xue YG, Tu J, Lu ZH*. Evaluation of different 16S rRNAgene V regions for exploring bacterial diversity in a eutrophic freshwaterlake[J]. Science of the Total Environment. 2018.

  DOI:10.1016/j.scitotenv.2017.09.228

  张军毅, 朱冰川, 徐超, 丁啸, 李俊锋, 张学工, 陆祖宏. 基于分子标记的宏基因组16S rRNA 基因高变区选择策略. 应用生态学报. 2015. 26(11):3545-3553.