【陈巍学基因】视频:全基因组甲基化测序分析报告解读

视频内容简介
全基因组甲基化测序(WGBS)分析报告包含大量的内容、图表、数据,不熟悉高通量测序的用户拿到这样一份报告后,读起来会很吃力。
为此,把这个报告做了一个全面的解读,以帮助用户能够快速地掌握报告中的要点,读懂报告中的各种图表,并找到自己感兴趣的信息点。
字幕内容
大家好,今天我为以逆耳生物公司的《全基因组甲基化测序分析报告》为例,给大家做一个报告解读。
图片
拿到报告,首先看到的是封面页和目录页。封面页会有客户的姓名、合同编号等信息,目录页则以提纲的形式展示了整个报告的总体结构、和框架。
1、接下来,第1节、实验流程。
图片
这一页展示了甲基化的实验步骤。大体上和正常的全基因组 DNA 测序类似,但加入了一个重亚硫酸氢盐(Bisulfite)处理的步骤。
重亚硫酸氢盐,也就是 Bisulfite,处理 DNA 样本,是甲基化测序中的核心步骤;这个步骤将所有“没有被甲基化的 C 碱基”都转变成“U 碱基”。在 PCR 的过程中“U 碱基”会被读成“T 碱基”,后面测序过程中也会被读成“T碱基”;而“被甲基化的 C 碱基”,在重亚硫酸氢盐处理的过程中,还是保持是“C碱基”,在 PCR 过程中也是被读成“ C 碱基”,在测序的过程中也会被读成“C碱基”;
以读到的序列是否从 C 变成 T,来区分哪些 C 碱基已经被甲基化了,又有哪些 C 碱基没有被甲基化。
2、第2节、分析流程和(数据文件)目录信息。
图片
分析流程图展示了测序数据下机后,进行生物信息分析的整个过程。
“目录信息”展示了大量分析数据的存放的目录形式。
3、第3节、数据处理及质控。
图片
这里先介绍了原始的 fastq 文件格式。
这是一条测序 read 的数据在 fastq 文件中的记录样式。
这一条 read 的记录分 4 行。
第一行是这个 read 的唯一标识符;
第二行是这个 read 的碱基序列;
第三行是一个“+”号,这个“+”号起到的作用,是把第二行序列信息与第四行的信息进行显式的分隔;
第四行是这个 read 的数据质量的信息,这其中的每一个字符,都是第二行中相应位置的那个碱基的质量值。
3.1 原始数据和质量过滤后的数据统计表格。
因为测序得到的原始测序数据中,含有接头 reads、和低质量的 reads,为了保证信息分析的质量,必须对原始的测序数据进行过滤。得到干净的数据,也就是 clean reads,来进行后续分析。
图片
左边的这张表就是对过滤前后的数据进行统计的结果。右边的表头说明则详细说明了这张表中每一列分别说的是什么内容。
这是对过滤后的数据进行质量评估的结果。图中横轴排列的是从 reads 的第 1 个碱基到第 150 个碱基,纵轴是在相应位置的碱基质量的分布情况,碱基质量以 Q 值来表示。中间蓝色的这条折线是表示每个位置的 Q 值的中位值,从中位值向上下两侧延伸出去的“工”字的上下杠,则是绝大部分碱基质量值的上限和下限。
这是测序 reads 的长度分布图。
横轴排列的是 reads 的长度,纵轴是有多少个 reads 落在相应的 reads 长度上。
我们可以看到在这个例子中,绝大部分的 reads 的长度是 150 个碱基。
这是碱基比例分布图,横轴是碱基;纵轴是每种碱基占的百分比;4 种颜色的 4 条曲线,分别代表了 A、C、G、T 这 4 种碱基。
甲基化测序不同于一般的全基因组测序的一个特点是,绝大部分的 C 碱基都被转化成了 T 碱基,只有少量的甲基化的 C 碱基还保持是 C 碱基。所以,我们可以看到,测到的序列当中,红色代表的 T 碱基含量特别高,接近 50%;而蓝色代表的 C 碱基的比例很小。
4、第4节、参考基因组比对及覆盖度分析。
图片
与参考基因组比对是采用 bismark 软件做比对,在比对过程中考虑到甲基化测序的特性,将测序的结果和参考基因组,都进行了 C 到 T 、和 G 到 A的转化,其中 G 到 A 是反向互补的转化。
然后,进行四组平行比对,包括正链和反链,C 到 T 和 G 到 A,排列组合一共是 4 种比对,最后,每个 read 都从四种平行比对结果中选择一个最好,作为最终的比对结果。
然后进行后续分析。
这是比对得到的结果。
左边的这个表,纵向排列的是被检测的样本;横向排列的是比对的结果;右侧列出了表头说明,对每一列是什么,都做了详细的解释。
从 bismark 得到的比对结果中提取每个 C 碱基的具体信息,包括测序深度和甲基化状态。
Read 中的 C 碱基的存在两种情况:
第一种,参考基因组是 C,read 信息也是 C,则 read 中此位点是甲基化的;
第二种,参考基因组是 C,read 信息是 T,则 read 中此位点是非甲基化的。
对于基因组中的每条染色体,给出一个文件,以列出其中 C 碱基甲基化的详细信息:
如图所示,在第一行,10 号染色体 10597 这个位置,有 2 条 reads 在这个位置是有甲基化,没有 reads 在这个位置非甲基化;
在第三行,则是说在 10 号染色体 10771 这个位置,没有 reads 在这个位置有甲基化,但有 32 条 reads 在这个位置是非甲基化的。
4.3 基因组整体测序深度分布
图片
碱基 C 在基因组上的序列特征被分为三种:CG、CHG 和 CHH。其中 H 分别代表 A 或 T 或 C。
这里,分别统计不同 C 碱基类型覆盖深度的分布。随后对各个染色体上的 C 碱基进行统计,得到各条染色体上 C 的覆盖度及其平均的有效深度。
图中横轴表示有效测序深度,纵轴表示基因组中特定测序深度的 C 碱基占全部基因组的全部 C 碱基的比例。
图片
这张图中,横坐标排列的是 23 对染色体。点线表示每条染色体覆盖 C 的百分比,也就是覆盖度,对应于右侧纵坐标。柱子表示覆盖到的 C 平均测序深度,对应左侧纵坐标。
4.4 基因组功能元件区域的覆盖统计
这张表是不同基因功能元件中 C 碱基的覆盖统计:
基因功能元件,分成:
基因上游 2KB 的序列;
基因中的 5’ 端 UTR,也就是 5’ 端非翻译区的序列;
基因的编码区;
基因的内含子区;
基因的 3’UTR,也就是 3’ 端非翻译区的序列;
基因下游的 2KB 的序列;
其它的基因间的序列。
横轴列出了覆盖程度,分别大于等于 1X,4X,10X,20X 的 C 碱基的覆盖个数,及其在全部 C 碱基中的占比。
接下来是 CpG 和它周边范围的统计。如图所示:
这张图就是真的把 CpG 岛当一个“岛”来看,中间蓝色的部分是 CpG 岛;两侧黄色的 shore 部分是最靠近 CpG 岛的岸坡部分,岸坡是从陆地逐步下降,进入水中的部分;再外面是离 CpG 岛更远一点的区域的 shelf,也就是“大陆架”的部分。N 是指 CpG 岛的下游,S 是指 CpG 岛的上游。
表格中,从上到下的各个行,列出了上下游各个区域,以及 CpG 岛本身。从左到右的各个列,列出了各个区域的覆盖的深度,以及这种覆盖深度的占比。
接下来是对不同的重复元件中的 C 碱基的覆盖统计。
表格从上到下,各行的意思是:
Genome 是全基因组的情况;
LINE 是“long interspersed nuclear element”的首字母缩写,翻成中文是“长散布核元素”,是一种长度达几千个碱基对的较长的反转录转座子;
SINE 是“Short interspersed nuclear element”的首字母缩写,翻成中文是“短散布核元素”,是一种长度通常在几百个碱基对以下的 DNA 序列,它们不能自我逆转录;
LTR 是“long terminal repeat ”的首字母缩写,翻成中文是“长末端重复”,往往是逆转录病毒、或者逆转录转座子的元件,长度为数百个碱基,出现在真核生物的基因、或者假基因的两端;
Other repeat 是其它重复序列的意思。
表格从左到右,是不同覆盖深度的 C 碱基的数量,和它们各自的占比情况。
5、5.1 基因组整体甲基化水平分析。
图片
这张图,是展示总体上的甲基化水平。基因组中每个 C 碱基的甲基化水平的计算方式,是支持这个位置有甲基化的 reads 数,去除这个位置的所有的 reads 数。
图中,横轴表示甲基化水平,从低到高进行排列;纵轴表示各个档次的 C 碱基的甲基化水平在全部 C 碱基中所占的比例。
三种颜色的柱子,是三种类型的 C 碱基。
5.2 甲基化水平分布的小提琴图。
这是一张若干样本的甲基化水平分布的小提琴图。横座标排列这若干个样品;纵座标代表甲基化的水平;以 10kb 为一个窗口,统计每个窗口的甲基化水平,每一个小提琴中,中间的那个白色的点表示中位数;粗黑色的线表示从 25% 到 75% 的位置;小提琴上各位置的胖瘦表示分布密度。
5.3 基因功能元件的甲基化水平分析。
图片
这张图,是展示基因的各个功能区,DNA 甲基化水平的分布特点。
图中,横轴排列着基因的各个功能区;纵轴是各个功能区的甲基化程度;三种颜色的线条表示三种 C 的特征序列。
5.4 CpG 岛甲基化水平分析。
图片
基因组按照 CpG 密度分为: CpG 岛、上下游的边坡、上下游的大陆架,一共 5 个区域,分别统计各区域的甲基化水平。
图中,横轴上的 5 个分区就是上述的 5 个区域;纵轴就是展示了各个区域的甲基化水平;三种颜色的线条表示三种 C 的特征序列。
5.4 Repeat 区甲基化水平分析。
图片
这是针对几类重复序列区,分别统计 CG、CHG,CHH 三种情况的甲基化水平。
表头,从左到右例了 C 的特征序列;表格从上到下列了“基因组、LINE、SINE、
其它重复、其它序列”这几种情况。
6、第6节、甲基化密度分析。
二代测序中,不同位点呈现出甲基化与非甲基化的比例会有所不同,但每个位点发生甲基化的概率应该服从二项分布。
基于 Bismark 的甲基化检测结果,对每一个位点的甲基化 C 与 非甲基化 C 的频率,进行二项分布检验,以便鉴定该位点是否是真实可靠的甲基化位点,以过滤掉假阳性。
这张图中,各部分面积的大小就代表了相应内容下甲基化位点所占的比例。
6.1 不同样本的甲基化 C 密度分布。
图片
这张图是不同样本的甲基化 C 碱基密度的分布图,横座标代表不同的样本;纵座标代表标准化的甲基化密度;小提琴在某一位置的胖瘦,代表处于该位置的甲基化密度的窗口的多少。
6.2 甲基化 C 的序列偏向性。
图片
取包括甲基化位点在内的 9bp 的碱基,作为序列特征标识图,以展示 C 碱基上下游的序列特征。
左图展示的是所有 C 碱基的序列特征;右图展示的甲基化 C 碱基的序列特征;图中,碱基标识的高度代表碱基类型的显著性,高度越高,则显著性越强。
6.3 染色体甲基化 C 碱基密度分布。
图片
这是展示在染色体水平上甲基化 C 碱基的密度分布,横轴是整个染色体,这里展示的是第 10 号染色体;整个染色体被划分成许多个大小相等的窗口;左边比例纵轴表示每个窗口中的甲基化的 C 的密度,在图中用蓝色线表示(整条蓝线很接近水平线);右边比例纵轴是 CG、CHG、CHH 这三种甲基化的序列,在图中是用三种颜色的线进行表示,这里绿线很明显,其它两条线,紫色线和黄色线与水平线太接近,在图中不太明显。
7、7.1 差异甲基化位点和区域分析。
图片
这是做样本、或者样本组之间的的甲基化差异的分析。左图是在基因功能元件上的差异分布;中间的图是在 CG 岛及其侧翼区域的差异分布;右图是在重复序列区域的差异分布。
这里,左边是差异甲基化区域的统计表格的前几行以作为示例,左边列出了差异区域的位置、长度、CpG 岛的个数;中间是两个样本各自在特定位置的的甲基化水平;这是甲基化水平的差值,以及差异甲基化区(Differentially methylated region DMR)位点的Wald检验的统计值的和,也就是显著性。
7.2 差异甲基化区域关联基因功能富集分析。
鉴定得到差异甲基化的区域之后,我们将差异甲基化区域定位到基因区间。如果基因及其上下游 2K 与差异甲基化区域有交集,且交集在 50% 以上,则把这个基因定义为差异甲基化区域的关联基因。
差异甲基化关联基因的示例,看这个表。Symbol 就是这个基因的名字;左边是这个基因在染色体上的位置;右边是这个基因的各个功能元件上是否有甲基化的差异。
接下来要做 GO 分析。
图片
这里先介绍一下 GO 是什么。GO 是 Gene Ontology 的首字母缩写,翻成中文是“基因本体论”的意思。
同时,有一个重要的生物信息数据库就叫“Gene Ontology” ,它对每个基因和蛋白都标注三种特征:分子功能、细胞组件、和生物过程
分子功能,就是这个基因和它产生的蛋白具体有什么功能;
细胞组件,就是这个基因产生的蛋白会定位在细胞的什么位置,比如定位在线粒体上、或者定位在细胞膜上等;
生物过程,就是这个基因产生的蛋白会参与什么样的生物过程。
这三种特征,用大白话来说,就是“你是做什么的?你要去什么地方?你要参与哪项任务?”
GO 数据库中,针对这三种特征,设定了许多细项的条目。
采用 TopGO 软件对差异甲基化区域的基因进行 GO 功能富集分析,就是把这些基因在 GO 中相关的条目进行(富集)分析。
这里展示的,是有富集的条目的表头,和其中一行的内容。左边的几列,是这个有富集的条目的内容,比如这个条目,说这个蛋白是定位在细胞外的位置;中间是这个实验中的差异基因,注释到这个条目的基因数;右边是注释到这个条目的基因数量的显著程度。
这张图,是把三大特征中,富集程度最高的前20条条目分别列出来。
三种颜色,就是三大特征;纵轴是富集的显著性,一个条目的柱子越高,则这个条目的富集显著性越高。
图片
因为 GO 的条目是树状结构的,所以,有富集的条目也可以用树状图展示出来。这张图就是用树状图来展示有富集的条目,从这张图中,可以看出这些条目之间的上下级的关系。越上面的条目,就是越笼统的条目,它含盖的范围就越广;在越下面的条目,就是越精细、越明确的条目,它含盖的范围就越窄。
图片
KEGG数据库,它的全称是:Kyoto Encyclopedia of Genes and Genomes。翻成中文,它的意思是《京都基因和基因组百科全书》,它是一个关于基因组和生物通路的数据库,里面收集了大量关于基因和生物通路关系的信息。广大的生物信息学工作人员都会用这个 KEGG 数据库,对自己的实验结果进行注释。
7.2.2 差异甲基化区,也就是 DMR 关联基因的 KEGG 功能富集分析。
这是对差异甲基化区域的基因,进行 KEGG 富集后的表格做的一个展示。左边的几列是说这个条目的内容,具体这个条目是“生物合成的第二级的代谢”这个通路;中间是这个实验中的差异基因中,注释到这个条目的基因数量;右边是注释到这个条目的基因数量的显著性。
7.6 显著富集 KEGG 柱状图。
这张图展示的是有显著富集的 KEGG 条目的柱状图。横轴上排列着显著程度最高的 20 个条目;纵轴就是显著程度,柱子越高,则富集的显著程度就越高。
图片
这个是有显著富集条目的散点图。横轴上排列的是富集程度排前20的条目;纵轴,是富集因子,富集因子越大,表示甲基化水平的差异程度越大;每个点的颜色,是富集的显著程度,颜色越红,则富集的显著程度越高;点的大小,是富集到一个条目的基因数量,点的面积越大,则富集到这个条目的基因数量越多。
图片
图片