描述进化树的若干基本概念

结点 (Node):可分为外部结点(叶结点/序列样本)与内部结点(推定的祖先)。分枝 
(Branch):分支/进化枝,即2种及以上的生物或序列组成的进化关系。 
分枝长度 (Branch Length):进化距离/遗传距离/SNP距离/遗传变异度,衡量进化枝变化的程度:越短代表序列差异越小(相似度越高),进化距离也就越近(计算2个序列的遗传距离时,需追溯至它们的最近的共同祖先/MRCA并加和)。可根据分子钟理论转换为时间跨度/时间树,推断序列进化时间的早(先)晚(后),e.g.分析病毒进化树时,对初代病毒产生的时间点的推断。
分化枝 (Clade):由若干成簇的Branch/分枝组成,即具有紧密遗传关系的群体(Grouping)。包括:1个共同祖先及其所有的后代(Living/活着的和Extinct/灭绝的)。 
外群 (Out-group):与所分析的序列相关的生物序列,具有较远的(但又有一定的)亲缘关系,通常作为构树时的对照或验证。
图片
自举值。通过Bootstrap检验,可产生Bootstrap值/自举值/支持值/自展值/自助值,来评估进化树分枝(二分叉)的可信度。该值>70%(有时写为70,即百分数)时可靠,否则其拓扑结构可能有误或不可靠。检验的原理是:根据数据情况选择合适的构树方法和模型后,将序列位点重排,并用完全相同的方法构树;使模型重复计算若干次(e.g.100或1,000),获得若干进化树;计算相同的分枝(二分叉)在重复计算中反复出现的次数或比率。序列相似度高时,低的自举值通常出现在进化树的末端(e.g.单个物种的不同株或个体);否则靠近根(Root,即所有分枝的共同祖先)。自举值可标记在结点或分枝上。
图片
分子遗传进化基本概念 
系统发育(树)的重建方法可以是基于距离的(Distance-based),也可以是基于字符的(Character-based)。
距离矩阵(Distance matrix)法,计算每对序列之间的距离,所得到的距离矩阵用于树的重建。通常有3种:邻接法(Neighbour joining,NJ)、最小进化(Minimum evolution,ME)、最小二乘(Least squares),邻接法最常用。
邻接法vs.最小进化法。NJ法将1种聚类(Cluster)算法应用于距离矩阵,以达到完全解决的系统发育(Fully resolved phylogeny)。
ME法使用了对相同位点的多个命中(Hits)进行校正的距离测量(Distance measures),选择显示出所有分枝的总和(S)的最小值的拓扑(Topology)作为对正确的树的估计。
ME法原则上必须评估所有拓扑的S值,较为耗时,且可能的拓扑(Unrooted/无根树)数量会随分类群(Taxa)数量的增加而迅速增加(此时可使用NJ法)。
NJ树通常与ME树相同,但当分类群的数量很小时,二者之间的差异可能很大(Nei & Kumar, 2000)。在这种情况下,若使用长的DNA/AA序列(如核心基因组/全基因组对齐?),则优选ME树;位点数量较少时,NJ法比ME法更容易生成正确的拓扑结构(Nei et al. 1998, Takahashi & Nei 2000)。
一些软件(如MEGA)提供了近邻交换搜索(Close-neighbor-interchange search)来检查NJ树的邻域,以找到潜在的ME树(见mega4/WebHelp)。 
基于字符的方法,同时比较对齐中的所有序列,每次考虑1个字符(对齐中的1个位置/Site)来计算每1个树的1个得分。包括:最大简约(Maximum parsimony)、最大似然(Maximum likelihood)、贝叶斯推断(Bayesian inference)。核苷酸替换模型(Substitution model)。距离矩阵、最大似然、贝叶斯推断都采用了替换模型,因此是基于模型的;而最大简约法没有明确的(Explicit)模型,其假设是隐式的(Implicit)。 
距离矩阵法中的两两序列距离计算,假设了1个马尔可夫链 (Markov chain)模型的核苷酸替换,例如:(1)JC69模型假设任何2个核苷酸之间的替换比率相等;(2)K80模型假设了不同的转换和颠换比率(Transitions>Transversions),以上2种模型都预测了4种核苷酸的相同频率;(3)HKY85模型和GTR (General time reversible,一般时间可逆)模型放宽了相等碱基频率的假设(对于某些菌如Mtb是必要的?其GC~65%);(4)由于局部突变比率和选择性约束(Constraint)的差异,DNA或蛋白序列中的不同位置往往以不同的速率进化。在距离计算中,这种速率差异通过假设位点速率的伽马/Gamma(Γ)分布来适应,从而导致JC69/HKY85/GTR + Γ等模型。 
距离法的优缺点。距离法(特别是NJ法)的1个优点是计算效率。聚类算法是快速的,因其无需像最大简约、最大似然在最优准则下比较那么多树。因此,NJ法对于分析具有低水平序列差异 (即序列之间相似度高,e.g.同1个物种的不同株?那么输入core.aln与phylo.aln时有无区别?)的大型数据集是有用的。需注意,使用一个切实可行的替换模型来计算两两距离可能是重要的。缺点:距离法对于非常不一致的序列可能表现得很差,因为大的距离涉及大的抽样误差,且大多数距离法(e.g.邻接法)不能解释大距离估计的高方差。距离法对序列对齐中的间隙(Gaps)也很敏感。 
更多概念、原理 - Molecular phylogenetics: principles and practice【Ziheng Yang & Bruce Rannala】 (e.g.有根树、无根树,各种方法的优缺点、适用范围等)