Page 40 - 《华中农业大学学报(自然科学版)》2022年第5期
P. 40

34                                 华 中 农 业 大 学 学 报                                    第 41 卷

               应用,但是仍然有许多因素限制着 GWAS 的发展。 问题。
               GWAS 研究检测到的关联位点一般很少,而且关联                             3)稀有等位频率。GWAS 鉴定关联性位点是以
               的位点仅能解释很少一部分性状变异。而未能检测                           等位基因频率(allel frequency)为基础,低频率的等位
               到的遗传关联位点占有很大一部分比例                   [14] ,丢失的    基因遗传变异对研究群体的影响较小,但还有部分
               部分遗传变异位点主要由以下3个因素导致。                             低频率的等位基因对性状有很大的影响                  [21] 。目前,
                   1)结构变异。一般情况下,复杂性状的差异不                        与变异显著相关的遗传变异位点容易被识别,但是
               是由一个位点的遗传变异引起,还可能受到结构变                           这些位点仅与少量表型性状相关联。然而,从遗传
               异的影响,如拷贝数变异(copy number variations, 学和进化学的角度来看,绝大多数等位基因突变都
                    [15]
               CNV) 。最初统计方法的不完备和粗糙的基因分                          是低频的,控制复杂性状的遗传变异关联位点一般
                                                                                                [22]
               型方法等条件限制了 GWAS 研究,在许多 GWAS 研                     也是低频的,即稀有变异(rare variant) 。相关研究
               究中忽略了结构变异的功能。随着 GWAS研究的不                         得出了稀有变异与复杂性状之间的关联                  [23] ,也提出
               断发展和传播,众多 GWAS 研究开始关注拷贝数引                        了鉴定稀有变异的研究方法            [24] 。
               起的变异。但是,研究主要集中在人类和动物研究                           1.2  关联分析的优势与不足
               中的 CNV 与性状关联性。但是,除水稻、玉米等模                            QTL 和 GWAS 都是基于群体的遗传图谱来研
               式植物中关于 CNV 的研究较多,有关 CNV 对植物                      究群体间个体的复杂性状,二者有许多异同点。数
               性状变异的研究报道比较少。                                    量性状位点(QTL)定位的连锁分析是 GWAS 等关
                   2)上 位 效 应 和 环 境 效 应 。 据 统 计 ,大 多 数           联研究的直接先驱,这就意味着 GWAS比 QTL 研究
               GWAS 研究没有关注不同遗传变异位点之间的相互                         结果更为精确。连锁图谱不是将个体组合成一个不
               作用以及遗传位点和环境之间的相互作用                    [16] 。Zuk  同 的 GWAS 面 板 ,而 是 研 究 具 有 已 知 关 系 的 个
               等 [17] 认为不同基因之间的互作是造成关联位点丢失                      体 [25] 。例如,对作物的连锁定位分析通常是使用双
               的一个重要原因。随着对 GWAS 研究的不断深入, 亲本杂交产生的后代,无论是 F 2 个体还是重组自交
               Wei 等 [18] 提出了鉴定上位基因间互作的方法。但                     系(RILs)。由于 QTL 研究的个体在家系中亲缘关
               是,要通过几百万甚至是上亿次的显著性检验鉴定                           系较近,发生的重组较少,因此,存在较大的连锁块,
               关联位点,对统计方法和计算机计算能力的选择甚                           意味着所使用的遗传标记不必像 GWAS中使用的遗
               为重要。目前,研究 GWAS 遗传变异位点的上位基                        传标记那样密集,以确保检测到含有研究位点的基
               因间的互作方法通常分为分为两步。首先,基于全                           因 组 区 域 ,同 时 也 意 味 着 QTL 对 群 体 选 择 要 比
               基因组水平运用一种全局搜索方法对成对的互作基                           GWAS 苛刻。一旦发现并验证了一个 QTL,该区域
               因进行快速搜索,结果为成对基因的 1个子集;然后, 就可以被用于精细定位和 QTL 克隆。在下一代测
               鉴定子集内标记遗传位点之间的互作关系,最终得                           序技术出现之前,这是 1 个相当大的优势。1988 年,
               到具有显著性的互作位点           [18] 。                     在番茄中进行了第 1 次全基因组 QTL 分析              [26] ,比第
                   复杂性状不仅受到基因位点之间互作的影响同                         1个 GWAS发表早了 14 a。发展到今天,连锁分析和
               时也会受到不同环境条件的影响,在 GWAS 研究中                        GWAS互补,可以用来解析不同群体中的复杂性状。
               未能通过遗传相关性解释的关联位性点可能是由于                               尽管连锁分析是解析复杂性状的主要方法,但
               没有考虑基因和环境之间的互作。因此,需要结合                           关联研究的潜在价值也受到了重视。与连锁分析相
               样本大小、试验设计和基因型等众多因素来考虑基                           比,关联分析的优势包括不需要进行杂交实验                   [27] ,增
               因与环境之间的互作对于 GWAS 研究的影响。在                         加了检测效应较小基因的能力,并提高较小 LD 块的
               GWAS 的相关研究中,虽然已经提出有关研究基因                         分辨率。然而,对高密度基因型的需求,意味着在三
               与环境之间互作的研究方法和实验方案,并取得一                           代测序发展之前进行的第 1 个关联研究只能关注于
               定的成果    [19] ,但是,已提出的基于上位效应和环境效                  基因组的小子集,只能研究已经被其他方法确定的
               应背景下的研究方法并不能很好地解决关联性位点                           区域。例如,1 项关于玉米株高和开花时间的早期关
               丢失的问题,也无法有效地估计关联位点的 P 值                   [20] 。 联研究集中在之前研究已经确定的候选基因 dwarf8
               因此,未来需要进一步研究解决 GWAS 中出现基因                        上,检测到 dwarf8 及其附近的 123 个多态性位点以
               之 间 和 基 因 与 环 境 之 间 互 作 丢 失 关 联 性 位 点 的          及 141 个全基因组标记       [28] 。但是,随着测序技术的
   35   36   37   38   39   40   41   42   43   44   45