・36・遗传繁育中国畜牧兽医 2007年第34卷第6期
利用连锁不平衡进行畜禽QTL定位的研究进展
谢水华1,李加琪1,张豪1,陈瑶生2
(1.华南农业大学动物科学学院,广州 510642;2.中山大学生命科学学院,广州 510275)
摘要:一般家养畜禽群体规模小、选择强度高,连锁不平衡(linkagedisequilibrium,LD)现象普遍存在,尤其在杂种或新培育品种群体中更为突出。随着分子遗传学的发展,我们可以直接选择影响性状的基因或包含基因的染色体区域(QTL),可分型的遗传标记和QTL之间是否存在连锁不平衡是畜禽群体中QTL定位和应用的关键。目前,畜禽群体中用基因组范围内SNPs的连锁不平衡精细定位影响畜禽重要经济性状的QTL正受到广泛关注。作者从LD定位QTL的原理、畜禽群体中
LD程度、利用LD进行QTL定位的试验设计及统计分析方法、LD在畜禽QTL精细定位中的应用等几个方面进行了综述。
并进一步阐述了畜禽群体中利用LD进行标记辅助选择(MAS)的策略,对LD在畜禽QTL定位及标记辅助选择方面的应用进行了新的探讨。
关键词:连锁不平衡;QTL定位;关联分析;标记辅助选择
中图分类号:Q348 文献标识码:A 文章编号:167127236(2007)0620036204
连锁不平衡(linkagedisequilibrium,LD)又称等位基因关联(allelicassociation),它是相邻基因座位上等位基因的非随机性相关。在多基因疾病中若应用连锁分析定位微效基因,将大得惊人,tion)的方法,基因为B、b,其频率为PB、Pb。等位基因A和B在,即它们组成的单倍AB,AB-PA×PB。如果,那A的频率在经济性状较好的群体中将高于对照群体。换句话说,等位基因A与优良经济性状相关,事实上可以通过检测遍布基因组中的大量遗传标记位点或者候选基因附近的遗传标记来寻找与影响性状的QTL距离足够近而表现出与性状相关的标记位点,这就是LD定位QTL的基本原理。
利用LD分析定位QTL时,依赖于是否能发现标记座位的基因型和表型之间的关联,通过比较不同基因型个体表型平均值的差异,可以发现是否存在这种关联,如果不同基因型个体间的表型值存在差异,则说明该标记和一个QTL连锁。在畜禽杂交群体中群体范围内的LD广泛存在,这些广泛存在的LD可以用来检测与标记有一定距离的QTL,但是不能用来精确定位QTL;在远交群中家系内LD也是广泛存在的,我们可以用覆盖整个基因组
(Risch等,1996)。LD分析在人类基因精细定位、群体遗传学参数估
计及人类的进化和迁移研究中已经得到了广泛应用。近年来随着家鸡、牛、猪全基因组高精度序列图的完成,在畜禽群体中利用LD分析定位重要经济性状的QTL已经引起了畜牧工作者的高度关注,其中用基因组范围内SNPs的LD来精细定位重要经济性状的QTL更是受到广泛关注。可分型的遗传标记和QTL之间是否存在LD是畜禽群体中QTL定位和应用的关键,其LD水平直接决定关联
分析的统计效力。1 LD定位QTL的原理
群体中产生LD的主要因素有突变、选择、漂变、迁移和杂交,LD的概念可用一个简单的等式来描述和衡量:假设存在相邻基因座位1和2,座位1的等位基因为A、a,其频率为PA、Pa;座位2的等位
收稿日期:2006212208
作者简介:谢水华(1984-),男,湖南人,硕士生,研究方向:分子
数量遗传与动物育种。
通讯作者:李加琪,教授,博士生导师。E2mail:jqli@scau.edu.
cn,电话:[1**********]9
有限的与QTL有一定距离的显著标记进行QTL定位,远交群中群体范围内有足够多的LD可用于遗传改良,除了紧密连锁的基因座以外,经过多个世代闭锁的群体一般处于连锁平衡(linkageequilibri2um,LE)状态,在这些群体中,只有与QTL紧密连
锁的标记才有可能与表型相关联,即使如此,也由于存在随机抽样效应,不能保证一定会存在关联(Jack,2005)。
中国畜牧兽医 2007年第34卷第6期遗传繁育・37・
2 LD值的估算
2.1 双等位基因LD值的估算 对于LD的度量
QTL主效基因时,影响其成功的因素有:试验设计、
表型测定的精确性、基因效应大小、遗传杂合度、LD水平以及适当的统计方法。
3.1 试验设计 利用LD进行QTL定位的试验群
已有多种不同的方法,其中大多数都是用于双等位基因的配对检验。目前常用的2种配对检验方法为)LD系数(coefficientoflinkagedisequilibrium,D′
体一般包括近交系杂交群(crossesbetweeninbredlines)和分离群体(segregatingpopulations)。当使
和r2(Pritchard等,2001)。当D≥0时,D′=D/min(PAPb,PaPB);当D≤0时,D′=D/min(PAPB,
222
PaPb)。r的计算公式为:r=D/(PAPaPBPb)。
用近交系杂交群时,通常采用回交设计(BC)、F2设计、测交设计(TC)和重组近交系设计(recombinantinbredlines);当使用分离群体时,通常采用全同胞(fullsibs)设计、半同胞(halfsibs)设计、祖父2孙女
这2个参数的取值范围都在0~1之间,D′等于1时说明两位点等位基因没有分离。r2的数值表示一个位点可反映另一位点信息量的程度,在某种程度上可看作D′的补充,r2等于1称为完全连锁不平衡(perfectLD),这时只观察一个标记即可提供另一
设计(grand2daughterdesign)、动物模型(animalmodel),对于小的全同胞家系一般采用同胞配对分
析(sib2pairanalysis),大的全同胞家系采用全同胞设计,大的半同胞家系采用半同胞和祖父2孙女设计(Joel,2001)。当使用不同的试验设计进行QTL定
标记的全部信息。当QTL和一个遗传标记间的连锁不平衡用r2度量时,要达到与直接检测这个QTL相似的显著性水平,样本容量需达到原来的1/r2倍(Risch等,1996)。
2.2 多等位基因LD值的估算 在研究群体遗传
位时,;有显性效应存在时2设计要高,无显性效2(Soller等,标记LD时,标准的χ2检验比r2和,r2值(Heifetz等,2005)。利用多等位基因标记LD进行QTL定位
应,在F2代检测出的QTL加性效应是纯合子效应的一半,为了估计纯合子效应,需要与双亲进行回交,但他的效率也比F2设计低。
3.2 统计分析 利用t检验或方差分析来定位与
时,标准化的χ2检验是一个非常不错的方法(Zhao等,2005)。Farnir等(2000)、McRae等(2002)、Vallejo
2‘
等(2003)定义了D′和χ:
标记连锁的QTL基本上是可靠的,除非严重偏离正态分布,如由少量的、效应大的QTL明显区分的2个亲本系。最大似然估计法(maximum2likelihoodestimation)考虑了QTL分离的标记基因型准确分
D′=∑∑P(Ai)P(Bj)|Dij/Dij|
i
j
max
2′2
χ=χ/[2N(n-1)]
Dij=P(AiBj)-P(Ai)P(Bj)Dij0时,Dij
P(Ai))P(Bj)]
2
max
布特性,可以提供更适合的参数估计和显著性检验,因此在利用LD定位QTL时使用最大似然估计更为理想(盛志廉等,1999)。Meuwissen等(2000,2002)对LD定位QTL时用最大似然法估计QTL
=min[P(Ai)P(Bj),(1-P=min[P(Ai)(1-P(Bj)),(1-
(Ai))(1-P(Bj))]
max
的位置进行了大量研究,接下来我们将对Meuwis2sen在这方面的报道进行简单介绍。
χ=N∑Dij/[P(Ai)P(Bj)2
i
j
畜禽群体中用最大似然法估计QTL位置时,首先必须对最后一代的表型、标记数据及父母代的标记数据进行记录,分清哪些标记等位基因来自父亲哪些来自母亲,弄清楚标记等位基因的连锁相后就可以构建标记单倍型,例如:个体基因型为M1M2/N1N2,父母分别为M1M3/N1N3、M2M4/N2N4,则个体的连锁相为M1N1/M2N2。如果不知
其中P(Ai)为座位A上等位基因i的频率,P
(Bj)为座位B上等位基因j的频率,N为群体大小,n
为标记位点具有最少等位基因的等位基因个数。3 利用LD进行QTL定位的试验设计和统计分析
畜禽群体处于LD状态是LD分析定位畜禽QTL的前提和基础,其定位方法从标记应用的数量
可以分为单标记、两标记和多标记等,并延伸出所谓的区间定位(intervalmapping)。利用LD精细定位
道标记等位基因连锁相,将无法得到单倍型信息,因此在分析时这种数据不能用。计算最后一代表型记
・38・遗传繁育中国畜牧兽医 2007年第34卷第6期
2Var(h)=σhHp(Hp为单倍型效应协方差矩阵)。
录的模型为y=Xb+Zh+e(y为记录值,b为固定效应,h为单倍型随机效应,e为残差,X、Z分别为
b、h的概率矩阵)。Var(e)=σeR(R为单位矩阵);
2
接着通过下面的模型可以计算得到假设位点存在QTL的概率:
-1
+y-X^′Vy-σL(Hp,σh,e)∝-0.
5
ln|V|
22
-1
+ln|X′VX|
2
式中V=Var(y)=ZHpZσ‘h2+σb为b的估eR,^
供了高密度的标记。而且随着基因型测定方面成本的下降,使我们利用高密度标记LD图谱进行QTL检测成为可能。近几十年来,一些动物种质的多样性不断减少,其结果使连锁不平衡性增加,这有利于目的基因座上SNP单倍型与表型的关联分析。在
牛脂肪酸合成基因(FASN)736位点存在G→C突变、16009位点存在A→G突变,利用LD对该基因与乳脂含量进行关联分析时发现:单倍型C2G与高乳脂关联,单倍型G2A与低乳脂关联(Roy等,2006)。高密度的SNP标记的发展和SNP基因分
计值,从公式中不难看出要计算出QTL位置概率就必须获得单倍型效应方差矩阵Hp。Hp为单倍型效应协方差矩阵,协方差在两个单倍型效应hi、hj的计算公式为:
σh2CoV(hi,hj)=Prob(IBD/markerhaplotypes)×
Prob(IBD/markerhaplotypes)为在给定标记单倍型时QTL座位IBD概率。通过上面的方法同样可以算出假设位点不存在QTL时的最大似然值。用遗传距离作为横坐标,似然值的常用对数作为纵坐标,在坐标轴上就可清晰的看到QTL峰,而QTL峰所对应的横坐标就是QTL在染色体上的位
型技术的进步为利用LD分析进行QTL定位奠定了基础,,接着使用连。.TL中的应用 Ule2()利用连锁与连锁不平衡相结合确定
置。利用LD进行QTL精细定位时,在0~10cM范围内,选用20个标记进行单标记回归分析和选用10(Grapes等,2004)4 LD在畜禽QTL了与猪肌间脂肪含量相关的QTL位于6号染色体上Sw1355和Sw1823两个微卫星标记之间,由于使用的标记密度不够高,其置信区间为8.7cM,如果增加标记密度将可以进行更精细的定位。在牛群体中,虽然群体有效含量比较低,但由于比较大的家系能够提供基因组广泛的连锁不平衡,因而有利于用相对低的密度标记图谱进行QTL精细定位(Farnir等,2000)。Meuwissen等(2002)用连锁分析与连锁不平衡分析相结合的方法将影响牛双胎率的QTL定位到5号染色体上CSSM22~ILSTS66两个标记之间,这两个标记紧密连锁,在试验中没有观察到重组,结果与USMARC基因组数据库所提供的两个标记相距0.6cM是一致的,可以肯定的得出结论:QTL被定位在小于1cM的区域,这种情况下通过
连锁定位利用的信息只包含2~3代,当使用紧密连锁标记时,在相邻的标记间2~3个世代将很少有重组发生,因此高密度标记图谱将提供很少关于QTL位置额外的信息,除非每个世代的个体数量非
常大(Darvasi等,1993)。在比较好的定位试验中,即使使用重组的近交系,利用连锁分析也只能将影响果蝇刚毛数量的QTL定位在染色体区域5~10cM(Long等,1995)。如果说连锁分析对基因组扫描来寻找QTL非常有用,那么LD分析在精确估计QTL的位置时更有用,因为LD分析定位QTL所
利用的重组信息从突变发生时就已经开始,这将大大增加QTL位置估计的精确性(Meuwissen等,2000)。
4.1 SNPs标记在LD定位QTL中的应用 LD
位置克隆来寻找主效基因是可行的。在日本肉牛群体中,通过对常染色体上246个微卫星标记进行LD分析,结果表明利用LD对一些重要经济性状的
QTL进行精细定位是一个非常有效的工具(Odani等,2006)。
5 利用LD进行MAS
是不同遗传标记间存在着的非随机组合现象,SNP作为极具优势的遗传标记为深入研究LD以及利用LD进行群体遗传学的参数估计、基因精细定位、关
联分析等提供了良好条件。当前鸡和牛的图谱平均每1cM就有1个微卫星标记,现在在鸡中我们可以获得280万个SNPs,大约每374bp之内就存在一个SNP标记,这为我们利用LD进行QTL定位提
标记辅助选择(marker2assistedselection,
MAS)可简单分为基因辅助选择(GAS)、LD标记辅助选择(LD2MAS)和LE标记辅助选择(LE2MAS)
中国畜牧兽医 2007年第34卷第6期遗传繁育・39・
3类。应用标记进行辅助选择的难易程度和能力大
4 GrapesL,CMDekkers,MFRothschild,etal.Comparing
LinkageDisequilibrium2BasedMeforFineMappingQuantitativeTraitLoci[J].Genetics,2004,166:1561~1570.
5 HeifetzEM,JEFulton,NOπSullivan,etal.ExtentandCon2sistencyAcrossGenerationsofLinkageDisequilibriuminCom2mercialLayerChickenBreedingPopulations[J].Genetics,2005,171:1173~1181.
6 JackCMD.Integrationofmoleculargenetictechnologywith
quantitativegenetictechnologyformaximizingthespeedofge2neticimprovement[J].JournalofSouthChinaAgriculturalUni2versity,2005,26(suppl):104~117.
7 JoelIW.Quantitativetraitlocianalysisinanmals[M].Crom2wellpress,2001.
8 LongAD,SLMullaney,LAReid,etal.Highresolutionmap2pingofgeneticfactorsaffectingabdominalbristlenumberinDro2sophilamelanogaster[J].Genetics,1995,139:1273~1291.9 McRaeAF,JCMcEwan,KGDodds,etal.Linkagedisequilib2riumindomesticsheep[J].Genetics,2002,160:1113~1122.10MeuwissenTHE,MEGoddard,etal.FineMappingofQuan2
titativeTraitLociDisequilibriaWithClosely,155:421~430.T,,LienS.Finemappingofaquan2
locusfortwinningrateusingcombinedlinkageandlinkagedisequilibriummapping[J].Genetics,2002,161:373~379.
12OdaniM,ANarita,TWatanabe,etal.Genome2widelinkage
disequilibriumintwoJapanesebeefcattlebreeds[J].AnimalGenetics,2006,37:139~144.
13PritchardJK,PrzeworskiM.Linkagedisequilibriuminhumans:
modelsanddata[J].AmJHumGenet,2001,69(1):1214.14RischN,MerikangasK.Thefutureofgeneticstudiesofcom2
plexhumandiseases[J].Science,1996,273:1516~1517.15RoyR,LOrdovas,PZaragoza,etal.Associationofpolymor2
phismsinthebovineFASNgenewithmilk2fatcontent[J].Ani2malGenetics,2006,37:215~218.
16SollerM,GeniziA,BrodyT.Onthepowerofexperimentalde2
signsforthedictionoflinkagebetweenmakerlociandquantita2tivelociincrossbetweeninbredlines[J].TheorApplGenet,1976,47:35~59.
17UlebergLE,ISWider