2电子克隆技术及其在植物基因工程中的应用 - 范文中心

2电子克隆技术及其在植物基因工程中的应用

02/24

电子克隆技术及其在植物基因工程中的应用

王冬冬 朱延明 李勇 李杰 柏锡

( 东北农业大学生命科学学院,黑龙江哈尔滨150030)

摘要:电子克隆是随着基因组计划和EST 计划的实施而发展起来的, 是利用生物信息学手段进行基因克隆的新方法。它具有投入低、速度快、技术要求低和针对性强等优点。因此, 电子克隆技术必将成为植物基因工程中获得新基因的重要手段。阐述了电子克隆应用所依据的数据库与生物信息资源, 介绍了利用电子克隆获得功能基因的方法, 及其在植物基因工程中的应用现状与前景。

关键词:电子克隆; 植物基因工程; 表达序列标签EST; 生物信息学 电子克隆(in silico cloning)是近年来伴随着基因组计划和EST 计划发展起来的基因克隆新方法。电子克隆的技术原理是利用日益发展的生物信息学技术, 借助电子计算机的巨大运算能力, 通过EST 或基因组的序列组装和拼接, 利用RT- PCR 的方法快速地获得新基因。国际上Boguski 等学者在1994 年开始利用电子克隆方法发现新基因, 中国科学院生物物理研究所陈润生研究组在1996 也开始了对电子克隆的研究[1]。电子克隆技术应用的前提条件要具备拟研物种的丰富核酸序列信息, 其他物种的相关基因的信息, 以及强大的计算机硬件和相关生物信息学分析软件。基因组和EST 资料的丰富程度决定了电子克隆得以在人类、小鼠等生物中广泛应用。由于受到序列资料的限制, 植物基因的电子克隆还鲜有报道。但随着植物

基因组计划和功能基因组学的发展, 电子克隆在植物基因工程研究中必将发挥出巨大的功用。

1 电子克隆技术及其依托的生物信息学资源

1.1 电子克隆的基本原理

利用电子克隆方法获得新基因是生物信息学的研究内容之一。生物信息学资源是由数据库、计算机网络和应用软件三大部分组成。而电子克隆的应用即是基于这三部分生物信息学资源而展开的。它是利用计算机技术, 依托现有的网络资源( EST数据库、核苷酸数据库、蛋白质数据库、基因组数据库等) , 采用生物信息学方法( 包括同源性检索、聚类、序列拼装等) , 通过EST 或基因组的序列组装和拼接, 利用RT- PCR 快速地获得部分乃至全长cDNA 序列的方法。

1.2 电子克隆的实施方案

首先, 在数据库或PubMed 中获得感兴趣的cDNA 或氨基酸序列, 基于EST 和基因组信息两种数据资源, 利用上述得到的已知基因序列实施电子克隆有以下两种方案。利用EST 数据库信息资料: ①利用序列同源性比较软件( 如Blast 软件) 将种子序列对库检索;②从数据库中挑选出全部相关序列; ③对所有序列进行片段整合分析( 即Contig 分析) , 形成延伸后的序列, 称新生序列。随后, 将此新生序列作为种子序列重复进行上述三步过程, 直至新生序列不能被进一步延伸为止, 通过完整性分析即获得了全长的新基因序列[2- 3]。见图1。利用基因组信息资料: 把作为信息探针的

氨基酸或核苷酸序列在NCBI 网站中对特定物种各基因组数据库进行BLAST 分析, 从结果中筛选出感兴趣的外显子序列, 并通过链接得到其所在的基因组序列, 同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正; 把这些感兴趣的外显子序列按照其所在基因组上的位置依次进行直接连接, 或者把基因组序列提交到GenScan 和GeneFinder 等网站进行预测, 得到可能的新基因序列。有时各外显子分别处于较短的尚未组装的基因组序列中, 也可按探针基因外显子顺序进行直接拼接; 把可能的新基因序列基于核酸数据库做BLAST 分析, 检验其新颖性; 把筛选后的新基因序列提交到dbEST 数据库做BLAST 分析并延伸,同时也是进一步确认其真实存在的可信度, 并进行组织表达定位, 为克隆该基因提供组织来源信息。最后根据最终的序列设计引物, 进行RT- PCR 实验得到新基因[4]。见图2。

1.3 电子克隆依据的网络分析程序和应用软件

1.3.1 序列的相似性检索分析程序

一条序列对整个数据库进行相似性分析以发现其同源序列是电子克隆中的一个极其重要的方面。目前使用最广泛的程序是FASTA 和BLAST。FASTA集中反映具有显著意义的序列对齐结果。在互联网上已有许多的在线FASTA 查找服务, 同时也可下载后离线使用, 下载站点: ftp: //ftp. vir. ginia.edu/pub/fasta/dos/。BLAST( Basic Local Align mentSearch Tool, 基本局部比对搜索工具) 则采用了一种短片段匹配算法和一种有效的统计模型来找出目的序列和数据库之间的最佳局部对齐效果。目前在互联网上

有许多在线的BLAST 查找程序, 专门用于查找各大数据库中与用户提交的序列同源的序列, 如: NCBI (http: //www. ncbi. nlm. nih. gov/BLAST/blast. html)和EMBL(http: //www. ebi. ac.uk/blast2)和EBI 的FASTA(http: //www. ebi. ac. k/fasta33/)fasta33/)。同时运行这两个程序进行数据分析, 能避免漏检一些有用的信息[5- 6]。

1.3.2 序列拼接、聚类的软件序列拼接、聚类常用的软件或软件包见表1

[7]。

1.3.3 核酸序列分析预测程序及软件

1.3.3.1 可读框架( open r eading fr ame,ORF)分析

mRNA 需要翻译为蛋白质方能发挥其生物学作用。因此, 核酸序列的可读框架分析是核酸分析的一个重要部分。基于遗传密码表, 可通过计算机方便的分析核酸序列的读码框。最常用的互联网ORF 分析资源是NCBI 提供的ORF Finder, 网址是http: //www. ncbi. nlm. nih. gov/gorf/gorf. html。1.3.3.2 基因序列中的编码区/内含子结构分析预测通过与数据库中已知的蛋白质序列、cDNA 序列以及EST 序列进行对比, 可识别编码区和内含子、外显子剪接位点。一些内含子和外显子数据库可供参考, 例如IDB( http: //Netmeg. bio. indiana. edu/intron/index. html) ; ExInt( http: //intron. bic. nus.edu. sg) 。也可通过GENESCAN( http: //211. 161. 196.214: 8888) 程序预测基因组序列中可能的外显子;利用Gene Fi

nder 软件( http: //www. bioscience. org/urllists/genefind. html) 进行基因组序列的内含子和外显子分析。

1.3.3.3 基因启动子及其他DNA调控位点分析预测

基因启动子分析预测常用的数据库有真核生物启动子数据库EPD(Eukaryotic Promoter Database):http: //www. epd. isb- sib. ch/。植物启动子数据库PlantPromDB: http: //www. softberry. com/berry. phtml?topic=plantprom&group=Data&subgroup=plantprom; 转录起始位点预测工具NNPP(Neural Network PromoterPrediction): http: //www. fruitfly. org/seq_tools/promoter. html,PROSCAN: http: //bimas. dcrt. nih.gov/molbio/proscan, PlantProm DB: http: //www. softberry.com/berry. phtmltopic=plantprom&group=data&subgroup=plantprom; 植物顺式作用元件分析工具PLACE: http: //www. dna. affrc. go. jp/htdocs/PLACE/[5]。

1.3.4 蛋白质序列分析预测程序及软件

1.3.4.1 蛋白质基本性质分析

位于ExPASy 的ProtScale 程序(http: //www. expasy.org/cgi. bin/protscale. pl)可被用来计算蛋白质的疏水性图谱。进行蛋白质的亲/疏水性分析时,也可使用一些Windows 下的软件资源, 如BioEdit、DNAMAN 等。跨膜区的分析利用网上的相关软件(http: //www.ch. embnet. org/software/TMPRED. form. html), 该程序通过计算氨基酸序列中可能形成的跨

膜螺旋位置, 并按照疏水性大小赋予每个跨膜螺旋一定的分值, 自动绘制出蛋白质的疏水曲线。当分值在正负之间摆动时, 可预测该蛋白质有跨膜结构域。含有信号肽的蛋白质一般能够被分泌到细胞外, 可能作为重要的细胞因子起作用, 从而具有潜在的应用价值。联网到http: //genome. cbs. dtu. dk/services/SignalP/可进行蛋白质序列信号肽分析。和信号肽与跨膜区结构一样, 蛋白质的亚细胞定位往往也和该蛋白质的功能密切相关。蛋白质的亚细胞定位分析的网络程序可联网到http: //www. softberry.com 等, Reinhardt 等基于神经网络算法构建的蛋白质亚细胞定位数据库( http: //predict. sanger. ac.uk/nnpsl/nnpsl_mult. cgi) 也可用于对蛋白质序列进行亚细胞定位分析。

1.3.4.2 蛋白质功能分析预测

基于序列同源性分析的蛋白质功能预测利用BLASTP 和FASTA 等软件。通常, 一条新生的蛋白质序列很难仅仅通过序列对齐获得足够的功能信息。基于蛋白质基序( motif) 、结构位点、结构功能域的蛋白质功能预测能够更多的获得蛋白质的功能信息。目前最好的motif 数据库是由Amos Bairoch所创建的PROSITE(http: //www. expasy. org. prosite)。motif 预测软件: MotifScan( http: //hits. isb- sib. ch/cgi - bin/PFSCAN) 简单模块构架搜索工具( SimpleModular Architecture Research Tool, SMART) 是较为理想的蛋白质结构功能域分析工具。网址为: http://smart. embl- heidelberg. de/。

1.3.4.3 蛋白质结构分析预测

蛋白质结构资源很多, 基本立体结构数据库为PDB( http: //www. rcsb. org/pdb/) 。NRL- 3D 是所有已知结构蛋白质的数据库, 可用于对查询蛋白质序列进行相似性分析以确定其结构。其网址为: http://www. gdb. org/Dan/proteins/nrl3d. html。蛋白质序列数据库ISSD( http: //www. protein. bio. msu. su. /issd/) ;二级结构数据库HSSP( http: //www. sander.embl -heidelberg. de/hssp/); 蛋白质结构分类数据库SCOP(http: //scop. mrc. lmb. cam. ac. uk. scop); 蛋白质分子模型数据库MMDB(http: //www. ncbi. nlm. nih.gov/Structure/); 三维结构数据库ND

B、BisMagRes-Bank、CCSD 等[8-10]。

2 电子克隆技术在植物基因工程中的应用

1994 年Boguski 等开始用电子克隆寻找人类新基因。目前发表的有关人类基因克隆的绝大部分都利用了人类的基因组或EST 数据。北京大学人类疾病基因研究中心、国家人类基因组北方研究中心、北京大学数学学院、北京大学计算生物学中心联合, 利用电子克隆的方法进行人类疾病相关的基因克隆, 在国际上已经处于领先水平。植物中目前只有拟南芥和水稻公布了基因组序列, 使得这两种植物基因的克隆越来越多的利用发布的序列信息资源。尤其是利用生物信息学技术进行水稻功能基因的电子克隆的报道近几年来逐渐增多, 这标志着电子克隆在植物领域的应用开始逐步的发展起来。黄骥等[11]以来源于水稻盐胁迫cDNA 文库的1个500 bp 的ESTS121 为信息探针搜索位于Gen-Bank 的水稻EST 库, 发现有2 个EST 与S121 部分序列一致, 经过拼接组装获得了1 个886 bp 的全长cDNA 序列,

同源性比较的结果表明其可能编码一个新的水稻锌指蛋白基因。根据拼接好的序列设计PCR 引物, 通过RT- PCR 的方法成功分离了该基因的完整cDNA 克隆, 命名为OsZFP, 该锌指蛋白可能涉及到水稻幼苗的盐胁迫应答反应。他们在2004 年报道以已公布的黑麦胞质核糖体蛋白基因ScRPS7 的cDNA 序列为信息探针, 在中国华大水稻基因组数据库中搜索与之高度同源的基因组重叠群。采用计算机拼接和RT- PCR 方法克隆了水稻胞质核糖体蛋白基因的全长cDNA 序列, 将其命名为OsRPS7。对OsRPS7 的基因组结构和基因的功能进行了分析和预测。该cDNA 序列全长919bp, 编码192 个氨基酸, 其与黑麦、拟南芥和芸薹的S7 核糖体蛋白的氨基酸都存在很高的一致率。中山大学的林慧贤等用已知遗传图位的BAC 克隆片段筛选水稻小穗cDNA 文库, 获得1 个小GTP结合蛋白的相关序列, 以该cDNA 序列为基础将4个EST 拼接, 进行电子克隆, 得到了1 个新的水稻小GTP 蛋白基因Osrab5B 的cDNA 克隆。除了利用水稻EST 作查询探针外, 还可以选择其他物种尤其是亲缘关系较近的物种全长或EST作为查询探针, 搜索水稻的dbEST 库, 进而拼接成完整的水稻cDNA 序列。其主要理论依据是不同物种同类基因之间存在序列保守性。南京农业大学作物遗传与种质创新国家重点实验室与复旦大学遗传所合作, 以玉米全长6- 磷酸葡萄糖酸脱氢酶cDNA 为查询探针, 搜索水稻dbEST 数据库, 发现了几十条高度同源的水稻EST, 通过序列组装和拼接获得了1.8 kb 左右的cDNA 序列, 进一步用RTPCR的方法克隆了水稻的6- 磷酸葡萄糖酸脱氢酶基因Os6PGDH( GenBank 注册号: AF486280) 。同时他们利用来自小麦的葡萄糖- 6- 磷酸脱氢酶cDNA克隆Tagpd1 序列为探针, 搜索水稻基因组数据库, 结果找到1 个

与之高度同源的水稻相应基因组BAC 序列, 通过人工序列拼接和RT- PCR 克隆到了水稻葡萄糖- 6- 磷酸脱氢酶的全长cDNA, 命名为OsG6PDH (GenBank 注册号: AY078072), 经分析表明该基因编码的蛋白为胞质G6PDH, 是磷酸戊糖途径的限速酶[12]。唐向荣等发现2 个水稻EST片段与大白菜BcpLH 基因的双链RNA 结合结构域( dsRBD) 有同源区域, 根据同源片段设计引物, 用RT- PCR 的方法从水稻愈伤组织中扩增得到了1.8kb 的cDNA 片段, 该cDNA 含有完整的编码区,有两个典型的dsRBD, 与大白菜BcpLH 基因的dsRBD 在氨基酸水平上相似性为75%左右。除了拟南芥和水稻, 很多EST 数目较多的植物也可以利用EST 数据的策略进行电子克隆, 同时也可以间接的利用电子克隆的策略( 更方便的文库筛选) , 但在这方面的报道还较少。国外的研究主要集中在利用生物信息学对传统方法或利用cDNA文库筛选克隆获得基因的结构与功能进行分析。还有报道通过将拟南芥或水稻基因组与其他植物的EST 资料及其序列进行比较, 利用比较基因组学的研究结果, 利用生物信息资源研究鉴定在其他作物中的相关基因, 并用于鉴定同一基因在不同种中的表达或功能控制方面的差异。但是极少有利用电子克隆获得新的功能基因的报道[13], 这说明我国在植物基因电子克隆方面的研究也处于世界领先水平。

3 电子克隆技术应用前景展望

与传统的基因克隆方法相比, 电子克隆主要有以下优点: 速度快, 包括同源性比较、序列拼接组装等工作在计算机上完成, 只需RT- PCR 序列验证即可; 投入低, 电子克隆只需能够上网的计算机和PCR 仪等仪器即可进行,

实验成本较低; 技术要求低, 实验室工作只涉及到RNA 抽提、反转录、PCR 扩增等分子生物学的基本实验, 研究人员很容易掌握; 针对性强, 拟克隆基因的生物学功能大都比较明确, 一旦获得即可直接应用于转基因技术进行作物品种改良。随着遗传图谱与以序列为基础的物理图谱的整合, 直接将目的基因与连锁标记的遗传距离转换为物理图距后的电子克隆有可能成为取代传统的图位克隆的重要措施; 而对于采用抑制差减杂交、差异显示或基因表达系列分析等方法得到的EST 采取电子克隆的方法获得全长cDNA 的策略, 则可成为取代RACE 或cDNA 文库筛选的最佳方案。在电子克隆的基础上, 许多EST 所对应的cDNA克隆可通过基因组及其表达的整合分子分析( inter- grated molecular analysis of genomes and theirexpression, IMAGE) 协定免费索取, 当研究者通过另外的途径得到基因的部分序列, 并通过同源性检索后发现该片段与加入IMAGE 协定的EST 序列高度同源时, 便可通过美国的ATCC 组织( AmericanType Culture Collection) 等免费索取其原始克隆,从而避免或减轻筛选全长基因的麻烦, 以集中精力进行基因的功能研究。电子克隆虽然在基因克隆效率上有很大的优势, 但也存在一些弊端。首先通过电子克隆获得cDNA 全序列可行性, 受已有的EST 数目制约。在GenBank 中已经登录了庞大的人类和小鼠、大鼠的EST 数据资料, 利用EST 拼接它们的全长cDNA序列相对容易些。而植物EST 数据库的资料目前还很欠缺, 获得cDNA 全序列的概率要小, 难度要大。同时电子克隆不适用种间保守性差的基因和外显子数目多而且每个外显子短的基因, 使得电子克隆技术应用的普遍性受到一定的限制[14]。在实际应用中, 电子克隆也常常会碰到一些非常棘手的问题, 针对这

些问题, 根据已有的研究经验列出了以下解决方案。首先, 难以获得完整的5′端序列。这是电子克隆中遇到的最主要问题。因为植物基因的5′端保守性一般比较低, 在以基因组序列为基础的电子克隆中尤其难以确定。根据Kozak 规则以及一些经验, 对于完整ORF 的5′完整性一般有以下几条原则: ①参考5′端的起始密码子AUG 的周围序列(GCC)GCCA/ GCCAUGG 规则; ②在起始密码子上游的阅读框序列中是否存在终止密码子; ③根据已有的其他物种该类基因的5′端序列与预测物种5′端的序列一致性比较。另外也可以根据Northern 杂交的结果判断该基因转录本的大小。其次, 对于通过基因组结构预测获得的基因,有时候难以确定其表达的时期, 给RT- PCR 验证带来困难。一般可以根据其功能预测或查找相关的文献资料确定该基因的表达时期, 也可以同时测定各个时期和不同组织的表达谱加以判断。第三, 有些查询探针是来自与预测物种如水稻同源关系较远的物种, 给基因结构的人工分析带来困难。这种情况下可以借助于基因结构预测软件,使得结构分析变得简单而且准确。由于水稻基因的基因组序列平均只有4.5, 只要将该基因估计的基因组序列(

的植物基因克隆中将起到不可替代的作用。伴随着基因组计划出现的电子克隆必将大大加速植物基因结构、功能研究的进程, 推动比较基因组学的发展和植物基因的进化、起源、发育方面的研究[15]。从发现新基因到确定基因功能, 电子克隆技术将为人类研究利用植物种质资源作出巨大贡献。

[ 参考文献]

[ 1 ] 李鑫, 章涛. 新基因的克隆策略和方法[J]. 海峡药学, 2004, 16(3): 16- 19.

[ 2 ] 何志颖, 姚玉成, 胡以平. EST 技术及其在基因全长cDNA 克隆上的应用策略[J]. 国外医学遗传学分册, 2002, 25 (2): 67-69.

[ 3 ] Bogusk iMS, Schuler G D. EST ablishing a human transcript map[J]. NatGenet, 1995, 10(4): 367- 371.

[ 4 ] 黄骥, 张红生, 曹雅君, 等. 水稻功能基因的电子克隆策略[J].中国水稻科学, 2002, 16(4): 295- 298.

[ 5 ] 张成岗, 贺福初. 生物信息学方法与实践[M]. 北京: 科学出版社, 2002.

[ 6 ] 路海峰, 刘晓辉. 网页方式下的BLAST 程序[J]. 生物技术,2003, 13(1): 48- 51.

[ 7 ] Huang X. An improved sequence assembly program[J]. Genomics,1996, 33(1): 21- 31.

[ 8 ] 万跃华, 何立民. 网上生物信息学数据库资源[J]. 情报学报,2002, 21(4): 497- 512.

[ 9 ] 张见影, 伦志军, 李正红. NCBI 基因序列数据库使用和检索方法[J]. 现代情报, 2003( 12) : 224- 225.

[10] 张成岗, 贺福初. 生物信息学在新基因全长cDNA 序列分析及功能预测中的应用[J]. 生物化学与生物物理进展, 2003, 30(1):159- 163.

[11] 黄骥, 张红生, 曹雅君, 等. 一个新的水稻C2H2 型锌指蛋白cDNA 的克隆与序列分析[J]. 南京农业大学学报, 2002, 25(2):110- 112.

[12] 黄骥, 王建飞, 张红生. 植物戊糖磷酸途径及其两个关键酶的研究进展[J]. 植物学通报, 2004, 21(2): 139- 145.

[13] Bianca Habermann, Anne - Gaelle Bebin, Stephan Herklotz. An Ambystoma mexicanum EST sequencing project: analysis of 17,352 expressed sequence tags from embryonic and regenerating blastema cDNA libraries [J]. Genome Biol, 2004, 5(9): 67.

[14] 万海伟, 杜立新. 表达序列标签(EST)在基因组学研究中的应用[J]. 生物技术通报, 2004(1): 35- 38.

[15] Bikram S Gill, Rudi Appels, Anna-Maria Botha- Oberholster. Aworkshop report on wheat genome sequencing: internationalgenome research on wheat consortium [J]. Genetics, 2004, 168:1087- 1096.


相关内容

  • [101中学专题学习]克隆技术包含答案
    高考专题05 克隆技术(选修一.三)  不会的作上标记过后查书和资料.  查阅后请把答错的或不会的题再答一遍,最终要做到所有题目的答案脱口而出!  此练习最终需要能够在25分钟内完成. 克隆和理论基础 1. 什么叫克隆?克隆的理论基础 ...
  • 高中生物选修三知识点
    生物选修要点总结2008-06-06 14:47生物选修要点总结2008年05月09日 星期五 00:0390.稳态:神经系统.体液和免疫系统调节下,内环境的相对稳定 温度.pH.渗透压,水.无机盐.血糖等化学物质含量 血浆 7.35-7. ...
  • 细胞工程在药物领域的应用
    细胞工程的定义及其在药物领域的应用 何谓细胞工程?细胞工程是指在细胞水平上,用现代细胞生物学.发育生物学.遗传学和分子生物学的理论与方法所进行的的遗传操作,重组细胞的结构和内含物,以改变生物的结构和功能,通过细胞融合.核质移植.染色体或基因 ...
  • 分子标记的发展及分子标记辅助育种
    分子标记的发展及分子标记辅助育种 分子标记辅助选择育种(Marker Assisted Selection (MAS)或Marker Assisted Breeding)是利用与目标基因紧密连锁的分子标记或功能标记),在杂交后代中准确地对不 ...
  • 生物技术包括传统生物技术和现代生物技术
    生物技术包括传统生物技术和现代生物技术.传统生物技术包括酿造.酶的使用.抗菌素发酵.味精和氨基酸工业等,被广泛应用于生产多种食品如面包.奶酪.啤酒.葡萄酒以及酱油.米酒和发酵乳制品.它和新的生物技术之间既有联系,又有质的区别.现代生物技术是 ...
  • 有关"生物育种方法"知识总结
    有关"生物育种方法"知识总结 在高中<生物>教材中所介绍的育种方法主要有:诱变育种.杂交育种.单倍体育种.多倍体育种.细胞工程育种(组织培养育种).遗传工程(基因工程)育种.现根据最新<教学大纲> ...
  • 植物生物技术
    • 1植物组织培养的应用: (1)快速繁殖和规模化生产(2)培养无病毒植株(3)用于植物遗传育种:种质资源离题保存.花粉花药培养产生单倍体.胚乳培养产生三倍体.体细胞杂交.克服远缘杂交困难(4)培育转基因植物(5)突变体筛选(6)制成人工种 ...
  • 生物技术药物
    生物技术药物(biotech drugs)或称生物药物(biopharmaceutics)是集生物学.医学.药学的先进技术为一体,以组合化学.药学基因(功能抗原学.生物信息学等高技术为依托,以分子遗传学.分子生物.生物物理等基础学科的突破为 ...
  • 生物技术在制药方面的应用与前景
    摘 要:生物制药中生物技术研究开发和应用最为活跃.邻域进展的也是最快,在我国的制药产业中是最具有前途的产业之一.目前生物制药的研究成果数量日益增长,在新药研发中生物技术制药形式相对比较重要,使生物技术制药成为了研发主流.在未来的发展过程中, ...