四种常用高通量测序拼接软件的应用比较_朱大强 - 范文中心

四种常用高通量测序拼接软件的应用比较_朱大强

11/26

第9卷第2期2011年6月生物信息学

China Journal of Bioinformatics Vol.9No.2Jun.,2011

doi :10. 3969/j.issn.1672-5565.2011.02.004

四种常用高通量测序拼接软件的应用比较

11111112*1*

朱大强,李存,陈斌,姜焕焕,江晓芳,安小平,米志强,陈禹保,童贻刚(1. 军事医学科学院微生物流行病研究所病原微生物生物安全国家重点实验室,北京100071;2. 北京市计算中心生物学研究室,北京100071)

摘要:新一代测序平台的诞生推动了对全基因组鸟枪法测序数据的拼接算法和软件的研究,自2005年以来多种用于高通量

并且在不断地进行改进以提高拼接效果。本文利用目前广泛使用的高通量测序拼接测序的序列拼接软件已经被开发出来,

AbySS 、SOAPdenovo 和CLC Genomic Workbench 分别对本试验室分离的一株噬菌体IME08的高通量测序结果进行软件Velvet 、

拼接,介绍这几种拼接软件的安装使用及参数优化,并对不同软件的拼接结果进行比较,针对不同的拼接软件得到优化的拼接参数,可为其他研究人员使用上述软件提供参考借鉴。

关键词:第二代测序;从头拼接;Velvet ;ABySS ;SOAPdenovo ;CLC Genomic Workbench 中图分类号:Q518.2

文献标识码:A

文章编号:1672-5565(2011)-02-106-07

Comparison of the widely used high -throughput

sequencing assembly software

ZHU Da-qiang 1,Li Cun 1,CHEN Bin 1,JIANG Huan-huan 1,

JIANG Xiao-fang 1,AN Xiao-ping 1,MI Zhi-qiang 1,CHEN Yu-bao 2*,TONG Yi-gang 1*

(1. State Key Laboratory of Pathogen and Biosecurity ,Institute of Microbiology and Epidemiology ,Academy of Military Medical

Beijing computing Center ,Beijing 100071,China )Science ,Beijing 100071,China ;2. Research office of biology ,

Abstract :The emergence of new sequencing platforms led to resurgence of research in whole -genome shotgun as-sembly algorithms and software.Since 2005,several assembly software packages had been develpoed for de novo assembly of high -throughput sequencing data ,and have been constantly made improvements to enhance the output of assembly.In this paper ,the widely used high -throughput sequencing assembly software packages ,namely Vel-vet ,AbySS ,SOAPdenovo and CLC were used to assembly high -throughput sequencing data of a novo T4-like bacteriophage IME08derived by Solexa Genome Analyzer.For every individual package ,various parameters and input raw data size were evaluated to find out the optimized assembly conditions ,and the assembly results of differ-ent software packages were compared..Our data showed that all the four software package are able to assemble the 172kb full length genome ,but with different raw sequencing sizes and different parameters.Our experiences could serve as a reference for other researchers to use these software packages.

Key words :Next -Gen sequencing ;de novo assembly ;Velvet ;AbySS ;SOAPdenovo ;CLC Genomic Workbench 现在商业化的DNA 测序平台包括Roche 公司

Illumina 公的Genome Sequencer (www.454.com ),

司的Solexa Genome Analyzer (www.illumina.com ),

Applied Biosystems 公司的SOLiD System (www.ap-收稿日期:2010-07-07;修回日期:2010-10-10.

资助项目:国家高技术研究发展计划项目(2009AA02Z111);国家科技重大专项基金(2008ZX10001-013)。Email :zhudaqiang89@gmail.com ;作者简介:朱大强,男,本科生,

Email :licun0211@hotmail.com. 存,男,硕士研究生,主要研究方向:抗体工程、生物信息学,

Email :tong.yigang@gmail.com. 童贻刚,男,研究员,主要研究方向:抗体工程、分子病毒学、生物信息学,

*通讯作者:陈禹保,男,北京市计算中心计算生物学研究室;

pliedbiosystems.com ),Helicos 公司的Heliscope

(www.helicos.com ),以及Azco 公司的Polonator (www.polonator.org )。这些平台的显著特点[1-4]是它们不像第一代测序装置那样依赖于Sanger 化学

反应。第二代测序平台具有高度并行性,高产出,操

成本低廉的优点,但缺点是其产生的reads 作简单,

长度很短。第一代测序生成的reads 通常长度在

500bp 到1000bp 范围内,而目前第二代测序生成的reads 长度在400bp 以内(该长度的reads 由454的Genome Sequencer 得到)以及在100bp 长度以内(该长度的reads 主要由Solexa 和SOLID 得到),有的测

[5]

序仪甚至生成更短的reads 。当然,长度较短的reads 在每个read 中则包含相对较少的信息,越是短

样噬菌体,根据同源性性分析结果,该噬菌体的基因

组长度应该为100 200kb 。高通量测序以Paired -end 方式进行,插入序列约为450bp ,输出结果为两个fastq 格式文件,其中正向read 长度73bp ,每个read 占有167个字节;反向read 长度为75bp ,每个read 占有171个字节,两个文件总大小分别为837M 和857M 字节,包含5011480对reads ,平均的覆盖率(coverage )大约是4000,测序工作由华大基因完成。为了使用不同的数据量对基因组进行拼接,我们将两个原始测序数据文件分割成一系列不同大小的文件(使用UltrEdit 软件分割),文件大小由小到10MB 、20MB 、50MB 、100MB 和大依次为5MB 、200MB ,60K 、120K 、300K 、600K 它们分别含有30K 、和1200K 个reads ,其中小文件中的数据均包含在大文件之中。1.2

拼接软件概述1.2.1Velvet

Velvet 软件由欧洲生物信息中心(EMBL -EBI )的Daniel Zerbino 和Ewan Birney (2008年)开发,是一款在Unix 下运行的从头(de novo )拼接软

主要用于拼接长度为25 500bp 的序列。它执件,

行的是一种基于de Bruijn 算图(de Bruijn graphs )的

[7]

算法,在构建算图后会运行各种纠错步骤。Vel-vet 通过寻找read 中的重叠区域(overlap ),将高质量的匹配片段拼接成contig 序列,最后生成完整的基因序列。Velvet 程序包是目前广泛使用的拼接短reads 的首选拼接工具,已成功用于拼接细菌基因组。不足之处是现有的Velvet 程序无法利用多个CPU 进行序列拼接。Velvet 程序包及相关文档可以在以下网址获得:http ://www.ebi.ac.uk / zebino /velvet /。

系统要求:Velvet 程序可以在任何具有gcc 程序包的标准64位Linux 系统环境下工作运行,推荐使用具有较大内存的计算机系统运行该程序(内存大于12GB ,越大越好。经测试发现,对小于200kb 的噬菌体基因组,仅有3G 内存的计算机也能很好地运行该程序)。Velvet 也可在32位系统环境下运行工作,但是往往这样的操作系统往往内存较小,可能会影响拼接速度和效果。Velvet 安装:仅需输入命令make ,即可成功安装。1.2.2AbySS

ABySS 程序最初是被开发用于基因组的从头拼接,特别是对大型基因组进行拼接。由于ABySS 拼接软件的优点在于它可以进行平行运算,同时运行多拼接任务,因此可能处理的基因组比Velvet 大得多。ABySS 的拼接算法也是基于de Bruijn 算图法

的reads ,用它们进行拼接就需要越高的覆盖率,但

同时是过高的覆盖率则会使拼接复杂性大大增加,也加大了运算量。对这些较短的reads 进行基因组

拼接时要求采用不同与常规测序的拼接算法,要求其能够处理大量的短reads ,并能充分利用各种参数

paired -end 数据提高拼接效率,如适度的覆盖率、

此外对低质量数据的过滤对于拼接拼接效果也具有

重要作用。

高通量测序拼接的主要过程就是把reads 分组为重叠群(contigs ),把重叠群分组为支架(scaf-folds )。重叠群以reads 进行多重排列,并且形成共同序列,而支架(即超级重叠群或巨型重叠群)规定了重叠群的顺序和方向以及重叠群之间缺口的大小。拼接软件拼接结果的好坏一般使用重叠群和支架的尺寸大小和精确度进行评判,拼接结果尺寸通

contig 平均长度、常以最大contig 长度、全部contig 总全长和N50值等统计数据表示。作为评判拼接——精确度,一般情况下则很结果好坏的另一指标—难准确衡量

[6]

本试验所要进行拼接的序列数据来源于本试验

室分离的一株T4样噬菌体IME08的Solexa 测序结果。选择目前常用的四种高通量测序拼接软件用法Velvet 、AbySS 、SOAPdenovo 和CLC Genomic Work-bench ,对single -end reads 和paired -end reads 两种类型原始测序数据进行拼接比较,同时应用不同的拼接参数获得不同的拼接效果,以期寻找每一种软件的最适参数,为以后的研究提供参考借鉴。

1

1.1

材料与方法

噬菌体和测序数据来源

高通量测序原始数据是一株噬菌体IME08的Solexa 测序结果,IME08是本试验室以E.coli 8099株为宿主从医院污水中分离出的一株噬菌体,其遗

DNA 酶处理证实其为DNA ,传物质经RNA 酶、用限制性内切酶处理该DNA ,证实其为双链DNA 。随机

PCR 克隆序列分析(Sanger 法)显示该噬菌体为T4

(de Bruijn graphs )[8]。ABySS 的源代码和文件可在网址http ://www.bcgsc.ca /platform/bioinfo/soft-ware /ABySS 免费下载。ABySS 拼接软件需要在C ++环境中运行,安装ABySS 时,只需输入命令:./configure &&make 。若要将ABySS 安装到指定文件目录下,则输入命令行:./configure--prefix =/opt /ABySS&&make &&sudo make install 即可安装成功。

1.2.3SOAPdenovo

SOAPdenovo 是由华大基因开发出一个高通量它采用一种新型短read 拼接方测序从头拼接软件,

法,能够构建出人类基因组大小的从头拼接草图。SOAPdenovo 主要用于对大型动植物基因组进行从头拼接工作,当然对于细菌和真菌基因组的拼接同样也表现出色。该程序专门用于拼接由Illumina GA 生成的短reads 测序数据。SOAPdenovo 为构建参比序列提供了新途径,为未知基因组高效精确分析提供了一种工具。SOAPdenovo 执行的也是基于de Bruijn graphs 法的类似拼接算法,该拼接工具的细节还未发布。SOAPdenovo 需要在拥有至少5GB 内存的64位Linux 系统(x86处理器类型)下运行。对于人类这样的大型基因组来说,进行拼接工作则需要150GB 的内存。安装SOAPdenovo 时,只需将SOAPdenovo 软件压缩文件包解压,就会解压出3个

,文件,分别为一个可执行文件“soapdenovo ”一个模拟的配置文件“example.contig ”以及一个说明书文

需要编辑一个配置文件以设档。运行该程序之前,

定一些拼接参数,配置文件的编辑可以参照软件自

带的example.contig 文件。1.2.4

CLC Genomic Workbench

CLC Genomic Workbench (简称CLC )生物是世界领先的生物信息学解决方案供应商丹麦的Aarhus 公司研发的软件,是针对下一代高通量测序的综合

CLC 采用用户友好的图形界面性跨平台分析软件,

SOLiD 、454、运行,可分析来自多个平台(Illumina 、

HeliScope )的基因组、转录和表观基因组数据,并且以可视化方式显示拼接结果。CLC Gene Workbench

CLC Genomics Workbench 可用是一款非免费软件,

于Windows ,Mac OS X 和Linux 三大操作系统。系

统要求:对于小数据量(<50M bp ,或者<10M reads ),内存要求至少2GB RAM ,推荐4GB RAM ;对于中等数据量(<100M reads ),内存要求至少4GB RAM ,推荐8GB RAM ;对于大数据量(>100M reads ),内存要求至少8GB RAM ,推荐16GB RAM 。CLC Genomics Workbench 在任意一种系统平台上的免费试用版本都可以在网址http ://www.clcbio.

com /download上下载。安装步骤:在上述网址下载

CLC 安装文件installer ,双击该文件图标,根据界面提示步骤进行安装操作。

2

2.1

结果分析

Velvet (版本0.7.55)拼接

由于Velvet 不能处理两个单独含有paired -end reads 的文件,因而首先需将两个正反向测序结果文件合并成为一个文件。velvet 程序包文件合并工具提供shuffleSequences _fasta.pl 和shuffleSe-quences_fastq.pl 分别用于合并fasta 格式和fastq 格式的序列原始文件,在velvet 目录中运行>./shuf-fleSequences_fastq.pl forward_reads.fq reverse_reads.fq output.fq 即可将forward _reads.fq 和reverse _reads.fq 合并成可被velvel 使用的paired -end 文件output.fq 。得到paired -end reads 文件之后,即可进行序列拼接。Velvet 的主要参数为k -mer 值,为了尝试不同k -mer 值对拼接结果的影响,可以用linux 的循环语句自动使用不同的k -mer 值进行序列拼接,具体命令为:在velveth 目录中运行:for k in {13,15,17,19,21,23,25,27,29,31};do ./velvethoutput_directory/$k /$k -fastq -shortPaired [in-put_filename ];./velvetgoutput _directory /$k /-exp_covauto -ins_length424-ins_length_sd100-read_trkgyes -amos_fileyes -unused_readsyes &done 。上述命令中,自动判别覆盖率(-exp_covauto )对于产生良好拼接结果十分重要。插入片段长度-ins_length以及插入片段长度的标准差-ins_length_sd可以省略,使用插入片段长度这一参数对拼接结果略有好处,如果省略,程序会自动给出插入片段平均长度。拼接过程跟踪参数-read_trkg的使用可以产生更多的拼接信息,但是会消耗少量的系统资源。-amos_file的使用会在每一次拼接过程中产生一个afg 文件,该文件可以用第三方软件AMOS 来转化格式,然后用另一软件Eagleview 以图形界面显示拼接结果。-unused_reads参数可以显示未被使用的reads 。经过运算,最终在不同k 值的文件夹下生成velvet_asm.afg ,UnusedReads.fa ,stats.txt ,LastGraph ,Graph2,contigs.fa ,PreGraph ,Roadmaps ,Sequences 及Log 等十个文件,其中contigs.fa 包含拼接出来的所有contig 序列。

初步拼接试验显示,使用10MB 大小的测序数据即可拼出噬菌体IME08全长的contig 。为了比较10MB 和不同数据量对拼接结果的影响,选择5MB 、

20MB 的paired -end 格式数据文件,用上述循环语

句对数据进行序列拼接,结果如表1所示。

表1

K 值最大contig

Contig 总数平均覆盖率未知碱基数最大contig

10MB

Contig 总数平均覆盖率未知碱基数最大contig

20MB

Contig 总数平均覆盖率未知碱基数

[1**********].[***********].[**************]4.5432056

Velvet 在不同k -mer 参数下对paired -end 数据进行拼接的结果Assembly of paired -end data with different k -mer using Velvet

1578347649.[**************]9.[**************].101214

1726439289.[**************]8.[**************]8.002670

[1**********].[**************]8.[**************].83983

[1**********].[**************].[**************].321488

2317254188.[1**********]916.[1**********]833.93505

2511810348.[**************].[1**********]32.5055

2717229337.[**************].[1**********]30.96553

2975116107.[**************].[1**********]329.49471

319451337.[**************].[1**********]28.070

Table 1

5MB

21,在拼接5MB 的数据时,当k -mer 值取19,

23,27,29时可拼出全长的contig ,其中当k -mer 取23时,未知碱基数最少;在拼接10MB 的数据时,当k -mer 值取19,27,29,31时,均可拼出全长的con-31时,tig ,其中当k -mer 取27,未知碱基数最少;而

k -mer 取值为15,17,19,当拼接20MB 的数据时,

21,23,25,27,29,31,均可拼出全长的contig ,当k -

mer 取值31时,未知碱基数为0,即获得无gap 的全长基因组序列。

由上表可知,当k -mer 值选择最大值31时拼接效果较好。选定k -mer 值为31,对不同大小的数据(>5MB )进行拼接试验,结果如表2所示:

表2Velvet 在k -mer =31时对paired -end 数据的拼接结果Table 2Assembly of paired -end data with the k -mer as 31

数据大小

5MB 10MB 20MB 50MB 100MB 200MB

最大contig [***********][**************]71

平均覆盖率Contig 总数未知碱基数7.013255514.0416.228.071056.051912112.651464226.741127

试验中,对ABySS 的k 值选取范围为45-64,分别

50MB ,100MB 和200MB 的single -end 对20MB ,

reads 和paired -end reads 原始数据进行拼接测试。对single -end reads 进行拼接试验时,进入程

序ABYSS 所在目录,打开终端输入命令行,与用Velvet 测试K 值类似,ABySS 同样运行批处理命令:for k in {45..64};do ./ABYSS-k $k input.fastq -o output -k $k.fa ;done ,拼接结果见表3。k -mer 值由表3可知,在数据量为100MB 时,

49,50,51,52,53,54,55,56,57,58,59时,可取48,

拼接出全长contig ,当数据量取更大的200MB 时,取k -mer 为48直至64都能够拼出全长的contig ;而当取数据量小于20MB 时,则无法拼出全长的contig 出来。

为了研究paired -end reads 数据对ABySS 拼接结果的影响,我们再对不同大小的paired -end reads 数据进行拼接试验,与进行single end reads 拼接时一样首先对不同的k 值进行拼接测试。方法:在A-BySS 软件包中程序ABySS -pe 所在目录下打开终端,输入命令行:>for k in {45..64};do ./abyss-pe k =$k n =10in ='sequence_1.fastq sequence_2.fastq'name =ime50_$k ;done 。其中k 依旧是k -mer 的值,n 为可以将两个contig 拼接在一起时所需要的最小paired -end reads 数,这里使用默认值10。拼接结果见表4。

由表2可见,在最优化的k -mer 值下,用Vel-vet 对20MB 左右paired -end reads 的数据拼接效果最好,此时不仅可拼出全长的contig ,而且Coverage

contig 数目较少,数值适中,并且不存在缺失现象。2.2

AbySS 拼接

利用和Velvet 进行拼接试验优化k 值类似,在

使用ABySS 对噬菌体测序数据进行拼接之前,也需要对不同k 值进行试验,以选出最优数值。在本次

110

表3Table 3

K

20MB 50MB 100MB 200MB

max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数K

20MB 50MB 100MB 200MB

max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数

[***********][***********][***********]53

生物信息学第9卷

AbySS 在取不同k -mer 值时对single -end 数据拼接结果Assembly of single -end data with different k -mer using AbySS

46

[***********][***********][***********]3

[***********][***********][***********]19813

[***********][***********][***********]19833

[***********][***********][***********]9853

[***********][***********][***********]9873

[***********][***********][***********]9893

[***********][1**********]363<[***********]3051719913

[***********][1**********]364<[***********]3041719932

[***********][***********][***********]

注:表中的max_contig代表最大contig 的长度。

表4Table 4

K

10MB 20MB 50MB 100MB 200MB

max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数K

10MB 20MB 50MB 100MB 200MB

max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数max_contigContig 总数

[***********][***********][***********][1**********]704

AbySS 在取不同k -mer 值时对paired -end 数据拼接结果Assembly of paired -end data with different k -mer using AbySS

46

[***********][***********][***********][1**********]793

[***********][***********][***********][***********]

[***********][***********][***********][***********]

[***********][***********][***********][***********]3

[***********][***********][***********][***********]73

[***********][***********]462<[***********][***********]

[***********][***********]63<[***********][**************]13

[***********][***********]64<[***********][**************]2

[***********][***********][***********][1**********]3

在使用single end reads 进行拼接试验时,小于20MB 的数据无法拼出全长的contig ,而由上表可在利用20MB 的paired -end reads 数据进行拼知,接时,当取k -mer 值为48时,可较好的拼出全长为171,961的contig 。由此可见,在AbySS 拼接小数据

paired -end reads 能提供更丰富的信量的序列时,

息,从而更容易获得全长contig 。而对数据量较大

ABySS 使用paired -end reads 与的测序数据来说,

用single -end reads 进行拼接比较而言没有显著的

区别(见图1、图2)

图1Fig.1

AbySS 对不同大小single -end 数据在不同k 值下序列拼接Assembly of single -end data with different k -mer using AbySS

2.3

SOAPdenovo 拼接

使用SOAPdenovo 对测序数据进行拼接,会生

成contigs 和scaffolds 两种类型的拼接结果,因此需要分别对这两种类型的拼接状况作比较。本文中对于contigs 比较其N50值,最大contig 的长度以及contig 的数量,而对于scaffolds 仅比较gap 中未确定碱基的数目。试验分别在不同k -mer 值下对

图2Fig.2

AbySS 对不同大小paired -end 数据在不同k 值下序列拼接Assembly of paired -end data with different k -mer using AbySS

5MB ,10MB ,20MB ,50MB ,100MB 的paired -end reads 数据进行拼接,从而选择出较好的k -mer 值,拼接结果见表5、表6。

表5Table 5

K

N50

5MB

max_contigContig 总数

N50

10MB

max_contigContig 总数

N50

20MB

max_contigContig 总数

N50

50MB

max_contigContig 总数

N50

100MB

max_contigContig 总数

[***********][***********][**************]

SOAPdenovo 在不同k -mer 值下拼接paired -end 数据得到的contig 结果SOAPdenovo assembled contigs using paired -end data with different k -mer

[***********][***********][**************]33

[***********][***********][***********]

[***********][***********][***********]7

[***********][***********][***********]2

[***********][***********][***********]4

[***********][***********][***********]957

[***********][***********][***********]27

[***********][***********][***********]8731

[***********][***********][***********]533

表6Table 6

K

5MB 10MB 20MB 50MB 100MB

Scaf_length未知碱基数

Scaf_length未知碱基数Scaf_length*未知碱基数Scaf_length未知碱基数Scaf_length未知碱基数

13

SOAPdenovo 在不同k -mer 值下拼接paired -end 数据得到的scaffold 结果SOAPdenovo assembled scaffolds using paired -end data with different k -mer

[***********][***********][**************]15

[***********][***********][***********]8

[***********][***********][***********]2

[***********][***********][**************]24

[***********][***********][**************]78

[***********][***********][1**********]07

[***********][***********][1**********]827

[***********][***********][1**********]

[***********][***********][1**********]

[***********][***********][1**********]173

注:Scaf_length为最长scaffold 的长度,未知碱基数指最长scaffold 中的gap 所包含的未知碱基数量。

对于contig 的质量来说,当拼接5MB 的paired -end reads 时,k -mer 值选择25,27,29,31都能得到较长的contig 以及较大的N50值,对10MB 数据的

50MB ,100MB 的paired 拼接质量为次,而拼接20MB ,-end reads 时,contig 的数量不仅多而且都很短,说

明拼接结果中有很多碎片,拼接结果质量很差。而对于拼接生成的scaffold 来说,同样在对5MB 的paired -end reads 进行拼接时,在所测试的任一k -mer 值下都可拼出全长的scaffold ,但只有在K =25,

27,29,31时,N 值均为0,质量令人满意。对于

10MB 数据也是在任一k -mer 值下都可生成全长的scaffold ,31时,N 值较少,其中当k -mer 取29,效果较好。而随着拼接数据量的增大,拼接效果随之也差。当使用100MB 的paired -end reads 拼接时,在任一k -mer 值不仅无法拼出全长的scafffold ,并且N 值都很大,表明拼接结果中空隙很多,拼接质量很差。可见,在使用SOAPdenovo 进行序列拼接时,无论从生成的contig 数据质量还是从scaffold 数据质

量来看,使用较少数据量反而能生成更好的结果。2.4CLC Genomic Workbench 拼接

CLC Genomic Workbench 拼接工具与上述其他三种拼接软件不同,它可在Windows 平台上工作运行,操作界面直接易懂,更加容易掌握其操作。CLC 对于高通量测序数据的从头拼接的具体操作步骤可参看CLC 软件自带的说明书。

与前面使用其他序列拼接软件进行的试验类似,

5MB ,10MB ,20MB ,50MB ,100MB 用CLC 分别对2.5MB ,

的single -end reads 和paired -end reads 进行拼接试

验,在使用CLC 程序拼接时,对于序列中不确定的碱基序列以出现频率决定碱基种类,所以拼接结果中不存在不确定碱基,见表7、表8。

通过表7和8可以看出,用CLC 对single -end reads 和paired -end reads 进行拼接都可拼出全长的

表7Table 7

CLC 在取不同k -mer 值时对single -end

数据拼接结果

Assembly of single -end data with different

k -mer using CLC

Data 2.5M (SR )5M (SR )

N5013546659

Max contig Contigs ’s Min coverage Max coverage [***********][**************]

12351114

211111

[1**********]421

contig ,但用paired -end reads 的数据拼出的结果要

好于用single -end reads 数据的结果。

表8CLC 在取不同k -mer值时对paired -end数据拼接结果

Table 8

Data 2.5M (PR )5M (PR )

N506258

Assembly of paired -end data with different k -mer using CLC

Max contig Contigs ’s Min coverage Max coverage 11141

3511111

121124

[**************]9

[1**********]1

10M (PR )[1**********]920M (PR )[1**********]550M (PR )[**************]M (PR )[1**********]7

3讨论

本试验所要进行拼接的序列数据来源于本试验

室分离的一株T4样噬菌体IME08的Solexa 测序结果,基因组小而且结构简单。四种拼接软件对其均能够拼接出较好的结果,并且可以推测对于和噬菌体基因组含有类似的重复序列结构和碱基组成的其他基因组来说,运用这四种软件应该也能产生令人满意的结果。

根据四种生物序列拼接软件所做出的试验结果,综合考虑各项质量指标,在每种拼接软件生成的结果中挑选出最佳的拼接结果作对比(如表9)。

10M (SR )17225820M (SR )17235950M (SR )355490100M (SR )149907

表9

Table 9

软件类型

Velvet 0.7.55,k =31

k =64ABySS 1.0.16,

SOAPdenovo 1.0,k =25CLC Genomics Workbench 3.6.1

数据量20MB 200MB 5MB 100MB

四种拼接软件对噬菌体基因组拼接效果的对比

数据类型Paired -end Paired -end Paired -end Paired -end

M ax contig/supercontig

[***********]172357

(5):255-264.

[3]Strausberg RL ,Levy S ,Rogers YH.Emerging DNA sequencing

technologies for human genomic medicine.Drug Discov Today ,2008,13(13-14):569-577.

[4]Pettersson E ,Lundeberg J ,Ahmadian A.Generations of sequen-cing technologies.Genomics ,2009,93(2):105-111.

[5]Harismendy O ,Ng PC ,Strausberg RL ,et al.Evaluation of next

generation sequencing platforms for population targeted sequencing 2009,10(3):R32.studies.Genome Biol ,

[6]Chaisson M ,Pevzner P ,Tang H.Fragment assembly with short

reads.Bioinformatics ,2004,20(13):2067-2074.

[7]Zerbino DR ,Birney E.Velvet :algorithms for de novo short read

2008,18(5):821assembly using de Bruijn graphs.Genome Res ,-829.

[8]Simpson JT ,Wong K ,Jackman SD ,et al.ABySS :a parallel as-sembler for short read sequence data.Genome Res ,2009,19(6):1117-1123.

N50

[***********]172357

Gap 中N 总数

0*0*

Comparison of the assembly results derived from four different software packages

注:*代表对拼接结果不考虑N 值。ABySS 和CLC 拼接结果生成的是congtig ,不含有N 值。

由表9分析可知,对于噬菌体IME08的Solexa 测序数据,本文讨论的四种软件生成的拼接结果几SOAPdenovo 与乎都能够覆盖整个基因组。其中,Velvet 适用于拼接较小量的测序数据,对于SOAPde-novo 与Velvet 而言,并不是数据量越大越好,当数据需要摸索合适的k -mer 值已达到最理想量一定时,

的拼接结果;而ABySS 和CLC 则在拼接大量数据的时候才会产生较好的拼接结果。在使用各拼接软件进行拼接试验时,为得到更好的拼接效果,如果可能应选用paired -end 数据。参考文献(References ):

[1]Mardis ER.The impact of next -generation sequencing technology

on genetics.Trends Genet ,2008,24(3):133-141.

[2]Morozova O ,Marra MA.Applications of next -generation sequen-cing technologies in functional genomics.Genomics ,2008,92


相关内容

  • 诺禾致源有参转录组分析流程
    一.建库测序流程 从RNA 样品到最终数据获得,样品检测.建库.测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果.为了从源头上 保证测序数据的准确性.可靠性,诺禾致源对样品检测.建库.测序每一个生产步骤都 ...
  • 高通量测序技术在林木育种中的应用
    摘要林木不仅是重要的可再生资源,为人类提供了衣食住行等最基本的原材料,也是陆地生态系统最重要的组成部分.传统育种方法已在很大程度上促进了林木育种学的发展,但难以满足人类对林木资源需求.新一代的高通量测序技术为这个传统学科带来了技术和方法的革 ...
  • 2电子克隆技术及其在植物基因工程中的应用
    电子克隆技术及其在植物基因工程中的应用 王冬冬 朱延明 李勇 李杰 柏锡 ( 东北农业大学生命科学学院,黑龙江哈尔滨150030) 摘要:电子克隆是随着基因组计划和EST 计划的实施而发展起来的, 是利用生物信息学手段进行基因克隆的新方法. ...
  • 新型细胞色素P450氧化酶的发现与筛选
    214 中国医药生物技术 2011年6月第6卷第3期 Chin Med Biotechnol, June 2011, Vol. 6, No. 3 DOI:10.3969/cmba.j.issn.1673-713X.2011.03.009 · ...
  • 全基因组外显子测序及其应用
    遗姑HEREDITAS(Beijing)2011年8月,33(8):847-856 ISSN0253-9772 www.chinagene.ca 综述 DoI:10.3724/SP.J.1005.2011.00847 全基因组外显子测序及其 ...
  • EST或转录组分析
    开放共赢 关注创新 俞鸿 副总经理 手机:[1**********] E-mail: hyu@biorefer.com 9qq 12628609@qq.com 1 ESTs(Expressed Sequence tags )是从cDNA文件 ...
  • 医药及分子诊断市场分析
    医药及分子诊断市场分析 一.医疗及医药市场 医疗保健(PC )的定义是药师直接.负责地提供的与药物治疗相关的服务,其目的是达到改善病人生命质量的确切效果. 在中国,每千人口拥有医生1.5人,病床2.4张.北京.上海.天津.重庆等大城市中均设 ...
  • 分子标记的发展及分子标记辅助育种
    分子标记的发展及分子标记辅助育种 分子标记辅助选择育种(Marker Assisted Selection (MAS)或Marker Assisted Breeding)是利用与目标基因紧密连锁的分子标记或功能标记),在杂交后代中准确地对不 ...
  • 微生物遗传学论文
    猪链球菌分子生物学分型方法研究进展 爱琴海 (甘肃农业大学动物医学院 预防兽医系 兰州) 摘要: 猪链球菌(Streptococcus suis ,SS)病是一种由不同致病性血清群的链球菌引起,在世界范围内均有分布的人畜共患传染病[1-3] ...
  • 几种生物新技术的研究进展
    三种生物新技术在微生物研究中的应用进展 摘 要:本文对几种时下比较热门的生物技术的应用原理.存在的问题和研究进展进行了简单阐述,并且结合自己研究的领域,浅析了这些新兴的生物技术在生物防治真菌中研究的实际应用. 关键词:微生物新技术:基因编辑 ...