基因芯片数据功能分析 - 范文中心

基因芯片数据功能分析

06/01

生物信息学在基因芯片数据功能分析中的应用

2009-4-29

随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era) ,向基因的功能及基因的多样性倾斜。通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明 不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。它将大大推动人类结构 基因组及功能基因组的各项基因组研究计划。生物信息学在基因组学中发挥着重大的作用, 而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。基因芯片与生物信息学是相辅相成 的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生 物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。

本文介绍了几种常用的基因功能分析方法和工具:

一、 GO 基因本体论分类法

最先出现的芯片数据基因功能分析法是GO 分类法。Gene Ontology(GO ,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。这 样,GO 中每一个分类术语都以一种被称为定向非循环图表(DAGs )的结构组织起来。研究者可以通过GO 分类号和各种GO 数据库相关分析工具将分类与具体 基因联系起来,从而对这个基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO 功能分支,并用统计学方法检定结果是否 具有统计学意义,从而得出变化基因主要参与了哪些生物功能。

EASE (Expressing Analysis Systematic Explorer )是比较早的用于芯片功能分析的网络平台。由美国国立卫生研究院(NIH )的研究人员开发。研究者可以用多种不同的格式将芯片中得到的基 因导入EASE 进行分析,EASE 会找出这一系列的基因都存在于哪些GO 分类中。其最主要特点是提供了一些统计学选项以判断得到的GO 分类是否符合统计学标准。EASE 能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher 精确概率检验进行了修饰的EASE 得分(EASE score)。

由于进行统计学检验的GO 分类的数量很多,所以EASE 采取了一系列方法对“多重检验”的结果进行校正。这些方法包括弗朗尼校正法 (Bonferroni ),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping )。同年出现的基于GO 分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express 。 2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO 分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式

不相近的基因相比,相近的基因更有可能参与相同的生物学功能的实现。比 较著名的基于GO 分类法的芯片数据分析网络平台还有七十多个,表1列举了其中的一部分。

表1 用GO 分类法进行芯片功能分析的网络平台

二、Pathway 通路分析法

通路分析是现在经常被使用的芯片数据基因功能分析法。与GO 分类法(应用单个基因的GO 分类信息)不同,通路分析法利用的资源是许 多已经研究清楚的基因之间的相互作用,即生物学通路。研究者可以把表达发生变化的基因列表导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路 中,并通过统计学方法计算哪些通路与基因表达的变化最为相关。现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路,对芯片的结果进行分析。主要 的生物学通路数据库有以下两个:

① KEGG 数据库:迄今为止,KEGG 数据库(Kyoto encyclopedia of genes and genomes)是

向公众开放的最为著名的生物学通路方面的资源网站。在这个网站中,每一种生物学通路都有专门的图示说明。

② BioCarta 数据库:BioCarta 是一家生物技术公司,它在其公共网站上提供了用于绘制生

物学通路的模板。研究者可以把符合标准的生物学通路提供给BioCarta 数据库。 BioCarta 数据库不会检验这些生物学通路的质量,因此其中的资源质量参差不齐,并且有许多相互重复。然而BioCarta 数据库数据量巨大,且不同 于KEGG 数据库,包含了大量代谢通路之外的生物学通路,所以也得到广泛的应用。

最先出现的通路分析软件之一是GenMAPP (gene microarray pathway profiler)。它可以免费使用,其最新版本为Gen-MAPP2。在这个软件中,使用者可以用几种灵活的文件格式输入自己的表达谱数 据,GenMAPP 的基因数据库包含许多从常用的资源中得到的物种特异性的基因注释和识别符(ID )。这些ID 可以将使用者输入的基因与不同的生物学通路 的基因联系起来。这些生物学通路存在于GenMAPP 的MAPP 文件中。MAPP 文件需要时常下载更新。它包含有许多KEGG 生物学通路,一些GenMAPP 自己的生物学通路和许多GO 分类的MAPP 文件,全部操作简单明了。而且依靠其自带的MAPPBuilder 和MAPPFinder 两个软件,使用者可以自己绘制生物学通路和对MAPP 文件进行检索。由于使用者可以自己绘制生物学通路保存为MAPP 格式,这个文件很小易于在网络上传播,所以GenMAPP 数据库更有利于研究者之间的及时交流。由于上述特点,GenMAPP 数据库及软件仍是现今免费平台里应用比较广泛的。

2004年推出的Pathway Miner也是应用较为广泛的免费通路分析网络平台,由美国亚利桑那大学癌症中心建立维护,其最突出的特点就是信息全面,操作简便。使用者可以在这个网站 中获得单个基因的序列、功能注释,以及有关它们编码的蛋白结构功能,组织分布,OMIM 等信息。对于通路分析部分,使用者给出基因列表及他们的表达变化 值,网站可以根据三大公用的通路数据库:KEGG 、GenMAPP 和BioCarta ,生成变化基因参与的通路,并用fisher 精确概率检验。PathwayMiner 自动把得到的通路分成两大类:代谢通路和细胞调节通路。方便使用者根据不同的研究目的选择需要查看的结果。

在 2006年国内也开发了用于通路分析的网络平台,即KOBAS (KO-Based Annotation System ),其基于KEGG 数据库建立,由北京大学生命科学院开发和维护。其特点是可直接采用基因或蛋白质的序列录入基因,并对录入的基因列表进行 KO 注释。对于结果的可靠性检验提供了四种统计方法。使用者可以在网站进行注册,网站会为使用者保存输入的数据,方便日后直接调用。最近推出的软件 Eu.Gene 整合了来自KEGG ,Gen-MAPP 以及Reactome 的通路数据,并采用fisher 精确概率检验及基因集富集分析(Gene Set Enrichment Analysis, GSEA )来检验结果是否具有统计学意义。表2 列举了部分通路分析的网络平台及它们的网址。

表二 通路分析网络平台

三、基因调控网络分析

通路分析法是芯片功能分析的有力工具之一,其与GO 分类法的主要区别也正是它的弱点。在生物反应的过程中,发生表达变化的基因通常不只局限在一个通路中, 而是存在于由许多调控因子和通路参与的复杂调控网络中。生物调控网络十分复杂,并没有现成的文献和数据库供参考。而且,把芯片中发生表达变化的基因放在生 物调控网络的水平来看,它们通常在多个通路中都有分布,而每个通路只包含几个发生表达变化的基因。这就解释了为什么有些通路只有部分基因表达发生变化,而 且表达变化的趋势在整个通路水平上不一定是一致的。

进行生物调控网络的研究需要更多的数据库及分析工具的支持。比如需要关于基因组调控序列(启动子和增强子)的信息,现在已经有许多 关于转录因子结合位点(transcription factor binding site, TFBS)的数据库可以满足这个要求,如TRANSFAC 及JASPAR 。而且芯片检测的基因变化应该深入到转录本水平,因为不同的转录本的转录可能是由 不同的启动子启

动的。外显子连接芯片(exon junction microarray )将基因组中外显子与外显子之间的连接序列做成36nt 的探针点到芯片上,与样本mRNA 进行杂交后可检测出样本中多外显子基因pre-mRNA 的剪接状况。

转录调节控制基因表达,调控不同组织中的细胞在各种生理条件及外界刺激下的反应。不同于原核细胞,真核细胞的转录调节涉及大量转录因子的相互作用,而且基 因组调控序列不只位于启动子,还包括内含子及许多基因下游序列。所以真正了解真核细胞的基因调控网络是一项非常艰巨的工作。用基因调控网络来分析基因芯片 数据还需要更多信息及技术的支持。


相关内容

  • 2电子克隆技术及其在植物基因工程中的应用
    电子克隆技术及其在植物基因工程中的应用 王冬冬 朱延明 李勇 李杰 柏锡 ( 东北农业大学生命科学学院,黑龙江哈尔滨150030) 摘要:电子克隆是随着基因组计划和EST 计划的实施而发展起来的, 是利用生物信息学手段进行基因克隆的新方法. ...
  • 诺禾致源有参转录组分析流程
    一.建库测序流程 从RNA 样品到最终数据获得,样品检测.建库.测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果.为了从源头上 保证测序数据的准确性.可靠性,诺禾致源对样品检测.建库.测序每一个生产步骤都 ...
  • 数值温度计报告
    数 字 温 度 计 设计题目: 数字温度计 发挥内容: 小组号: G组 组成员姓名: 王杰 谭聪 袁加位 摘 要 该数值温度计系统以STC89C51单片机为控制核心,主要由单片机控制系统.温度探测及时钟模块.显示模块.声光报警模块,温度控制 ...
  • EST或转录组分析
    开放共赢 关注创新 俞鸿 副总经理 手机:[1**********] E-mail: hyu@biorefer.com 9qq 12628609@qq.com 1 ESTs(Expressed Sequence tags )是从cDNA文件 ...
  • 交流电量同步采集
    河南机电高等专科学校 毕业设计(论文) 交流电量同步采集 系 部: 自动控制系 专 业: 电气自动化 班 级: xxxxx xx 姓 名: xxxx xxx xx 学 号: xxx xxx xx x 指导老师: xxx 二零一二年五月 第一 ...
  • 程控电话交换机的控制系统设计
    程控电话交换机的控制系统设计 Stored program control telephone switching system 专业:电子信息工程 学号:09240233 姓名:张海峰 指导教师:陈智 摘要 程控电话交换机采用了数字通信. ...
  • 全基因组外显子测序及其应用
    遗姑HEREDITAS(Beijing)2011年8月,33(8):847-856 ISSN0253-9772 www.chinagene.ca 综述 DoI:10.3724/SP.J.1005.2011.00847 全基因组外显子测序及其 ...
  • 华为招基于FPGA工程师笔试简答题(本科)
    FPGA 大公司面试笔试数电部分,看看你会多少 已有 569 次阅读2011-12-22 08:13 |系统分类:EDA/PLD| FPGA , 笔试, 数电 1:什么是同步逻辑和异步逻辑?(汉王) 同步逻辑是时钟之间有固定的因果关系.异步 ...
  • 智能报警越障小车
    目 录 摘要„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„2 关键词„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„2 Abstract „„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„ ...