首页 GEO数据库简介完整版本

GEO数据库简介完整版本

举报
开通vip

GEO数据库简介完整版本GEO(GeneExpressionOmnibus)数据库简介报告人:沈健2014.3.8近几年来,随着分子生物学技术的发展,微阵列芯片技术已成为生物学研究最重要的实验之一,尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供大量高通量数据资料。基因芯片发展历程(DNA&RNA印记杂交)(斑点印迹法)基因芯片概述基因芯片(DNA芯片)是通过微阵列技术,根据核酸杂交的原理,将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。基因芯片技术流程基因芯片技术流程基因芯片检测...

GEO数据库简介完整版本
GEO(GeneExpressionOmnibus)数据库简介报告人:沈健2014.3.8近几年来,随着分子生物学技术的发展,微阵列芯片技术已成为生物学研究最重要的实验之一,尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供大量高通量数据资料。基因芯片发展历程(DNA&RNA印记杂交)(斑点印迹法)基因芯片概述基因芯片(DNA芯片)是通过微阵列技术,根据核酸杂交的原理,将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。基因芯片技术 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 基因芯片技术流程基因芯片检测结果什么是GEO数据库随着微阵列芯片技术尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供大量高通量数据资料。迫切需要一个统一管理的公共数据库。基因表达数据库(GeneExpressionOmnibus,GEO)隶属于美国国立卫生研究院的NCBI。GEO是当今最大、最全面的公共基因表达数据资源。网址:/geo/GEO数据库的构成1.用户提交的原始数据2.GEO数据库整理后的数据平台(Platform)平台是描述一联串在特定实验中被检测或被定量分析的因素,同一个提交者、许多样本有关,是关于用于以高通量方式检查样本的物理试剂的信息。比如寡核苷酸探针组,cDNA,SAGE标签,抗体等。平台(Platform)平台数据包含阵列或序列以及阵列平台的简要描述,每一个平台都分配了一个特有的检索号GPL***。例如平台GPL341:http://=GPL341样本(Sample)样本是指以一个平台为基础、描述某个杂交实验或者实验条件的所有特征因素的大量测量信息,即关于被检查的mRNA样本,实验条件,和实验产生的基因表达测量数据信息。每个样品有一个而且只有一个必须先前被确定的亲代平台,同一个提交者,一个平台和许多系列有关。样本(Sample)样本数据描述了每个样本的操作环境、处理方法和分离出的各个成分的丰度测量。每个样本均分配了一个特有的检索号GSM***。例如样本GSM81022http://=GSM81022系列(Series)系列是把构成某个实验的相关样本集中到一个有生物意义的数据集,同时可能还收集一些已被递呈者注明的重要基因或者分析结果纲要,即样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。一个系列中的样品是通过某一共同的属性联结在一起的,同一个提交者,许多样本有关。系列(Series)系列数据将一系列相关的样本联系起来,提供了整个研究的关注点和描述,也包含了描述提取数据、简要结论和分析的 表格 关于规范使用各类表格的通知入职表格免费下载关于主播时间做一个表格详细英语字母大小写表格下载简历表格模板下载 。每个系列均分配了一个特有的检索号GSE***。例如系列GSE3541http://=GSE3541数据集组(DataSets)GEO存储的是一个分类广泛的、经过多种手段处理和不同方法分析的高通量实验数据。为了说明这些 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 ,GEO还增添了一个辅助分析工具,该工具可以把被提交的样本归纳集中到有生物学意义和在统计学上可比较的GEO数据集组(GEODataSets),能提供关于一个实验的相关梗概,以此作为下游数据挖掘和数据显示工具的基础。GEO数据集组(Datasets)储存了所有的元数据,提供了GEO数据以“实验为中心”的主要观点。数据集组的检索为GDS***。例如:GDS2225.表达谱(Profiles)表达谱数据储存了来自于DataSets基因表达谱信息。每一个表达谱都表现为一个能反映一个数据集组中所有样本的基因表达量的统计图。GEO表达谱(Profiles)储存了单个基因表达的数据资料,提供了GEO数据以“基因为中心”的主要看法。数据集组和表达谱的关系在GEODataSets中每个数据集组个体都各自确定一个实验,而在GEOProfiles中每个数据集组都对应多个表达谱个体。对平台上的每个基因(比如基因A),有多个样本)测量值。多个相关样本构成一个数据集,从中可以产生单个或多个基因的表达谱比较图。GEO数据的数据检索——方法从GEO数据库主页面右侧找到搜索栏,直接输入要查找信息的关键词或者检索词,如“mir29a”或者“GDS2225ANDfto”,就会搜索到相应的DataSets和Profiles。从主页面右侧直接打开库浏览器,从中按照不同的“系列”、“平台”、“样本”、“物种”、“历史”来进行选择需要的数据类型。直接从GEO数据库的ftp服务器下载。/geo/GEO数据的数据检索——方法直接从NCBI主页用Entrez进行检索。GEO数据主要存放在GEODataSets和GEOProfiles两个数据库内。Entrez是NCBI建立的生物医学数据库集成检索系统。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。GEO数据的数据检索——关键词GEO可和其他NCBI数据库一样用 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 关键词的方法和基于文本布尔检索、基于序列检索、基于特有表达行为挖掘检索或结合这些参数来进行检索查询例如:在GEODataSets中可以用检索词“prostatecancerANDhuman[Organism]”寻找有关人类前列腺癌微阵列实验数据集。GEO数据的数据检索——关键词例如:在GEOProfiles数据库中可以用检索词fto[GeneSymbol]AND(Smok*)搜索所有与吸烟相关并包含肥胖基因的相关实验的基因表达谱。GEO数据的处理以数据集组GDS402为例来介绍一下GEO数据库提供的一些数据挖掘分析工具。Findgenes:Findgenenameorsymbol:直接查找数据集组中该基因的基因表达谱。Findgenesthatareup/downforthiscondition(s):可以根据选择的实验筛选条件,来找到一系列随该筛选条件有较明显表达差异的基因表达谱。数据分析工具1基因表达谱图以Fto(肥胖基因)在二型糖尿病与肾脏功能试验中的表达谱为例:从原始样本记录中提取的基因表达值以红色的条形柱表示。蓝色条形柱代表内部样本的百分等级信息,以提供该基因与阵列上所有其它基因相互比较的相对表达水平值。数据分析工具22.Compare2setsofsamples:选择比较方式和显著性水平选择A和B两组样本组进行A、B样本组的比较查看两组基因可供比较的表达谱。数据分析工具33.Clusterheatmaps聚类分析图(Clusteranalysesareoneofthemostpowerfulmethodstomineandvisualizehigh-dimensionaldata.)包含三种聚类算法:层级聚类方法:(Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离)分散性聚类方法:K-Medioids算法(特点:用类中的某个点来代表该聚类;优点:能处理任意类型的属性;对异常数据不敏感)K-Means算法(特点:聚类中心用各类别中所有数据的平均值表示;优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集;缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大)按基因处于染色体上位置来聚类数据分析工具3数据分析工具44.Experimentdesignandvaluedistribution(箱线图)aboxplotdisplayingthedistributionofexpressionvaluesofeachSamplewithinaDataSet.TheplotisusefulfordeterminingwhethertheDataSetisnormalized,i.e.,thevaluedistributionsaremedian-centeredacrossSamples. GEOBLAST可以在GEO核酸数据库中进行序列比对。GEO2R工具GEO2R isaninteractivewebtoolthatallowsuserstocomparetwoormoregroupsofSamplesinaGEOSeriesinordertoidentifygenesthataredifferentiallyexpressedacrossexperimentalconditions.Resultsarepresentedasatableofgenesorderedbysignificance.UnlikeGEO'sother DataSetanalysistools,GEO2RdoesnotrelyoncuratedDataSetsandinterrogatestheoriginalSeriesMatrixdata.ThisallowsagreaterproportionofGEOdatatobeanalyzedinatimelymanner.GEO2R能利用开源软件R平台和bioconductor进行数据处理。基因芯片数据分析软件bioconductor和R平台MATLABBioinformatics Toolbox利用GEO2R比较同一系列中不同样本中的基因表达量差异利用GEO2R求对比组的各样本中基因表达值在样本中的分布状况。(包括箱线图和可供导出的数值)通过输入实验平台的某个指针项目ID,可以直接检索到该指针对应的基因在不同样本中的表达谱图。GEO2R程序在R平台上运行此 课件 超市陈列培训课件免费下载搭石ppt课件免费下载公安保密教育课件下载病媒生物防治课件 可下载高中数学必修四课件打包下载 下载可自行编辑修改,供参考!部分内容来源于网络,如有侵权请与我联系删除!
本文档为【GEO数据库简介完整版本】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
爱赢
公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)
格式:ppt
大小:4MB
软件:PowerPoint
页数:0
分类:教育学
上传时间:2021-02-24
浏览量:30