首页 生物信息学复习总结

生物信息学复习总结

生物信息学复习总结生物信息期末总结1.生物信息学（Bioinformatics）定义：（第一章）★生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。（或：）生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。（NSFC）2.科研机构及网络资源中心：NCBI：美国国立卫生研究院NIH下属国立生...

生物信息期末总结1.生物信息学（Bioinformatics）定义：（第一章）★生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。（或：）生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。（NSFC）2.科研机构及网络资源中心：NCBI：美国国立卫生研究院NIH下属国立生物技术信息中心；EMBnet：欧洲分子生物学网络；EMBL-EBI：欧洲分子生物学实验室下属欧洲生物信息学研究所；ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统；(ExpertProteinAnalysisSystem)BioinformaticsLinksDirectory；PDB(ProteinDataBank)；UniProt数据库3.生物信息学的主要应用:1．生物信息学数据库；2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学；7．计算进化生物学与生物多样性。4.什么是数据库：★1、定义：数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。（记录record、字段field、值value）2、生物信息数据库应满足5个方面的主要需求：（1）时间性；（2）注释；（3）支撑数据；（4）数据质量；（5）集成性。3、生物学数据库的类型：一级数据库和二级数据库。（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；蛋白质序列数据库有SWISS-PROT等；蛋白质结构库有PDB等。）4、一级数据库与二级数据库的区别：★1）一级数据库：包括：a.基因组数据库----来自基因组作图；b.核酸和蛋白质一级结构序列数据库；c.生物大分子(主要是蛋白质)的三维空间结构数据库，(来自X-衍射和核磁共振结构测定)；2）二级数据库：是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来，一次数据库的数据量大，更新速度快，用户面广，通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二次数据库的容量则小得多，更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。5、一个数据库记录(entry)一般由两部分组成：1）原始序列数据(sequencedata)；2）描述这些数据生物学信息的注释(annotation)：注释中包含的信息与相应的序列数据同样重要和有应用价值。6、数据的完整性和注释工作量：1）序列数据广，序列注释不够完整；2）库数据面窄，序列注释全面.7、数据库的动态更新：1）不断增加；2）不断修正.5、几个大型数据库简介：NCBI、EBI、SIB（共点：拥有庞大的一级数椐库、大量工具软件和广泛的外联。）1、NCBI（www.ncbi.nlm.nih.gov）:NCBI是指美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI），成立于1988年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。1）Entrez（集成化的数据库）（http://www.ncbi.nlm.nih.gov/gquery/）Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS（见下文），是一个查询、提取和显示系统。Theoriginalversion（原始版本）(1991)ofEntrezhadjust3nods。2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。2、EMBL-EBI（www.ebi.ac.uk）EMBLNucleotideSequenceDataLibrary(nowknownasEMBL-Bank)为世界上第一个核酸序列数据库（1980）。欧洲分子生物学实验室下属欧洲生物信息学研究所（EuropeanBioinformaticsInstitute,EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法（如用关键字）搜索我们想要的序列。EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。欧洲分子生物学实验室EMBL（TheEuropeanMolecularBiologyLaboratory）。Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。3、SIB（us.expasy.org）瑞士生物信息研究所(SwissInstitueofBioinformatics,SIB,30March1998 )。用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：SWISS-PROT，ExPASy（ExpertProteinAnalysisSystem瑞士日内瓦大学专家蛋白质分析系统（http://www.expasy.ch/））。6、核酸序列数据库：1、国际上权威的核酸序列数据库：（1）欧洲分子生物学实验室的EMBL；（2）美国生物技术信息中心的GenBank；（3）日本遗传研究所的DDBJ，（http://www.ddbj.nig.ac.jp/）；这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。2、INSDC国际核酸序列数据库协会：1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（InternationalNucleotideSequenceDatabaseCollaboration,INSDC），三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步，每两个月更新一次版本。（http://www.insdc.org/）7、蛋白质序列数据库：1）PIR（ProteinInformationResource）；（http://pir.georgetown.edu/）2）SWISS-PROT；(http://www.expasy.ch/sprot/sprot-top.html)3）TrEMBL；(http://www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS) 翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中；4）NCBI美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI）；5）UniProt；通用蛋白质数据库（http://www.uniprot.org/）包括：（Swiss-Prot、TrEMBL、PIR）用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。8、生物大分子结构数据库：1）PDB（ProteinDataBank）；（http://www.rcsb.org/）2）MMDB(MolecularModelingDatabase)；（www.ncbi.nlm.nih.gov/Structure/）9、其它生物分子数据库：1）单碱基多态性数据库dbSNP；2）基因组数据库（GDB）；3）人类基因组数据库Ensembl；4）表达序列标记数据库dbEST；5）序列标记位点数据库dbSTS；6）面向基因聚类数据库UniGene；7）蛋白质结构分类数据库SCOP；8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP；10）OMIM(OnlineMendelianInheritanceinMan)，是关于人类基因和遗传疾病的分类数据库。。。》》》NucleicAcidResearch《《《附：1、NCBI和EBI使用的搜索引擎分别是什么？答：NCBI使用的是Entrez，EBI使用的是SRS。2、FASTA格式有哪些部分组成，以什么字符开始？答：包含ginumber，Databaseidentifiers，Accessionnumber，Locusname等部分，以>字符开始。3、NCBI的WEB和离线序列提交软件是什么？答：WEB提交工具：Bankit；离线提交：Sequin4、系统生物学：答：确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。10、序列数据的文件格式：(第二章)格式主要有三种：DNA/RNA/氨基酸代码的标识（B、Z）；GenBank数据格式；FASTA数据格式。一、GBFF（GenBankflatfile）—GenBank平面文件格式：GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢？这里引入GBFF（GenBankflatfile即GenBank平面文件）格式。GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。GBFF文件分为三部分：a.头部包含整个记录的信息（描述符）；b.第二部分包含了注释这一记录的特性；c.第三部分是核苷酸序列本身。（注：所有序列数据库记录都在最后一行以“//”结尾。）1）GBFF：LOCUS行（LOCUS，SCU49845，5028bp，DNAlinear，PLN，21-JUN-1999）所有GBFF都起始于LOCUS行：第一项：是LOCUS名称（SCU49845）：现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义。大多数情况下，它仅使用检索号码（accesessionnumber）以满足对LOCUS名称的要求；第二项是序列长度（5028bp）：规定单条数据库记录的长度不能超过350kb。除历史原因外，GenBank已经很少接受长度低于50bp的序列了；第三项表明分子类型（DNA）：其序列必须是一种单一的分子类型；第四项是GenBank分类码（PLN）：由3个字母组成。现在其作用仅限于在下载数据库时对数据库作简单的分类。最后一项是其最后修订日期（21-JUN-1999）：有时也仅表示数据首次公开日期。2）GBFF：DEFINITION行(definition)(DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecds.)LOCUS行的下一行为DEFINITION行：主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是非编码区，则包含对序列功能的简单描述；若是一段编码区，则标明该序列是部分序列（partialcds）还是全序列（completecds）。3）GBFF：ACCESSION行（accession）检索号行（ACCESSIONU49845）检索号（accession）是序列记录的惟一指针。通常由1个字母加5个数字（U12345）或由2个字母加6个数字（AF123456）组成。它在数据库中是惟一而且不变的。有时ACCESSION行中可能会出现多个检索号，可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。我们称第一个检索号为主检索号，其余的统称为二级检索号。4）GBFF：VERSION行（version）版本号行（VERSIONU49845.1GI:1293613）VERSION行是版本号，格式为：检索号.版本号。版本号用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如某条序列数据发生了变化，即使是单碱基的改变它的版本号也将增加，而其检索号保持不变。版本号系统与其后的GI（geninfoidentifier）号系统是平行运行的。即当一条序列改变后，它将被赋予一个新的GI号，其版本号也将增加。蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。5）GBFF：KEYWORDS行（keywords）关键词行（KEYWORDS.）关键词行是用来描述序列的。如果该行没有任何内容，那么就只包含一个“.由于没有对照词汇表，故NCBI/GenBank拒绝接受关键词，它只存在于旧的记录中。6）GBFF：OURCE行（source）来源行（SOURCESaccharomycescerevisiae(baker'syeast)ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.）对来源行(SOURCE)没做特殊的规定，它通常包含序列来源生物的简称，有时也包含分子类型。在下面以NCBI的分类数据库为依据，指明物种的正式科学名称。7）GBFF：REFERENCE行reference参考文献行（REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)PUBMED7871890）参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于第一位。如果序列数据没有被相关文献报道，该行将出现“unpublished”或“inpress”。最后将有一个可能的PUBMED指针。8）GBFF：FEATURES行（features）特性表行（FEATURESLocation/QualifiersCDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"......）特性表(features)描述基因和基因的产物以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释。这些特性包括：1、该序列是否执行一个生物学功能；2、它是否与一个生物学功能的表达相关；3、它是否与其它分子相互作用；4、它是否影响一条序列的复制；5、它是否与其他序列的重组相关；6、它是否是一条已识别的重复序列；7、它是否有二级或三级结构；8、它是否存在变异或者它是否被修订过。特性表格式是按表单的方式设计的，分三个主要部分：1）特性表关键词（feature），简要说明功能组；2）特性位置（location），指明在特性表中的什么地方可以找到相关特性，在此可以包含操作符（operator）和功能性描述符（descriptor）以指明序列需经过怎样的处理才能得到相应的特性；3）限定词（qualifier），相关特性的辅助信息，限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息。（这段序列可以解读为：该编码序列（CDS）起始于第1碱基，终止于第206碱基，它的产物是TCP1-beta，基因名为“AXL2”。）9）GBFF：ORIGIN（origin）（ORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct......4981tgccatgactcagattctaattttaagctattcaatttctctttgatc）在GBFF文件的最后，以类似于FASTA格式的方式给出了所记录的序列。二、FASTA数据格式（FASTAformat）：Accessionnumbersarelabelsforsequences（检索号）11、RefSeq资料库：（NCBIReferenceSequenceDatabase参考序列数据库）RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库，为与GenBank区别，RefSeq的AccessionNumber（检索号）格式和GenBank的不同。该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBIRefSeq仍是目前最可信赖的序列数据库。GenBank中一个基因的索引号可能有上百个，但对应一个基因的RefSeq只有一个。（http://www.ncbi.nlm.nih.gov/RefSeq/）NCBI参考序列数据库(RefSeq)旨在提供一个全面的、集成的、冗余，好的注释组序列，包括基因组DNA、转录和蛋白质。RefSeq是医学、功能和多样性研究的基础；它们提供一个稳定的参考基因组注释、基因识别和表征，突变和多态性分析(特别是RefSeqGene记录)，表达研究和比较分析。e.g.>数据库检索实例<:搜索Genbankno.FJ798090，获得序列相关信息1.进入NCBI网站，选择nucleotide：FJ798090搜索，得到相关信息；2.从CDS行可看到有关Aa的信息，从ORIDIN行可看到DNA相关信息；3.在原网页上选择右边相关信息选择框的PubMed，查看关联文章；4.主页进入DNA&RNA，选择tools，点第二个BatchEntrez，批量下载序列；5.提交结果，显示参数与序列下载(Send选项、选File、然后选FASTA格式)，下载序列，提交序列。12、提交序列：1、提交方式主要有三种：1）、Bankit逐条提交、需要注册；2）、Sequin10000条以下；3）、Tbl2asn超过1万条、命令行。2、Bankit提交：先注册，后点NewSubmission（创建一个新提交），SequencingTechnology（测序技术），nucleotide（核酸），Organism（生物体），SubmissionCategory（提交类别），SourceModifiers（源寄存器修改），Primers（引物），Features（特性），ReviewandCorrect（检查和纠正，3处）。3、SequinDNA分析软件：（ADNASequenceSubmissionandUpdateTool）序列提交：研究产生的新序列，需要递交到公共数据库保存；需要撰写论文发表新序列时，需要数据库接受号。4、WEB在线提交工具：1、NCBI的Bankit；2、EBI的WEBIN；3、DDBJ的SAKURA；5、离线提交：NCBI的Sequin。6、提交比较：Bankit提交：使用简单，每个步骤有详细说明。但一次只能提交一个序列，长度不能太长；Sequin：安装在用户自己的计算机上，可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。13、引物设计及测序结果分析：（第三章）1、引物设计流程：1）序列查找与下载（GenBank）；2）序列同源性比较(Blast/alignment)；3）引物设计与筛选(primer3/其他)；4）引物加工与修饰(酶切、保护、标签、启动子等)；5）引物评价分析(Oligo6)；6）引物二次筛选(blast)；7）引物最终评估(band)；2、引物设计原则：基本原则：1）引物与模板的序列要紧密互补；2）引物与引物之间避免形成稳定的二聚体或发夹结构；3）引物不能在非靶点引发DNA聚合反应。注意点：1、引物长度在15-30bp之间；2、GC含量为40-60%之间；3、引物的特异性（3’端不能有连续的GGG或CCC）；4、3’△G的绝对值不超过9，双链形成所需自由能；5、密码子的兼并：3’不要位于密码子的第3位。3、引物设计软件：1）在线工具Primer3、Primer-Blast；2）本地软件PrimerPremier5；3）引物评估软件Oligo6。e.g．在线设计引物：在Primer3界面上将需要设计的序列粘贴复制进入大方框，确定基本参数和结果参数后，点击pick键后出现output页面，将所需的序列即一定要PCR出的序列用中括号括上，再复制进大方框。这两者的差别是第一个是随机的引物，而第二个选出的引物必然包含你所需的那一段。KEYS(inorderofprecedence)优选引物:（******target，>>>>>>leftprimer，<<<<<T。主要分三步进行：（第一步：由查询序列生成的长度固定（W=3）的字段编译列表(Score>T)；第二步：在数据库中扫描获得与编译列表中的字段匹配的序列记录，作为后续延伸的种子seed；第三步：对于每一对选择出来的种子，将其向两边延伸，使其在尽可能长的距离得到尽可能多的分数。）比对结果的判读：比对结果的显著性以E值(Expectvalue)来衡量，E值趋向于0时，说明比对结果越显著。E值的意义就是概率；比对得分(bitscore)：表明序列比对的得分，数值越高，两序列越相似。【作业：以纤维素酶基因序列为靶标，进行核酸组分分析，NCBI中比对你的序列，至少使用blastn，blastx并下载不少于十个比对出来的序列。】回头来看NCBI参数选择：（blastp、blastn）①LimitbyEntrezQuery：任何NCBIBLAST搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定；②Maxtargetsequences：比对之后显示的最大的比对序列的数目；③期望expect：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时，返回的数据库搜索结果将变少，匹配被搜索到的概率也会变小。增大E值将返回更多的结果；④字段长度wordsize：对于蛋白质搜索，窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行数据库搜索时，BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。实际应用中对于蛋白质搜索很少需要改变字段的长度；对于核酸序列，默认的字段长度是28，BLAST的字长缺省值为28，即BLASTN将扫描数据库，直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止。然后这些片段(即字)被扩展。降低字段长度将会使搜索变得更准确同时也会变得更慢；⑤矩阵matrix：对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵：PAM30、PAM70、BLOSUM45、BLOSUM62(默认值)以及BLOSUM80。一些其他的BLAST服务器还提供了很多其他的替代矩阵，如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵；⑥Compositionaladjustments：这个选项是默认选择的，一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)；2）blast2双序列比对：Blast比对后，当数据库中搜索到多个显著相似的序列时，检测目的序列是否与之有真正关联，可进行双序列比对PairwiseAligment。Ncleotide：Hsp40ORFVSbm40（改变参数）点阵图Dotmatrixview：连续线表示序列匹配指出，缺口表明量序列不匹配之处。比对结果：3、基因结构识别：包括：（ORF识别；启动子与转录因子结合位点分析；重复序列分析；CpGisland）1)ORF识别：Kozak原则：1、第四位的偏好碱基为G；2、ATG的5‘端约15bp范围内的侧翼序列内不含碱基T；3、在第3、6、9位，G为偏好碱基；4、除第3、6、9位，在整个侧翼序列中，c为偏好碱基。常见ORF在线预测工具：（ORFFinder；GeneMark,hmm；Glimmer原核生物；GlimmerHMM真核生物）（ORF的验证：Blast）。2）启动子及转录因子结合分析：PromoterScan；3）重复序列分析：repeatmasker；4）CpGisland：CpGPlot；（CpGisland通常位于启动子附近）CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率，这些区段被称作CpG岛。在哺乳动物基因组中的1~2kb的DNA片段，它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子（promotor）和第一外显子区域，约有60%以上基因的启动子含有CpG岛。GC含量大于50%，长度超过200bp。15、DNA双序列比对PairwiseSequenceAlignment原理：（第五章）1、比什么？给定两条序列(DNAorprotein)Seq1：CATATTGCAGTGGTCCCGCGTCAGGCTSeq2：TAAATTGCGTGGTCGCACTGCACGCT它们存在多大程度的相似?CATATTGCAGTGGTCCCGCGTCAGGCTTAAATTGCGT-GGTCGCACTGCACGCT2、为什么比?（发现功能、研究进化、某条序列的关键特征、疾病的鉴定）3、序列变化：三种类型的变化包括：Substitution(点突变)、Insertion（插入）、Deletion（删除），后两个统称为Indel（插入缺失）。4、为达到比对两序列的目的，我们需要一个定量模型来评估两序列，如何定量两序列间的相似性?1、全局比对（Globalalignment）：是对给定序列全长进行比较的方式。在待比较的两个序列中引入空位（gap），使得对序列的全长都得到比较，Needleman-Wunsch算法。全局序列比对，比对的是全部序列。建立一个得分矩阵，A序列在上方，B序列在左侧，方格(i,j)的数值是A(0-i)到B(0-j)的最佳比对。全部比对的得分在最下角。2、局部比对：获得两序列最佳匹配的区域，有时与全局匹配一致。16、蛋白序列比对：（第六章）一般规则：蛋白质序列25%的同一性（长度>100），即为同源基因homologousgene，DNA序列同一性大于70%为同源序列。基于氨基酸相似性的序列比对：打分矩阵，基于同一性的打分矩阵：对相似性序列比对不错；但对于相似性程度低的序列效果很差；替换矩阵，对高度相似的序列，我们可以对氨基酸替换频率进行评估打分；BLOSUM矩阵基于高度保守区的置换模式；PAM矩阵基于通过全局比对的突变，包括高度保守区与高度可变区；BLAST默认使用BLOSUM62，可以更改。19、分子进化与系统发育分析（第九章）1、达尔文进化论：进化：变异的遗传；自然选择：解释为何演变发生的机制；2、中性进化论：并非所有种群中保留下来的突变都由自然选择所形成；大多数突变是中性或接近中性，不妨碍种群的生存与繁衍。3、分子进化的模式：DNA突变的模式：替代，插入，缺失，倒位；核苷酸替代：转换(Transition)&颠换(Transversion)；（转换：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代；颠换：嘌呤被嘧啶替代，或者嘧啶被嘌呤替代）基因复制：多基因家族的产生以及假基因的产生：A.单个基因复制、重组或逆转录；B.染色体片断复制；C.基因组复制4、同源物的定义：5、同源性与相似性：相似性(Similarity)：序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例（为定量描述）；同源性(Homology)：两个基因或蛋白质序列具有共同祖先的结论（定性判断）；相似不一定同源；同源不一定相似。氨基酸序列相似性超过30%，很可能同源。6、Ka/Ks：计算及含义1）Ka：每个非同义位点的非同义替代数目；2）Ks：每个同义位点的同义替代数目；Ka/Ks~1:中性进化；；ka/Ks<<1:阴性选择，净化选择；；ka/Ks>>1:阳性选择，适应性进化。（多数基因为中性进化，约1%的基因受到阳性选择->决定物种形成、新功能的产生；PAML,MEGA等工具：计算Ka/Ks及统计显著性）7、相对同义密码子使用度(relativesynonymouscodonusage，RSCU)：定义：观测到的某一同一密码子的使用次数，除以“期望”的该密码子出现次数。8、密码子相对适应度（Therelativeadaptivenessofacodon）：编码第i个氨基酸的第j个同义密码子的“相对适应性”，即该同义密码子的观察值，除以编码该氨基酸的同义密码子的最大值。9、CAI：密码子适应指数（CodonAdaptationIndex），是分析密码子偏爱性最常用的方法。（CAI值介于0~1之间,该值越大表示偏性越强；CAI值一般用来预测种内基因的表达水平，以及预测外源基因的表达水平；不同物种CAI的计算依赖于各自的参考数据集。）10、构建系统发育树（进化树）的方法：A.最大简约法(maximumparsimony,MP)，适用序列有很高相似性时；B.距离法(distance-basedmethods)，适用序列有较高相似性时；C.最大似然性法(MaximumLikelihood，ML)可用于任何相关序列集合；D.贝叶斯（Bayesian）推断；计算速度：距离法>最大简约法>最大似然法11、信息位点(Sitesareinformative)：能将所有可能的树区别出来的位点。信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。12、通过进化距离构建进化树的方法有很多，常见有：(1)Fitch-MargoliashMethod(FM法)：对短支长非常有效；(2)Neighbor-JoiningMethod(NJ法/邻接法)：求最短支长，最通用的距离方法；(3)NeighborsRelatonMethod(邻居关系法)；(4)UnweightedPairGroupMethodwithArithmeticMean（UPGMA，非加权组平均法)

                    本文档为【生物信息学复习总结】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

生物信息学复习总结

你可能还喜欢