首页 DNA序列的分类

DNA序列的分类

DNA序列的分类 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 31 卷第 1 期 2001 年 1 月数学的实践与认识 M A TH EM A T ICS IN PRA CT ICE AND TH EO R Y V o l131　N o11　 Jan. 2001　任意选出比较多的 (为了保证较高的准确性) , 利用 keyw o rd 作为分类标...

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 31 卷第 1 期 2001 年 1 月数学的实践与认识 M A TH EM A T ICS IN PRA CT ICE AND TH EO R Y V o l131　N o11　 Jan. 2001　任意选出比较多的 (为了保证较高的准确性) , 利用 keyw o rd 作为分类标准 , 然后利用本文提供的加权系数的确定方法就可以定出一个具体的定量标准. 具有一定实用价值. 参考文献: [ 1 ]　李　涛, 贺勇军等. M A TLAB 工具箱应用指南——应用数学篇. 电子工业出版社 1 [ 2 ]　袁亚湘. 最优化方法. 科学出版社 1 [ 3 ]　张乃孝, 裘宗燕. 数据结构——c+ + 与面向对象的途径. 高教出版社 1 [ 4 ]　汪仁官. 概率论引论. 北京大学出版社 1 [ 5 ]　陈家鼎, 孙山泽等. 数理统计学讲义. 高教出版社 1 The Group ing of D NA SequencesM odel YAN G J ian, 　W AN G Ch i, 　 YAN G Yong (Pek ing U niversity, Beijing　100871) Abstract: 　 In th is paper, a m ethod to classify the DNA sequences is p ropo sed. M athem atical m ethods such as sta t ist ics and op tim ization are used to bu ild the model. T he data is analysed sufficien tly and the“crit ical w o rds”is go t, w h ich can rep resen t the characterist ics of each group. A cco rding to th is, a quan tita t ive standard fo r group ing is b rough t fo rw ard. T h is model can p roperly classify the given data th rough test ing. F irst, the strings w h ich appear repeatedly (called w o rds) in the given data are scanned ou t. T he standard frequency and dispersion fo r each w o rd are calcu la ted. Second, using the L east Squares m ethod, the p rio rity function is fixed. T h rough stepw ise op tim ization, the coefficien ts are m ade stab le. T h ird, the key w o rds are selected ou t and calcu la te the w eigh t acco rding to the p rio rity function. A t last, using the “analyse h ierarchy p rocess”, the undeterm ined data is classified. T h is m ethod can classify the undeterm ined data (N o. 21—N o. 40) fairly w ell, it can also give good resu lt fo r the last 182 sequences. D NA 序列的分类韩轶平, 　余　杭, 　刘　威指导老师: 　杨启帆 (浙江大学, 杭州　310027) 编者按: 　本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征, 从而进行了利用数理统计方法的分类研究. 而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置, 在既定方向上颇具新意地把工作推向深入. 不足之处在于, 未能使用相关度工具对各类样本分别进行分析; 此外,“纯数学”必须与其他学科紧密结合才会有优秀的建模工作, 本文虽然对编码氨基酸的三联体进行初步探讨, 着墨处自是轻淡许多. © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 摘要: 　本文对A 题中给出的DNA 序列分类问题进行了讨论. 从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型, 马氏距离判别模型以及F isher 准则判定模型; 又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法, 并进一步研究了带反馈的相关度分类判别算法. 对于题中所给的待分类的人工序列和自然序列, 本文都一一作了分类. 接着, 本文又对其它各种常见的分类算法进行了讨论, 并着重从分类算法的稳定性上对几种方法作了比较. 1　问题的重述 (略) 2　模型的条件和假设 (略) 3　符号约定 na: 任一给定序列中碱基A 的百分含量; ng: 任一给定序列中碱基 G 的百分含量; n t: 任一给定序列中碱基 T 的百分含量; nc: 任一给定序列中碱基C 的百分含量. Gi: 由某些具有相同属性的个体组成的类 4　问题的分析和解答 411　概述根据题意, 我们首先要提取出一个序列的特征, 然后给出它的数学表示, 最后选择并构造基于这种数学表示的分类方法. 对于一个任意一个DNA 序列, 我们认为, 反映该序列特征的方面有两个: 11 碱基的含量, 反映了该序列的内容; 21 碱基的排列情况, 反映了该序列的形式. 412　基于碱基含量特征分类的模型首先, 我们考虑采用序列中的A , G , T , C 的含量百分比作为该序列的特征. 这样的抽取特征的方法具有其生物学的意义. 前面提到过, 在不用于编码蛋白质的序列片断中,A 和 T 的含量特别多些, 因此以某些碱基特别丰富作为特征去研究DN A 序列的结构是具有可行性的. 将序列中的A , G , T , C 的含量百分比分别记为 na , ng , n t, nc, 则得到一组表征该序列特征的四维向量 (na , ng , n t, nc). 考虑到 na , n t, ng , nc 线性相关 (na+ ng + n t+ nc= 1) , 所以我们采用简化的三维向量 (na , n t, ng )来进行计算. 对于标号为 i 的序列, 记它的特征向量为X i . 显然, 任意序列的特征向量与一个 3 维空间的点对映. 一般的判别问题为: 设有 k 个类别 G 1, G 2, ⋯, G k , 对任意一个属于G i 类样品 x , 其特征向量 X 的值都可以获得. 现给定一个由已知类别的一些样品 x 1, x 2, ⋯, x n 组成的学习样本, 要求对一个来自这 k 个类别的某样品 x , 根据其特征向量 X 的值作出其所属类别的判断. 在本题DNA 序列分类中, k = 2, G 1= A , G 2= B , 特征向量 X 是三维的. 学习样本共包含 n= 20 个样本, 其中 10 个属于A , 10 个属于B . 我们分别采用了欧氏距离 (Euclid)分类模型, 马氏距离 (M ahalanob is)分类模型和 F isher 判别模型来对序列样本分类. 931 期韩轶平等: DNA 序列的分类 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 41211　欧氏距离 (Eucl id)分类模型在欧氏距离 (Euclid) 分类模型中, 把每个样本视为三维空间的一个点, 以其到不同集合几何中心的欧氏距离作为判据. 具体的算法如下: 11 计算属于A 类与属于B 类的 10 个样本点的集合各自的几何中心: CA = 110∑ 10 i= 1 X i　　CB = 110∑ 20 i= 11 X i 　　21 对于给定的样本点X i, 分别计算该点到CA 的欧氏距离D A = ûX i- CA û , 以及该点到 CB 的欧氏距离D B = ûX i- CB û; 31 判别准则如下: (1) 若D A < D B , 则将X i 点判为A 类; (2) 若D A > D B , 则将X i 点判为B 类; (3) 若D A = D B , 则将X i 点判为不可判类; 用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B 类外, 其余的 19 个样本全部正确, 分类准确率达到 95%. 用上述算法对未知的人工序列A 21—A 40 进行分类, 得到的结果是: A 类: 22, 23, 25, 27, 29, 30, 32, 34, 35, 36, 37, 39; B 类: 21, 24, 26, 28, 31, 33, 38, 40 用上述算法对未知的自然序列N 1—N 182 进行分类, 得到的结果见附录. (略) 用欧氏距离作为判据虽然简便直观, 但存在着明显的缺陷: 从概率统计的角度来看, 用欧氏距离描述随机点之间的距离并不好. 因此当待分类样本是随机样本, 具有一定的统计性质时, 这个模型并不能很好的描述两个随机点之间的接近程度. 41212　马氏距离 (M aha lanob is)分类模型为了克服采用欧氏距离时的缺陷, 我们采用马氏距离来代替欧氏距离. 改进后的算法如下: 设: 三维总体G 的均值为 Λ= (Λ1, Λ2, Λ3) T , 协方差矩阵为非奇异阵V 3x 3, 则三维样本 X 到总体G 的马氏距离为: dm (X , G ) = (X - Λ) TV - 1 (X - Λ) 其中未知的 Λ可用学习样本的均值来代替, 协方差矩阵V 可用学习样本的样本协方差矩阵来代替. 将马氏距离用于判别模型, 遵循判据如下: 11 若 dm (X ,A ) < dm (X ,B ) , 则判定 x 为A 类; 21 若 dm (X ,A ) > dm (X ,B ) , 则判定 x 为B 类; 31 若 dm (X ,A ) = dm (X ,B ) , 则判定 x 为不可判类; 用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是除了A 4 被错误的分到了B 类外, 其余的 19 个样本全部正确, 分类准确率达到 95%. 用上述算法对未知序列A 21—A 40 进行分类, 得到的结果是: A 类: 22, 23, 25, 27, 29, 30, 32, 33, 34, 35, 36, 37 B 类: 21, 24, 26, 28, 31, 38, 39, 40 用上述算法对未知的自然序列N 1—N 182 进行分类, 得到的结果见附录 1 (略) 04 数　学　的　实　践　与　认　识 31 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 41213　F isher 准则分类模型在多维空间里分类的方法不仅仅是距离分类法一种, 常用的 F isher 分类法就是另一种基于几何特性的分类法. 在距离判别模型中, 三维空间的样品X 被映射为一维的距离 d 来作判断. F isher 分类法的思想也是把三维空间的样本映射为一维的特征值 y , 并依据 y 来进行判别. 具体的作法是先引入一个与样本同维的待定向量 u , 再将 y 取为 X 坐标的线性组合 y = uT x. 而 u 的选取. 要使同一类别产生的 y 尽量聚拢, 不同类别产生的 y 尽量拉开. 这样, 我们便可将样品X 到某一类G 的距离定义为 y = uT x 与 y c= uT c 之间的欧氏距离: L (X , G ) = ûy - y cû= ûuT (x - c) û 其中 c 为G 的几何中心. F isher 分类的判据为: 1 若L (X ,A ) < L (X ,B ) , 则判定 x 为A 类; 2 若L (X ,A ) > L (X ,B ) , 则判定 x 为B 类; 3 若L (X ,A ) = L (X ,B ) , 则判定 x 为不可判类. 根据对 u 的要求, F isher 提出了比较有效的选择算法, 利用该算法, 从学习样本中获得: u = (0. 3365, - 0. 087, 0. 9377) T L (X ,A ) = û0133653 (na - 0. 2860) - 0. 0873 (n t - 0. 1550) + 0. 93773 (ng - 0. 3830) û L (X ,B ) = û0133653 (na - 0. 2940) - 0. 0873 (n t - 0. 5010) + 0. 93773 (ng - 0. 1010) û 　　用上述算法对已知样学习样本A 1—A 20 进行分类, 结果仍然是除了A 4 被错误的分到了B 类外, 其余的 19 个样本全部正确, 分类准确率达到 95%. 对于未知序列A 21—A 40 进行分类, 得到的结果是: A 类: 22, 23, 25, 27, 29, 34, 35, 36, 37; B 类: 21, 24, 26, 28, 30, 31, 32, 33, 38, 39, 40 用上述算法对未知的自然序列N 1- N 182 进行分类, 得到的结果见附录 1 (略) 41214　三种距离分类模型的比较表 1 欧氏距离法马氏距离法 F isher 准则法 30 A A B 32 A A B 33 B A B 39 A B B 这三种模型在分类结果上有一定的区别, 对于序列A 30, A 32, A 33 及A 39, 三种方法给出了不同结果, 见表 1. 对于这种情况, 我们提出一个联合判定准则: 对于任一个序列, 当三种分类法结果完全一致时, 认为它判别有效; 若不然, 当三种分类法结果不一致时, 认为该序列为不可判类. 对于三种方法都无法正确分类的A 4 序列, 可认为是异常情况, 不影响算法的性能. 413　基于碱基位置特征分类的模型虽然上述采用碱基A , T , G, C 在DNA 序列里的含量作为该序列的特征的方法有一定的生物学意义并且在DNA 序列的分类中获得了比较理想的结果. 但是, 用这种方法抽取特征, 没有充分体现碱基排列的信息量, 仅仅考虑碱基含量并没有体现碱基在序列中的排列情况. 例如, 序列 (A T GC) 与序列 (CGTA ) 有着相同的碱基含量, 他们的特征向量是完全一样的, 并不能体现在排列结构上的不同. 因此, 直接从序列本身的碱基排列顺序来考察序列就成为一种更加合适的提取特征的方式. 因此采纳数值序列中的相关性分析设计了算法. 141 期韩轶平等: DNA 序列的分类 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的. 由于本题中的DNA 序列是非数值的序列, 同时无法将碱基按通常的方式进行数值化, 因而刻画任意两个序列的相关程度的变量需要重新定义. 表 2ª A G T C A 1 0 0 0 G 0 1 0 0 T 0 0 1 0 C 0 0 0 1 41311　定义一: 相关运算“á ” 对于任意碱基m 和 n , 相关运算“m á n”的值由表 2 定义: 41312　定义二: 哑元O 除四个碱基外, 我们另行定义一个哑元O , 规定任意碱基与哑元作相关运算的结果都为 0. 41313　定义三: 序列的延拓对于任意一个长度为N 的序列A i (其中 0≤i < N ) , 定义它的延拓为如下一个无限序列: A + j: 当 0≤j < N 时,A +j = A j; 当- ∞< j < 0 及N ≤j < ∞ 时,A + j = O. 即在该序列的左右两端均用哑元O 填充. 41314　定义四: 序列的相关度对于任意的两个序列A N ,B M , 定义序列A 和序列B 的相关序列 S i 为: S i = ∑ ∞ k= 0 A +k+ 2- i á B +k 　 (0 Φ i Φ n + m - 1) 　　定义序列B 对序列A 的相关度为: S = M A X {S i}　 (0 Φ i Φ n + m - 1) 　　例如对于序列A {T , C , T }与序列B {A , G , T , C , T , C }, 相关序列及相关度的计算步骤如下: 第一项: S 0= A 2ªB 0= T ªA = 0 ⋯ A +- 1 A +0 A +1 A +2 A +3 A +4 A +5 A +6 A +7 A +8 ⋯ ⋯ O T C T O O O O O O ⋯ ⋯ O O O A G T C T C O ⋯ ⋯ B +- 3 B +- 2 B +- 1 B +0 B +1 B +2 B +3 B +4 B +5 B +6 ⋯ 第二项: S 1= A 1ªB 0+ A 2ªB 1= T ª G+ CªA = 0 ⋯ A +- 2 A +- 1 A +0 A +1 A +2 A +3 A +4 A +5 A +6 A +7 ⋯ ⋯ O O T C T O O O O O ⋯ ⋯ O O O A G T C T C O ⋯ ⋯ B +- 3 B +- 2 B +- 1 B +0 B +1 B +2 B +3 B +4 B +5 B +6 ⋯ 第三项: S 2= A 0ªB 0+ A 1ªB 1= T ª T + Gª C+ A ª T = 1 ⋯ A +- 3 A +- 2 A +- 1 A +0 A +1 A +2 A +3 A +4 A +5 A +6 ⋯ ⋯ O O O T C T O O O O ⋯ ⋯ O O O A G T C T C O ⋯ ⋯ B +- 3 B +- 2 B +- 1 B +0 B +1 B +2 B +3 B +4 B +5 B +6 ⋯ 以下类推得 (表略) : 第四项: S 3= A 0á B 1+ A 1á B 2+ A 2á B 3= T á C + C á T + T á G = 0 24 数　学　的　实　践　与　认　识 31 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第五项: S 4= A 0á B 2+ A 1á B 3+ A 2á B 4= T á T + C á C + T á T = 3 第六项: S 5= A 0á B 3+ A 1á B 4+ A 2á B 5= T á C + C á T + T á C = 0 第七项: S 6= A 0á B 4+ A 1á B 5= C á C + T á T = 2 第八项: S 7= A 0á B 5= T á C = 0 第八项: S 7= A 0ªB 5= T ª C= 0 ⋯ A +- 8 A +- 7 A +- 6 A +- 5 A +- 4 A +- 3 A +- 2 A +- 1 A +0 A +1 ⋯ ⋯ O O O O O O O O T C ⋯ ⋯ O O O A G T C T C O ⋯ ⋯ B +- 3 B +- 2 B +- 1 B +0 B +1 B +2 B +3 B +4 B+5 B +6 ⋯ 两序列的相关度为 S = M A X {S i}= S 5= 3; 41315　定理一: 任意给定三个序列 S ,A ,B , 若A 与S 的相关度大于B 与S 的相关度且B 与 A 等长, 则A 与 S 属同一类的可能性大于B 与 S 属同一类的可能性 41316　基于相关度的分类算法: 利用上述概念, 我们构造了一个基于相关度的分类算法, 如下: 11 对于序列A 21—A 40, N 1—N 182 中的任意一个序列, 将其与序列A 1—A 20 中的每一个依次作求相关度的运算, 结果记为 SS1, SS2, SS3⋯⋯SS20; 21 对于前十个相关度, 求出它们的平均相关度 SA = (SS1+ SS2+ ⋯⋯SS10) ö10, 并定义其为与A 类的相关度; 31 对于后十个相关度, 求出它们的平均相关度 SB = (SS11+ SS12+ ⋯⋯SS20) ö10, 并定义其为与B 类列的相关度; 41 记W = SA öSB , 根据定理一, 判别依据为: 若W > 1, 则将X 点判为A 类; 若W < 1, 则将X 点判为B 类; 若W = 1, 则将X 点判为不可判类; 51W 可作为衡量该序列分类的可信性的一个标准. 显然当W 越接近于 1, 该序列与A 类的相关性和与B 类的相关性区别就越小, 分类结果就越不可信; 反之,W 与 1 差的越远, 该序列与A 类的相关性和与B 类的相关性区别就越小, 分类结果就越可信. 这个变量对我们下面带有反馈的相关度分类算法具有重要的意义. 用上述算法对已知样学习样本A 1- A 20 进行分类, 得到的结果是分类完全正确,A , B 类可以完全分开, 准确率达到 100%. 对于未知序列A 21—A 40 进行分类, 得到的结果是: A 类: 22 23 25 27 29 34 35 36 37 B 类: 21 24 26 28 30 31 32 33 38 39 40 用上述算法对未知的自然序列N 1—N 182 进行分类, 得到的结果见附录 (略) 1 41317　相关度分类算法的改进——带有反馈的分类算法上述的相关度分类算法是一次性学习过程, 学习的过程只体现在学习样本的过程中, 而在对未知样本分类的过程中没有对已分类情况作出修正, 即是属于无反馈型的学习. 然而, 采用反馈型的学习过程会有更好的分类结果. 一般说来, 带反馈的算法以神经网络算法最具有代表性. 但对于一般的分类算法而言, 可以采用多次反复分类的办法来实现反馈的目 341 期韩轶平等: DNA 序列的分类 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 的. 针对上述的相关度分类算法, 我们设计了如下带反馈的相关度分类算法: 11 对全部 182 个样本进行相关度分类; 21 计算全部 182 个W 的值 31 在所有被判为A 类的待分类序列中, 取出W 值最大的一个, 作为标准学习样本, 加入到A 类的标准样本中 (若有多个, 则全部加入到A 类中, 若无被判为A 类的序列, 则保持 A 类标准学习样本不变. ) 41 在所有被判为B 类的待分类序列中, 取出W 值最小的一个, 作为标准学习样本, 加入到B 类的标准样本中 (若有多个, 则全部加入到B 类中, 若无被判为B 类的序列, 则保持 B 类标准学习样本不变. ) 51 重复对剩余的待分类序列进行相关度分类, 并按上述步骤不断扩充标准学习样本, 直至全部的待分类序列都被加入到标准学习样本中. 我们用新算法编程对 182 个序列进行了重新分类, 得到了不同于原无反馈分类算法的结果, 而且新的分类结果的W 值明显与 1 离开的更大, 这使我们有理由相信, 反馈对算法的性能有一定的改进. 5　进一步研究的问题 511　基于生物学的特征抽取我们上述的两种特征抽取方法更多的是从纯数学眼光来研究序列的特征. 除此之外, 我们还可以考虑DNA 序列在生物学意义下的数学特征. 一个比较容易考虑到的方面便是三联体在DNA 序列中的出现. 由于具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用, 有理由认为它在序列中的出现体现了该序列的本质特征. 题中没有明确的指明所给的序列是全序列还是序列片断, 我们无法对三联体在序列中的出现位置进行定位, 一种代替的方法是将序列假定为全序列, 从第一个碱基开始三个三个一组的划分为密码子, 然后统计 64 个密码子的出现概率, 形成 64 维的向量. 再使用距离分类等模型, 或利用生物学的知识先将 64 维向量的某几维合并, 降维后再分类. 我们编程演算后, 觉得该种分类方法比较依赖于密码子的划分, 一位碱基的缺失或错位均会造成分类错误, 所以必须加以修改, 一条思路是尝试将序列移一位或二位再划分密码子, 由于时间所限, 没有进一步研究. 512　基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法, 随着计算机速度提高被广泛应用. 对于本题的情况采用神经网络模型是合适的, 它可以在给定特征向量的情况下代替一般的距离分类模型. 对于基于碱基含量的特征向量 (na , n t, ng ) , 构造了如下的反向传播算法: 11 网络简单的分为两层, 一层为输入层, 有 3 个单元, 分别为权重 a , b, c; 一层为输出层, 有 1 个单元, 为判别结果; 各单元均为 Sigmo id 型函数激励. 21 设定 (a , b, c)的初值为 (0, 0, 0) ; A 类学习样本的标准输出定为 1; B 类学习样本的标准输出定为 0 31 对每一个学习样本, 计算 S = a3 na+ b3 n t+ c3 ng 作为输出; 41 将学习样本的标准输出与 S 相减, 所得的差用来指导权重的改变, 权重的改变遵从 W idrow 2Hoff 准则. 44 数　学　的　实　践　与　认　识 31 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 51 反复学习样本, 到权重值稳定收敛. 61 代入待分类样本, 分类. 用上述算法所得到的结果与普通的分类模型没有区别. 事实上当权值稳定收敛后, S = a3 na+ b3 n t+ c3 ng 就是特征空间的一张 (超) 平面, 从这一点来说, 人工神经网络模型与一般的距离分类模型得到的结果没有两样. 考虑到人工神经网络模型还存在结果对初值有较强敏感性, 缺乏选择理想步长的准则和收敛性等问题, 在一定的时间内, 我们无法较好的解决这些问题, 所以我们也没有作进一步讨论. 6　算法的稳定性前面比较算法的时候, 曾多次提到分类算法的稳定性问题. 分类算法的稳定性是除了算法的成功率之外的另一较重要的指标. 所谓分类算法的稳定性, 是指算法在样本发生了轻微变化时作出正确判别的能力. 对于本题, 是指算法在样本序列发生了轻微的碱基缺失, 错位, 错排情况时作出正确判别的能力. 因为本题要求我们研究的是DNA 序列粗粒化和模型化的问题, 所以分类时是对序列的整体特征进行区分. 局部碱基的组成变化应该对算法的分类结果没有影响. 我们所提出的几个模型均较好的满足了这一点. 参考文献: [ 1 ]　孙乃恩, 孙东旭, 朱德煦. 《分子遗传学》1 南京大学出版社, 19961 [ 2 ]　白其峥 1《数学建模案例分析》1 海洋出版社, 20001 [ 3 ]　潘德惠 1《数学模型的统计方法》1 辽宁科学技术出版社, 19861 [ 4 ]　阎平凡, 黄端旭 1《人工神经网络》1 安徽教育出版社, 19911 [ 5 ]　李振刚 1《分子遗传学概论》1 中国科学技术大学出版社, 19901 [ 6 ]　D uane H anselm an1B ruce L itt lefield《M astering M A TLAB: a comp rehensive tu to rial and reference》1 P ren tice H all, 19961 Classif ica tion of D NA Sequences HAN Y i2p ing, 　 YU H ang, 　 L IU W ei (Zhejiang U niv. , H angzhou　310027) Abstract: 　T h is paper p ropo ses several m ethods fo r the classificat ion of DNA sequences. W e no ticed that differen t sequences have differen t a lkali radicals and therefo re set up models using Euclidean distance, M ahalanob is distance and F isher p rincip le. W e also no ticed that differen t sequences have differen t perm utations of alkali radicals and an algo rithm using rela t ivity analysis is p ropo sed. Further w e discussed a rela t ivity analysis a lgo rithm w ith feed2back m echan ism. A s to the natu ral and art ificia l data given our algo rithm s w o rk w ell and fine resu lts are given. A t last several o ther common algo rithm s are compared, especia lly on their stab ilit ies. 541 期韩轶平等: DNA 序列的分类

                    本文档为【DNA序列的分类】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

DNA序列的分类

你可能还喜欢