一种改进的高斯混合模型算法

一种改进的高斯混合模型算法收稿日期：!""# $ %! $ "! 作者简介：许雯（%&’# $），女，江苏南京人，北方计算中心工程师，硕士，主要研究方向为语音识别。一种改进的高斯混合模型算法许雯，董林，田家斌（北方计算中心，北京 %"""&%）摘要：建立声学模型是说话人识别技术的重要环节，一种好的建模方法对说话人识别系统的识别率具有极其重大的影响。本文介绍了一种改进的高斯混合模型算法———将聚类算法与传统高斯混合模型结合起来的建模方法，并对此种建模方法得出的识别效果与传统的高斯混合模型进行了比较。从对比结果...

收稿日期：!""# $ %! $ "! 作者简介：许雯（%&’# $），女，江苏南京人，北方计算中心工程师，硕士，主要研究方向为语音识别。一种改进的高斯混合模型算法许雯，董林，田家斌（北方计算中心，北京 %"""&%）摘要：建立声学模型是说话人识别技术的重要环节，一种好的建模方法对说话人识别系统的识别率具有极其重大的影响。本文介绍了一种改进的高斯混合模型算法———将聚类算法与传统高斯混合模型结合起来的建模方法，并对此种建模方法得出的识别效果与传统的高斯混合模型进行了比较。从对比结果可以看出，基于聚类的高斯混合模型的说话人识别相对于传统的高斯混合模型在识别率上有所提高。关键词：高斯混合模型；聚类算法；()算法中图分类号：*+&%!,-# 文献标识码：. 文章编号：%/’% $ "/’-（!""0）"! $ ""/0 $ "- !" #$%&’()* !+,’&-./$ ’0 122 12 345，67+8 9:5，*;.+ <:=>?:5 （*@4 +ABC@ DAEFGC=C:A5 D45C4B，H4:I:5J %"""&%，D@:5=） !34.&56.：D@=B=KC4B:LC:K EAM4N:5J :L =5 :EFABC=5C N:5O :5 C4K@5ANAJP AQ LF4=O4B :M45C:Q:K=C:A5，= 5:K4 EAM> 4N:5J E4C@AM :EF=KC A5 C@4 F4BQABE=5K4 AQ LF4=O4B :M45C:Q:K=C:A5 LPLC4ER *@:L =BC:KN4 :5CBAMGK4L =5 :E> FBAS4M =NJAB:C@E AQ 8)) T@:K@ KAE?:54L KN=LL:K=N 8)) T:C@ KNGLC4B:5J =NJAB:C@E，=5M KAEF=B4L C@4:B F4BQABE=5K4R UBAE C@4 B4LGNCL，C@4 =BC:KN4 KA5KNGM4L C@=C 8)) ?=L4M A5 KNGLC4B:5J =NJAB:C@E @=L @:J@4B F4BQABE=5K4 C@=5 KN=LL:K 8)) =NJAB:C@ER 7)8 9’&*4：8))；KNGLC4B:5J =NJAB:C@E；() =NJAB:C@E % 引言基于高斯混合模型（8=GLL:=5 ):VCGB4 )AM4NL， 8))）的说话人识别方法是现代说话人识别技术的重要方法之一。这种方法的基本原理是对说话人集合中的每一个体建立一个概率模型，将说话人的个性特征在特征空间的分布抽象为该概率模型随机产生的结果。由于该概率模型采用的是多个单高斯分布的线性组合，因此被称为高斯混合模型［%］。基于聚类的高斯混合模型是建立在聚类算法和传统高斯混合模型的基础上的一种建模方法。此种方法是对传统高斯混合模型建模方法的一种改进，它在建立高斯混合模型的同时对各个混合数的高斯模型进行聚类，使所建声学模型与实际语音的拟合度加大，从而提高了识别率。为了更清晰地描述基于聚类的高斯混合模型算法，我们先分析一下传统的高斯混合模型的建模方法。 ! 高斯混合模型一个具有 ! 个混合数（! 阶）的高斯混合模型，可以用 ! 个单高斯分量的加权和来表示［!］，即 "（#$ %!）& ! ! ’ & % (’)’（#$）（%）其中，#$，$ & %，!，⋯，*是语音特征序列；(’，’ & %， !，⋯，!为第 ’个单高斯分布的权重，且! ! ’ & % (’ & %； )’（#）均值为"’，协方差矩阵为 +’的单高斯分布函第 /卷第 !期信息工程大学学报 WAN R/ +AR! !""0年 /月函数 0（#，#）% ! . " % ! -（#$，" (#）3/(-（#$，" (#）（5）其中# %｛-"，""，)" ( " % !，"，⋯，.｝为模型的另一组参数，-（#$，" (#）为#的 6++的隐状态 "，其特征为 #$ 的概率密度。可以经过推导得到以下结论：0（#，#）与 1（#$ (#）不仅在递增性质上保持一致而且极值点的最终集团也是一致的。这样就可以通过求 0（#，#）的局部极值来得到 -（#$ (#）的局部最大的优化参数#。迭代估计 6++参数的过程分为两步：!计算训练数据落在隐状态 2 的概率 1（ "$ % " ( #$，#），这一步称为 *$%#,-&-./0；" 以局部最大准则估计 6++ 的参数#，这一步称为 +&$.).1&-./0；合起来称为 *+算法。 5 基于聚类的高斯混合模型传统的高斯混合模型建模法是在混合数不变情况下的一种建模方法。即它在初始状态时设定的混合数在建模过程中是不变的，它的建模目标混合数依然是初始状态时设定的混合数。而基于聚类的高斯混合模型建模法的初始状态混合数与目标混合数是不一致的［5］。一般说来，初始状态的混合数比最终建模时混合数要大（通常情况下将初始混合数设定为目标混合数的两倍以上能得到比较好的结果），这样，在建模过程中可以将相近的两个高斯分量合并成一个（聚类），然后再重新由 *+算法进行建模，以此往复，最终使初始化的混合数合并成设计者想要得到的混合数（目标混合数）。具体的建模方法如下：设 #3，3 % !，"，⋯，4 是语音特征序列， !设置初始混合数 5 % 67（一般将初始混合数 5 设置成目标混合数. 的两倍以上）； "根据公式（!）、（"）、（5）初始化参数#（!）： -（!）6 % ! 67 （8） 7（!）6 % #3 当 3 % 6"（4 + !）’（67 + !）」8 ! （9） 9（!）6 % ! :! : 3 % ! #3#$3 （:） #运用 *+算法（算法与传统高斯混合模型一致），直至收敛； $若混合数大于欲建模的混合数，则寻找相近（指均值和方差接近）的两个高斯分量，将它们合并成一个新的高斯分量，并且将混合数 5 减 !。合并规则如下：设两个高斯分量的参数分别为｛-"，""，)"｝和｛-;，";，);｝，合并后新的高斯分量的参数为｛-<，"<， )<｝，则 =! ; -" ’（-" < -;）（=） =" ; -; ’（-" < -;）（>） -< ; -" < -; （?） 7< ; =!"7" < =""7; （!7） 9< ; =!"［ 9" <（ 7< @ 7"）"］< =""［ 9; <（ 7< @ 7;）"］（!!） %返回步骤#，直至混合数 5 达到建模的目标混合数. 即可。此时的#;｛-"，""，)" A " ; !，"， ⋯，.｝即为所求的高斯混合模型。在多次实验中我们发现表征说话人特性的协方差矩阵对 6++建模算法的识别效果影响较大，若使用对角矩阵，则包含的说话人的特性就较少，使用满矩阵后，则能包含更多的说话人的生理特性，因而识别率较高。当然，若使用满矩阵，运算的复杂度将加大，运算速度将降低。为确保模型的识别率且提高运算效率，我们可以对初始化的算法做很大程度的改进。传统的初始化方法大多是随机取一些数据求出其均值来作为初始化的均值，或者是通过模的运算从训练数据中跳跃性地抽取数据来作为初始化均值。而我们则可以将 BC算法［8］运用到初始化过程中来，相对多少个混合数的 6++模型，就建多少维的 BC码本，这些码本的码字便可做为 6++模型的初始化均值。而且，由于 BC 算法本身就是一种聚类算法，因此用它所做的初始化数据就比较接近实际模 :: 信息工程大学学报 "779 ############################################################## 年万方数据型的均值，这样在 !""的迭代算法中又可以得到比较快的收敛速度，节省了迭代次数，既提高了识别率，又提高了运算效率。此外，在 !""的迭代算法中还可以对其对数运算做一些改进，因为对数运算比较耗时，可以采取查表法来解决这一问题，以牺牲内存的代价换取运算的效率。 # 两种高斯混合模型算法的对比根据以上的算法思想，我们分别对基于聚类的 !""算法和传统的 !""算法的说话人识别和确认进行了实验。我们进行的说话人识别实验是与文本无关的，即对说话内容不加限制。实验对象来自于 $%"%$数据库的一个封闭的说话人集合，此集合共有 &’位说话人，其中男性、女性各 ( 名，每人分别提取 #’段不同内容的语音进行测试，测试语音长度为 &秒至 )秒不等。实验分为训练和识别两个阶段，取 )*+,采样数据为一帧，对采样数据计算其 &- 维美尔倒谱系数（".//）作为特征参数。训练数据为 #0&)-帧，测试数据为 &1-0*帧。在基于聚类的 !"" 中，所取目标混合数为 &*1，采用对角阵代替协方差矩阵（简化运算），识别结果如表 &所示。表 & 基于聚类的高斯混合模型的识别率 2 目标识别标号识别结果标号 & * ) # ( - 0 1 3 &’ 识别率 & * ) # ( - 0 1 3 &’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ )3 ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ #’ ’ & & ’ ’ ’ ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ )3 ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ )0 ’ ’ ’ ’ ’ ’ ’ ’ ’ * #’ ’ ’ ’ & ’ ’ ’ ’ ’ ’ #’ &’’4’’’ &’’4’’’ 304(’’ &’’4’’’ &’’4’’’ &’’4’’’ 304(’’ 3*4(’’ &’’4’’’ &’’4’’’ 平均识别率 )3( 5 #’’ 6 3140( 本表主要描述识别累计结果，第一列标号表示目标识别标号，测试者代号为 & 7 &’；第一行标号表示识别结果标号，识别结果标号为 & 7 &’。例如：第 1号目标人的 #’段语音测试结果中，正确识别为第 1号目标人的语音段有 )0 段，有 & 段识别为第 (号测试者，有 *段识别为第 3号测试者。在传统的高斯混合密度模型中，我们取与基于聚类的高斯混合模型算法相一致的参数，取混合数为 &*1，采用对角阵代替协方差矩阵（简化运算），识别结果如表 *所示。表 * 传统高斯混合模型的识别率 2 目标识别标号识别结果标号 & * ) # ( - 0 1 3 &’ 识别率 & * ) # ( - 0 1 3 &’ )3 ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ )1 ’ ’ ’ ’ ’ & ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ #’ ’ & & ’ ’ & ’ ’ ’ ’ #’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ )3 ’ ’ ’ ’ ’ & ’ ’ ’ ’ )0 ’ ’ ’ ’ ’ ’ ’ ’ ’ * )3 ’ ’ ’ & ’ ’ ’ ’ ’ ’ #’ 304(’’ &’’4’’’ 3(4’’’ &’’4’’’ &’’4’’’ &’’4’’’ 304(’’ 3*4(’’ 304(’’ &’’4’’’ 平均识别率 )3* 5 #’’ 6 314’’ 从以上对比实验结果可以看出：基于聚类的高斯混合模型算法相比于传统的高斯混合模型算法在识别的正确率上有所提高，而且其实际运算速度也加快了。这是因为，在将聚类算法融合进来以后，相似的高斯分量合并在一起，使得所建模型更能符合实际的说话人声音特性，因而提高了识别率；并且通过不断地合并相近的高斯分量，使 8" 算法的收敛速度加快，迭代次数降低，从而提高了运算效率。我们在用 $%"%$数据库的语音数据用此两种方法作对比测试的结果表明，对于闭集测试，基于聚类的 !"" 算法的识别率要比传统的 !""算法约高出 & 个百分点，而迭代次数也降低了近四分之一，大大提高了运算效率。参考文献：［&］易克初，田斌，付强 9 语音信号处理［"］4北京：国防工业出版社，*’’’9 ［*］卓群，欧贵文 9 基于模糊高斯混合模型的说话人识别算法的一些改进［:］9 第六届全国人机语音通讯学术会议论文集［/］9*’’&，)10 ; )139 ［)］/<=>?@, : ABC+=D4 /?C,E@>：:D FD,CG@>HI,@J :?KB>IE<+ LB> "BJ@?IDK !=C,,I=D "IMEC>@,［8A 5 NO］4 R JC@4 @JC 5 7 SBC +=D4*’’& ; &’4 ［#］张炜，胡起秀，吴文虎 4距离加权矢量量化文本无关的说话人识别［T］4清华大学学报（自然科学版），&330，)0 （)）：*’ ; *)9 0-第 * !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 期许雯等：一种改进的高斯混合模型算法万方数据

                    本文档为【一种改进的高斯混合模型算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

一种改进的高斯混合模型算法

你可能还喜欢