收稿日期:!""# $ %! $ "!
作者简介:许雯(%&’# $),女,江苏南京人,北方计算中心工程师,硕士,主要研究方向为语音识别。
一种改进的高斯混合模型算法
许 雯,董 林,田家斌
(北方计算中心,北京 %"""&%)
摘要:建立声学模型是说话人识别技术的重要环节,一种好的建模方法对说话人识别系统的识
别率具有极其重大的影响。本文介绍了一种改进的高斯混合模型算法———将聚类算法与传统
高斯混合模型结合起来的建模方法,并对此种建模方法得出的识别效果与传统的高斯混合模
型进行了比较。从对比结果可以看出,基于聚类的高斯混合模型的说话人识别相对于传统的
高斯混合模型在识别率上有所提高。
关键词:高斯混合模型;聚类算法;()算法
中图分类号:*+&%!,-# 文献标识码:. 文章编号:%/’% $ "/’-(!""0)"! $ ""/0 $ "-
!" #$%&’()* !+,’&-./$ ’0 122
12 345,67+8 9:5,*;.+ <:=>?:5
(*@4 +ABC@ DAEFGC=C:A5 D45C4B,H4:I:5J %"""&%,D@:5=)
!34.&56.:D@=B=KC4B:LC:K EAM4N:5J :L =5 :EFABC=5C N:5O :5 C4K@5ANAJP AQ LF4=O4B :M45C:Q:K=C:A5,= 5:K4 EAM>
4N:5J E4C@AM :EF=KC A5 C@4 F4BQABE=5K4 AQ LF4=O4B :M45C:Q:K=C:A5 LPLC4ER *@:L =BC:KN4 :5CBAMGK4L =5 :E>
FBAS4M =NJAB:C@E AQ 8)) T@:K@ KAE?:54L KN=LL:K=N 8)) T:C@ KNGLC4B:5J =NJAB:C@E,=5M KAEF=B4L C@4:B
F4BQABE=5K4R UBAE C@4 B4LGNCL,C@4 =BC:KN4 KA5KNGM4L C@=C 8)) ?=L4M A5 KNGLC4B:5J =NJAB:C@E @=L @:J@4B
F4BQABE=5K4 C@=5 KN=LL:K 8)) =NJAB:C@ER
7)8 9’&*4:8));KNGLC4B:5J =NJAB:C@E;() =NJAB:C@E
% 引言
基于高斯混合模型(8=GLL:=5 ):VCGB4 )AM4NL,
8)))的说话人识别方法是现代说话人识别技术
的重要方法之一。这种方法的基本原理是对说话
人集合中的每一个体建立一个概率模型,将说话人
的个性特征在特征空间的分布抽象为该概率模型
随机产生的结果。由于该概率模型采用的是多个
单高斯分布的线性组合,因此被称为高斯混合模
型[%]。
基于聚类的高斯混合模型是建立在聚类算法
和传统高斯混合模型的基础上的一种建模方法。
此种方法是对传统高斯混合模型建模方法的一种
改进,它在建立高斯混合模型的同时对各个混合数
的高斯模型进行聚类,使所建声学模型与实际语音
的拟合度加大,从而提高了识别率。为了更清晰地
描述基于聚类的高斯混合模型算法,我们先
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
一
下传统的高斯混合模型的建模方法。
! 高斯混合模型
一个具有 ! 个混合数(! 阶)的高斯混合模
型,可以用 ! 个单高斯分量的加权和来表示[!],即
"(#$ %!)& !
!
’ & %
(’)’(#$) (%)
其中,#$,$ & %,!,⋯,*是语音特征序列;(’,’ & %,
!,⋯,!为第 ’个单高斯分布的权重,且!
!
’ & %
(’ & %;
)’(#)均值为"’,协方差矩阵为 +’的单高斯分布函
第 /卷 第 !期 信 息 工 程 大 学 学 报 WAN R/ +AR!
!""0年 /月
函数
excel方差函数excelsd函数已知函数 2 f x m x mx m 2 1 4 2拉格朗日函数pdf函数公式下载
0(#,#)% !
.
" % !
-(#$," (#)3/(-(#$," (#)(5)
其中# %{-","",)" ( " % !,",⋯,.}为模型的另
一组参数,-(#$," (#)为#的 6++的隐状态 ",其
特征为 #$ 的概率密度。可以经过推导得到以下结
论:0(#,#)与 1(#$ (#)不仅在递增性质上保持一
致而且极值点的最终集团也是一致的。这样就可以
通过求 0(#,#)的局部极值来得到 -(#$ (#)的局
部最大的优化参数#。迭代估计 6++参数的过程
分为两步:!计算训练数据落在隐状态 2 的概率
1( "$ % " ( #$,#),这一步称为 *$%#,-&-./0;" 以局
部最大准则估计 6++ 的参数#,这一步称为
+&$.).1&-./0;合起来称为 *+算法。
5 基于聚类的高斯混合模型
传统的高斯混合模型建模法是在混合数不变
情况下的一种建模方法。即它在初始状态时设定的
混合数在建模过程中是不变的,它的建模目标混合
数依然是初始状态时设定的混合数。而基于聚类的
高斯混合模型建模法的初始状态混合数与目标混
合数是不一致的[5]。一般说来,初始状态的混合数
比最终建模时混合数要大(通常情况下将初始混合
数设定为目标混合数的两倍以上能得到比较好的
结果),这样,在建模过程中可以将相近的两个高斯
分量合并成一个(聚类),然后再重新由 *+算法进
行建模,以此往复,最终使初始化的混合数合并成
设计者想要得到的混合数(目标混合数)。具体的建
模方法如下:
设 #3,3 % !,",⋯,4 是语音特征序列,
!设置初始混合数 5 % 67(一般将初始混合
数 5 设置成目标混合数. 的两倍以上);
"根据
公式
小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载
(!)、(")、(5)初始化参数#(!):
-(!)6 %
!
67
(8)
7(!)6 % #3 当 3 % 6"(4 + !)’(67 + !)」8 !
(9)
9(!)6 %
!
:!
:
3 % !
#3#$3 (:)
#运用 *+算法(算法与传统高斯混合模型一
致),直至收敛;
$若混合数大于欲建模的混合数,则寻找相近
(指均值和方差接近)的两个高斯分量,将它们合并
成一个新的高斯分量,并且将混合数 5 减 !。合并
规则
编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf
如下:
设两个高斯分量的参数分别为{-","",)"}和
{-;,";,);},合并后新的高斯分量的参数为{-<,"<,
)<},则
=! ; -" ’(-" < -;) (=)
=" ; -; ’(-" < -;) (>)
-< ; -" < -; (?)
7< ; =!"7" < =""7; (!7)
9< ; =!"[ 9" <( 7< @ 7")"]< =""[ 9; <( 7< @
7;)"] (!!)
%返回步骤#,直至混合数 5 达到建模的目
标混合数. 即可。此时的#;{-","",)" A " ; !,",
⋯,.}即为所求的高斯混合模型。
在多次实验中我们发现表征说话人特性的协
方差矩阵对 6++建模算法的识别效果影响较大,
若使用对角矩阵,则包含的说话人的特性就较少,
使用满矩阵后,则能包含更多的说话人的生理特
性,因而识别率较高。当然,若使用满矩阵,运算的
复杂度将加大,运算速度将降低。
为确保模型的识别率且提高运算效率,我们可
以对初始化的算法做很大程度的改进。传统的初
始化方法大多是随机取一些数据求出其均值来作
为初始化的均值,或者是通过模的运算从训练数据
中跳跃性地抽取数据来作为初始化均值。而我们
则可以将 BC算法[8]运用到初始化过程中来,相对
多少个混合数的 6++模型,就建多少维的 BC码
本,这些码本的码字便可做为 6++模型的初始化
均值。而且,由于 BC 算法本身就是一种聚类算
法,因此用它所做的初始化数据就比较接近实际模
:: 信 息 工 程 大 学 学 报 "779
##############################################################
年
万方数据
型的均值,这样在 !""的迭代算法中又可以得到
比较快的收敛速度,节省了迭代次数,既提高了识
别率,又提高了运算效率。
此外,在 !""的迭代算法中还可以对其对数
运算做一些改进,因为对数运算比较耗时,可以采
取查表法来解决这一问题,以牺牲内存的代价换取
运算的效率。
# 两种高斯混合模型算法的对比
根据以上的算法思想,我们分别对基于聚类的
!""算法和传统的 !""算法的说话人识别和确
认进行了实验。我们进行的说话人识别实验是与
文本无关的,即对说话内容不加限制。实验对象来
自于 $%"%$数据库的一个封闭的说话人集合,此集
合共有 &’位说话人,其中男性、女性各 ( 名,每人
分别提取 #’段不同内容的语音进行测试,测试语
音长度为 &秒至 )秒不等。实验分为训练和识别
两个阶段,取 )*+,采样数据为一帧,对采样数据计
算其 &- 维美尔倒谱系数(".//)作为特征参数。
训练数据为 #0&)-帧,测试数据为 &1-0*帧。
在基于聚类的 !"" 中,所取目标混合数为
&*1,采用对角阵代替协方差矩阵(简化运算),识别
结果如表 &所示。
表 & 基于聚类的高斯混合模型的识别率 2
目标识别标号
识 别 结 果 标 号
& * ) # ( - 0 1 3 &’
识别率
&
*
)
#
(
-
0
1
3
&’
#’
’
’
’
’
’
’
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
)3
’
’
’
’
’
’
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
#’
’
&
&
’
’
’
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
)3
’
’
’
’
’
’
’
’
’
’
)0
’
’
’
’
’
’
’
’
’
*
#’
’
’
’
&
’
’
’
’
’
’
#’
&’’4’’’
&’’4’’’
304(’’
&’’4’’’
&’’4’’’
&’’4’’’
304(’’
3*4(’’
&’’4’’’
&’’4’’’
平均识别率 )3( 5 #’’ 6 3140(
本表主要描述识别累计结果,第一列标号表示
目标识别标号,测试者代号为 & 7 &’;第一行标号
表示识别结果标号,识别结果标号为 & 7 &’。例
如:第 1号目标人的 #’段语音测试结果中,正确识
别为第 1号目标人的语音段有 )0 段,有 & 段识别
为第 (号测试者,有 *段识别为第 3号测试者。
在传统的高斯混合密度模型中,我们取与基于
聚类的高斯混合模型算法相一致的参数,取混合数
为 &*1,采用对角阵代替协方差矩阵(简化运算),
识别结果如表 *所示。
表 * 传统高斯混合模型的识别率 2
目标识别标号
识 别 结 果 标 号
& * ) # ( - 0 1 3 &’
识别率
&
*
)
#
(
-
0
1
3
&’
)3
’
’
’
’
’
’
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
)1
’
’
’
’
’
&
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
#’
’
&
&
’
’
&
’
’
’
’
#’
’
’
’
’
’
’
’
’
’
’
)3
’
’
’
’
’
&
’
’
’
’
)0
’
’
’
’
’
’
’
’
’
*
)3
’
’
’
&
’
’
’
’
’
’
#’
304(’’
&’’4’’’
3(4’’’
&’’4’’’
&’’4’’’
&’’4’’’
304(’’
3*4(’’
304(’’
&’’4’’’
平均识别率 )3* 5 #’’ 6 314’’
从以上对比实验结果可以看出:基于聚类的高
斯混合模型算法相比于传统的高斯混合模型算法
在识别的正确率上有所提高,而且其实际运算速度
也加快了。这是因为,在将聚类算法融合进来以
后,相似的高斯分量合并在一起,使得所建模型更
能符合实际的说话人声音特性,因而提高了识别
率;并且通过不断地合并相近的高斯分量,使 8"
算法的收敛速度加快,迭代次数降低,从而提高了
运算效率。我们在用 $%"%$数据库的语音数据用
此两种方法作对比测试的结果表明,对于闭集测
试,基于聚类的 !"" 算法的识别率要比传统的
!""算法约高出 & 个百分点,而迭代次数也降低
了近四分之一,大大提高了运算效率。
参考文献:
[&]易克初,田斌,付强 9 语音信号处理["]4北京:国防工
业出版社,*’’’9
[*]卓群,欧贵文 9 基于模糊高斯混合模型的说话人识别
算法的一些改进[:]9 第六届全国人机语音通讯学术
会议
论文
政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载
集[/]9*’’&,)10 ; )139
[)]/<=>?@, : ABC+=D4 /?C,E@>::D FD,CG@>HI,@J :?KB>IE<+ LB>
"BJ@?IDK !=C,,I=D "IMEC>@,[8A 5 NO]4 R
JC@4 @JC 5 7 SBC +=D4*’’& ; &’4
[#]张炜,胡起秀,吴文虎 4距离加权矢量量化文本无关的
说话人识别[T]4清华大学学报(自然科学版),&330,)0
()):*’ ; *)9
0-第 *
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
期 许 雯等:一种改进的高斯混合模型算法
万方数据