基于小数据量的方言普通话语音识别声学建模

基于小数据量的方言普通话语音识别声学建模基于小数据量的方言普通话语音识别声学建模 () ISSN 100020054 40 39ƒ清华大学学报自然科学版2008 年第 48 卷第 4 期(6042607 ) CN 1122223ƒN J T singhua U inv Sci& T ech, 2008, V o l. 48, N o. 4 基于小数据量的方言普通话语音识别声学建模吴文虎刘林泉,郑方, ( ) 清华大学计算机科学与技术系, 清华信息科学与技术国家实验室, 北京 100084 摘要: 为在少量数据情况下显著提高方言普通话的识...

基于小数据量的方言普通话语音识别声学建模 () ISSN 100020054 40 39ƒ清华大学学报自然科学版2008 年第 48 卷第 4 期(6042607 ) CN 1122223ƒN J T singhua U inv Sci& T ech, 2008, V o l. 48, N o. 4 基于小数据量的方言普通话语音识别声学建模吴文虎刘林泉,郑方, ( ) 清华大学计算机科学与技术系, 清华信息科学与技术国家实验室, 北京 100084 摘要: 为在少量数据情况下显著提高方言普通话的识别细分小的方言达上千种。面对如此繁多的方言普通率, 针对标准普通话和方言普通话之间发音差异是连续变化话, 采用何种策略来构建识别模型, 既省时又有效是的特点, 在少量方言普通话的基础上, 提出了基于距离度量研究中的关键问题。我们利用少量方言普通话数据的识别基元扩展方法, 并将扩展基元与状态相关的基于基元并结合标准普通话识别模型, 对普通话进行语音识的模型归并方法相结合。采用1 的上海普通话数据作为开 h 别。对于方言普通话, 在发音层面可能造成音节或者发集, 用本方法, 使音节错误率降低了 17. 3% 。另外与自适声韵的音素替换, 也可能造成声音变化。对于前者, 可以通过在发音字典中增加体现方言普通话发音特这应方法的结合使用, 还可以将音节错误率再降低 6. 6% , 比单纯应用自适应方法错误率多降低了 5. 4% 。 1 关键词: 语音识别; 声学建模; 方言普通话; 状态归并; 点的发音变化来加以解决。对于后者, 本文提出了识别基元扩展一种新颖的方言普通话识别声学建模方法。在实际应用中, 由于受到方言发音习惯的影响, 标准普通话 T P 391 文献标识码: 中图分类号:A 的识别基元集合, 尤其在口音较重的情况下, 不能很 () 文章编号: 100020054 20080420604204 2 好地刻画方言普通话的发音特点。本文针对标准普通话和方言普通话的发音差 Sm a ll da ta se t- ba sed a coust ic m ode l in g f or 异, 利用距离度量作为生成准则, 对标准普通话的声 d ia lec ta l Ch in e se speech recogn it ion 韵集进行了扩展, 之后在扩展声韵集的基础上进行 L IU L inq ua n, ZHENG F a ng , W U W e nhu 3 () 了状态相关的基于基元的模型归并。 SD PBM M (D epar tm en t of Com puter Sc ien ce an d Techn o logy, 另外, 在小数据量情况下, 自适应是提高识别率最常 Ts in ghua Na t iona l L abora tory f or In f orma t ion Sc ien ce an d 4 )Techn o logy, Ts in ghua Un iver s ity, Be ij in g 100084, Ch ina 用的方法, 因而将前 2 种方法与自适应方法相结合, 进一步提高了识别率。本文利用1 的上海普通 h A bstrac t: A sm a ll deve lopm en t se t is u sed to sign if ican t ly im p ro ve 话语音作为开发集, 实现了对以上三种方法的结合。 th e p e rfo rm ance fo r d ia lec ta l C h ine se sp eech reco gn it io n. A un it 实验表明, 相对于基线模型, 音节错误率降低了 exp an sio n m e tho d ba sed o n th e aco u st ic d istance is u sed to dea l w ith th e so und ch ange s be tw een standa rd C h ine se and d ia lec ta l C h ine se, 23. 9% 。e sp ecia lly w hen g iven o n ly a sm a ll am o un t o f d ia lec ta l C h ine se da ta. T h en th e exp anded un it s a re fu r th e r in teg ra ted in to a sta te2dep enden t p ho nem e2ba sed m o de l m e rg ing m e tho d. W ith a 1 针对方言普通话的基元扩展deve lopm en t se t o f o n ly 1. 0 ho u r o f Sh angh a i2d ia lec ta l C h ine se, 一般情况下, 标准普通话由21 个声母和38 个韵 () th e se m e tho d s gave a re la t ive sy llab le e r ro r ra te SER reduc t io n o f 母组成。而在方言中, 通常包含不同数量的声韵母集 17. 3%. W hen com b ined w ith o th e r adap ta t io n tech n ique s, th e 合, 例如上海方言中就包含 34 个声母和 54 个韵母。 m e tho d ach ieved a fu r the r SER reduc t io n o f 6. 6% , w ith th e re la t ive 因而标准普通话和方言普通话在发音上势必存在一 SER reduc t io n be ing 5. 4% m o re th an u sing adap ta t io n o n ly. 定的差异。但由于都是普通话, 都受到标准普通话发 Key words: sp eech reco gn it io n; aco u st ic m o de ling; d ia lec ta l C h ine se; m o de l m e rg ing; un it exp an sio n 收稿日期: 2007201205 近年来, 口音问题在语音识别领域受到越来越基金项目: 国际合作项目: 基于的方言背景普通话语音 P layS ta t io n ( )识别 200063000078 多的关注。我们把地域性的带口音的普通话称之为 ( ) ( ) 作者简介: 刘林泉1974—, 男汉, 河北, 博士研究生。方言普通话。受母方言的影响, 一般人的普通话或多通讯联系人: 郑方, 研究员, 2: @ . . E m a ilfzh engt singh uaeducn 或少都带有一定的地域特征。我国有八大方言区, 再表 1基于距离度量的基元扩展准则音习惯的影响, 因此方言普通话与标准普通话又存 > 条件?< ?d T 在很多的相似性。文5 给出了上海普通话与标准普 d T T d T 2 11 2 类别通话在发音层次上的差异, 这些差异可能由发音习 0 1 2 惯、舌位、音调等因素造成。例如在文2 中标准普通在确定了扩展识别基元之后, 利用扩展识别基在上海普通话中由于舌位不同还有 2话的韵母 , ie 元集合对方言普通话语音进行重新标注。采用强制种相应的发音变化, 即,< 和另一方面, 这^ ; ieie7 对齐的方法重新标注, 首先要解决的问题是如何 2 种发音变化又与其标准普通话发音有着密切联 ie 得到用于强制对齐的初始声学模型。初始模型的生系, 是其发音变体。理论上, 在标准普通话识别基元 ) 成遵循以下规则: 1对于符合类别 0 的基元, 其初的基础上生成针对方言普通话的识别基元集合能够 ) 始直接由对应标准普通话得到。2对 HM M HM M 有效提高识别率, 为此, 与以往由语音学专家定义识 2 于符合类别 1 的基元, 其初始直接由对应的 HM M 别基元集合不同, 本文提出了基于数据驱动方式 ) 方言普通话得到。3对于类别2 所包含的基HM M 的针对方言普通话的识别基元自动生成方法。元, 由于要产生一个新基元, 其初始模型由标准普通本文规定 2 个基元的相似度由其模型的声学距和方言普通话之间进行插值得话 HM M HM M离来度量, 距离越小, 说明标准普通话与方言普通话 4 到, 在本文中插值系数为 0. 5。之间发音变化越小, 反之, 则认为两者之间存在较大的差异。为了增加基元模型在声学空间的覆盖度, 对状态相关的基于基元的模型归并 2 于这种距离比较大的情况, 考虑增加新的识别基元。本文作者以前的工作证明了状态相关的基于基当然, 这种增加要充分考虑到模型的复杂度以及方 3 ( ) 对于提高方言普通话元的模型归并 SD PBM M 言普通话数据量, 否则, 可能造成系统识别率下降和识别率有很好的效果。在基于声韵母的汉语语音识数据稀疏等问题, 实际中, 一般是二者的折衷。别中, 将来自于标准普通话的上下文相关与 HM M本文采用了非对称的距离作为度 M ah a lano b is ( 来自于方言背景普通话的上下文无关与上 HM M 量准则, 主要是考虑到标准普通话和方言普通话发 ) 下文相关的中心基元相同在状态相同的前 HM M 6 () () 音的不对称性, 其定义如式 1和2所示。考虑到提下, 依据一定的准则进行归并, 归并后的状态包含方言普通话数据量的限制, 只用上下文无关的来自于标准普通话和方言背景普通话的 Gau ssian() 作为对比模型。式 1表示了具有相同拓扑结HM M 混合, 这就是。为将扩展的声韵母识别基 SD PBM M () 都有个状态, 但分别包含和构个 K M NGau ssian元集成到的框架中, 对原有的框架进行SD PBM M 混和的上下文无关的声学距离:HM M 了一些必要的修改, 其修改后的结构如图 1 所示。() D Κ, Κ= i j 在上下文相关的建模过程中, 决策树是 HM MK M N 8 最常用而且有效的状态共享策略。例如, 在图 1() ()Ξr Ξd g , 1 , g n mm n ???i, kj , k i, k j , k k = 1 m = 1 n = 1 i, k j , k 通中, 所有以韵母为中心的上下文相关的 an HM M 其中, 过决策树进行状态共享, 叶子节点表示共享状态。另T - 1 ()() () ()2 d g , g = u - u 2 u - u . 外, 图右上角的和 1 分别表示方言普通话基 an an - 1 2 1 2 2 1 2 元和针对方言普通话的扩展基元, 当然, 有些标准普式中Κ和Κ分别表示通过标准普通话和方言普通话 i j 通话基元没有对应的方言普通话扩展基元。是否有训练得到的上下文无关() ; HM M , 表示任意2 d g g 1 2 基元参与归并, 由表 1 决定。个混合的距离。在此基础上, Gau ssian M ah a lano b is 例如: 同样对于类别 0, 就没有要归并的方言定义了2 个阈值和, 作为准则来量化是否产生 T T 1 2 普通话基元, 对于类别 1, 只有和标准普通话相同的新基元。根据距离将所有的标准普通话基元分成 3 类, 如表 1 所示。事实上, 新基元只在类别 2 中, 即d 基元参与归并; 对于类别 2, 将有 2 个基元参与归> 的情况下产生, 此时认为对于同一个发音, 标 T 2 并, 一个是于标准普通话同名的基元, 一个是生成的准普通话与方言普通话之间存在较大差异, 需要生扩展基元, 图 1 表示的就是此类情况, 其中 1 是an - 成一个新的基元来增加此发音在声学空间的覆盖度。和定义为所有距离均值的倍数, 并且< T T T 1 2 1 通过一定的策略同上扩展基元。上下文无关 HM M 。通常, 和通过实验结果进行调整。T T T 21 2 下文相关在状态级进行归并, 图中和1 HM M an an - ) (- + 3 的第 2 个状态同以为中心基元 3 上an an () ()清华大学学报自然科学版2008, 48 4 606 下文相关的共享状态进行了归并, 即树中的其包含30 高质量宽带语音数据和详细的声韵标注 HM M h 信息。在实验中, 声学特征为 39 维的频率倒谱 ,叶子节点。在这种状态归并中和1 的模型状 M e l an an - () 系数 , 包括 13 维倒谱特征, 以及一阶差分态都包含多个混和。同样, 共享状态也包 M FCC Gau ssian 和二阶差分, 利用倒谱均值归一化方法来对特征进括多个混合。Gau ssian 10 行归一化。我们使用进行上下文相关基3. 2H T K 采用从左到右,于声韵母的建模, 每个 HM M HM M 无回跳的拓扑结构; 另外, 每个包含3 个有效 HM M 状态。采用决策树进行模型状态共享。初始的标准 ( 普通话的识别基元集合由 65 个声韵母组成包含 6 ) 个零声母, 这样建立起来的模型将作为标准普通话的声学模型。其包含3 230 个状态, 每个状态包括14 个混合。实验中没有使用语言模型, 目的 Gau ssian 就是在没有语言知识介入情况下, 考察声学建模方法的效果, 识别字典包含406 个无调音节。上海普通 2 话语音数据来源于吴语数据库, 从该数据库中选择了一个包含 20 个说话人, 大约 1 的语音数据的h 叶子节点的深实曲线、浅虚曲线和浅实曲子集作为开发集; 另外一个20 人, 大约1, D EV - SH 线分别表示来自 an、an1 和3 - an + 3- 中第 2 个状态的 Gau ssian 混合。的子集作为测试集, 两个子集没有交, h T E ST - SH 图 2 状态相关的基于基元的模型归并叠。 3. 1 针对上海普通话的基元扩展第个归并状态的概率密度函通过 , SD PBM M i 利用上海普通话的开发集训练上下, D EV - SH () 数′| 可以表示为p x si K () 文无关的2利用式 1得到标准普通; m o no IF HM M )() (s s( ) () r+ p ′x | s= Κw N i ik ik ? 话和上海普通话之间的距离对。考虑到数据量的限k = 1 制以及系统鲁棒性的要求, 通过调整表1 中的2 个阈 M N () ()d d () ( )()1 - ΚΑw N .3 r值, 得到的最终识别基元集合如表 2 所示, 针对上海 mim n im n ??m = 1 n= 1 普通话有 8 个新的基元产生。 () 其中: r表示分布; 表示参与归并N Gau ssian M 表 2 针对上海普通话的基元扩展列表的方言普通话状态的数目, 由表 1 可知, 本文取M = 1 或者= 2; 和分别表示标准普通话状M K N HM M 扩展基元总数类别 0类别 1类别 2 态和方言普通话状态包含的混合的 HM M Gau ssian 17 40 8 8 73 数目; , 一般情况下是一个经验值,表示插值权重Κ 由试验结果决定; 是进行状态归并时, 方言普通Αm 3. 2 扩展基元和结合 SD PBMM M 在中, 属于表1 中的类别1、2 的标准 SD PBM M , 它满足 Α= 1。本文中话相关基元的归并权重m ?m = 1 基元和扩展基元将参与状态的归并, 这依然是基于个基元在新标注中出现的频率。可以看Α是第m m 标准普通话和上海普通话之间的声学差异决定的。可以看到距离还作为是否参与状态归并的一个准到, 状态归并后, 对于标准普通话部分新的权重)(s ()()d s则, 应用此准则可以降低状态归并后的模型规模。同 ( = Κw ; 对于方言普通话新的权重w ′= 1 w ′ik ik imn ()d ) - ΚΑw 。由此可见: 通过调整可以控制标准普 mim nΚ() 时, 式3中的插值权重, 经过比较试验, 设置为0.Κ 通话和方言普通话在归并状态中发挥的作用; 另72。Α由基元在新标注中出现的频率决定。比如对 m 外, 在通过调整还可以控制参与归并的方言普通 Αm N an 于韵母 an , 权重 Α= , 其中和 N 话状态的输出概率。 an an N + N an an 1 - N an 1 分别是an 和扩展基元an - 1 出现的次数。其中3 实验结果 - 本文中采用的标准普通话数据来源于约翰r霍新标注是根据文中第1 部分的描述, 对开发集D EV - 9 数据库,普金斯大学研究中心提供的进行强制对齐得到的。在新标注基础上, 建立 SH CL SP M BN 与标准普通话具有相同拓扑结构的上下文无关的 4 结论这就是图 1 中的“方言普通话上下文无关HM M , 针对标准普通话和方言普通话的发音差异, 本”。此处的每个含有 6 个状态。 HM M HM M 文提出了基于距离度量的基元扩展方法, 并实现了与的集成。文中采用了1 上海普通话作 SD PBM M h 3. 3 与自适应方法的结合为开发集, 对提出的方法进行了验证。实验说明, 该 () 本文采用最大线性似然回归与最大后方法可以将相对错误率降低 17. 3% , 与自适应方法 M L L R () 验概率相结合的自适应方法: 首先在标准相结合后, 还能将错误率再降低 6. 6% , 比单纯采用 M A P 普通话声学模型基础上进行自适应, 将此自 M L L R 自适应方法多降低错误率5. 4% 。因而证明, 本文提适应结果作为的先验知识, 然后再进行基于 M A P 出的方法对解决基于小数据量的方言普通话语音识的自适应。通常情况下, 随着数据量的增加, M A P 别是一种新颖而有效的方案。性能要优于。在目前的数据量下, M A P M L L R 与结合的方式性能优于二者中的任何M L L R M A P 9 () Ref eren ce s 参考文献一个。基于同一个测试集 T E ST- SH , 在不同的声 1 ] H uang C , C h en T , C h ang E. A ccen t issue in la rge 学模型上进行测试, 其结果如表 3 所示。vo cabu la ry co n t inuo u s sp eech reco gn it io n J . I n terna tiona l J ou rna l of S p eech T echnolog y , 2004, 7: 141 - 153. 表 3基于上海普通话的测试结果 TEST- SH 2 ] L I J ing, ZH EN G T hom a s F ang, B y rne W , e t a l. A d ia lecta l 声学模型AM 0 AM 1 AM 2 AM 3 AM 4 C h ine se sp eech reco gn it io n f ram ew o rk J . J ou rna l of ( ) C om p u ter S cience and T ech nolog y , 2006, 21 1: 106 - 115. 音节错误率% 49. 8 40. 6 42. 4 41. 2 37. 9 ƒ3 ] L IU L inquan , ZH EN G T hom a s F ang, W U W enhu. S ta te2dep enden t p ho nem e2ba sed m o de l m e rg ing fo r d ia lecta l 表3 中, 0 表示用标准普通话训练得到的模 AM C h ine se sp eech reco gn it io n J . L ectu re N otes in A r tif icia l I n tel l ig ence, 2006, 4274: 282 - 293. 型, 在上海普通话的错误率为 49. 8% , 通过基于 4 ] T om o k iyo L M . R eco gn izing no n2na t ive sp eech: 的自适应后, 如表中错误率降+ 1, M L L R M A P AM ch a racte r izing and adap t ing to no n 2na t ive u sage in L V C SR 至 40. 6% , 可见通过自适应方法最多可以将相对错D . U SA : C a rneg ie M e llo n U n ive r sity, 2001. 5 ] L I A ijun , W A N G X ia. A co n t ra st ive inve st iga t io n o f 误率降低 18. 5% 。AM 2 为没有基元扩展的standa rd M anda r in and accen ted M anda r in C ] ? 其相对错误率降低了14. 9% , 这同以往, SD PBM M E u ro Sp eech , Geneva, 2003: 2345 - 2348. 的结论是相同的,可以很有效地提高方SD PBM M T sa i M Y , L ee L S. P ro nunc ia t io n va r ia t io n ana ly sis ba sed 6 ] o n aco u st ic and p ho nem ic d istance m ea su re s w ith app lica t io n 言普通话识别的正确率, 尤其是在小数据量的情况exam p le s o n M anda r in C h ine se C ] ? IEE E A SRU. V irg in 下。是扩展基元基础上的错误率 3 , AM SD PBM M Island s, 2003: 117 - 122. 为41. 2% , 与相比, 相对错误率降低了 2. 8% , 2 AM L u ssie r E F. A T u to r ia l o n p ro nunc ia t io n m o de ling fo r la rge 7 ] 这说明扩展基元对于提高方言普通话的识别率也有 vo cabu la ry sp eech reco gn it io n J . L ectu re N otes in 较好的效果。特别的, 当再和自适应方法即3 AM C om p u ter S cience, 2003, 2705: 38 - 77. + 结合使用后, 错误率进一步降低为M L L R M A P Hw ang M Y, H uang X D , A lleva F A. P red ic t ing un seen 8 ] t r ip ho ne s w ith seno ne s J . I E E E T ransact ion on S p eech ( ) and A ud io P rocessing , 1996, 4 6: 412 - 419. 37. 9% , 相对错误如表中所示。相对于4 0, AM AM Sp ro a t R , Zheng T F , Gu L , e t a l. D ia lec ta l C h ine se sp eech 9 ] 率降低了 23. 9% 。由此可见, 基于扩展基元的( )2004. reco gn it io n: f ina l tech n ica l repo r t R ƒOL . 不仅可以很有效地降低方言普通话的识 SD PBM M h t tp: ƒƒwww. c lsp. jhu. eduƒw s2004ƒ 别错误率, 还能够很好地与自适应方法相结合, 可以 (10 ] Yo ung S, E ve rm ann G, H a in T , e t a l. T h e H T K Boo k fo r 作为自适应方法的补充, 在实际应用中作为自适应 ) ( )H T K V e r sio n 3. 2. 1R OL . 2002. C am b r idge ƒ 方法的前端处理方法。U n ive r sity, C am b r idge. h t tp: h tk. eng. cam. ac. uk . ƒƒƒ

                    本文档为【基于小数据量的方言普通话语音识别声学建模】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于小数据量的方言普通话语音识别声学建模

你可能还喜欢