基于实值离散Gabor变换的语音增强算法研究（可编辑）

基于实值离散Gabor变换的语音增强算法研究（可编辑）基于实值离散Gabor变换的语音增强算法研究（可编辑）独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得宝彳婚其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 签字日期: 少/年多月日弓、病学位论文版权使用授权书本学位论文作者完全了解雹%衣学有关保...

基于实值离散Gabor变换的语音增强算法研究（可编辑）独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得宝彳婚其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 签字日期: 少/年多月日弓、病学位论文版权使用授权书本学位论文作者完全了解雹%衣学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权豇彳、呵以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后适用本授权书学位论文作者签名:务乙娲导师签名:笺% 月峰日签字日期: 签字日期:少年如位年月牛日毛工作单位:、中心玄亏瓠岿秘尧坟电话:妇?譬弓,口? 邮编: 通讯地址:弘拓锻启嘶厶?啦;。伤摘要现实世界中,语音信号很难避免受到各种噪声源的污染,语音增强的一个主要目的就是从带噪信号中尽可能的恢复出纯净语音信号。语音增强技术在语音信号处理的各个领域比如语音的识别、编码以及声控交互等方面发挥着重要的作用。本文主要研究基于实值离散变换为分析工具的语音增强方法。论文首先介绍了实值离散变换和语音增强的相关理论,并推导出在语音信号的分析和重建时通过实值离散变换和相应的逆变换至联合时频域的表达式,介绍在将语音信号将语音从时域变换到其他变换域时, 不采用常见的短时加窗傅罩叶变换而采用实值离散变换的优点。论文提出了一种新的基于实值离散变换的谱减法语音增强算法,此算法在联合时频域进行谱减增强,噪声谱估计采用在联合时频域的改进的基于最小统汁和最优平滑的算法,增强后的结果采用实值离散逆变换重建语音信号,实验结果证明,主观测试和客观测试指标均优于传统谱减法和谱减法,且残余音乐噪声更小。论文研究和提出了在过抽样条件下实值离散变换在最小均方误差最优对数潜幅度的估计原则下纯净语占时频谱的最优估计,噪声采用改进的最小受控递归平均法进行噪声谱估计, 实验结果与基于短时傅罩叶变换的等算法的结果进行比较,表明该算法的有效性。论文提出了一种新的基于拉普拉斯模型的联合时频域的语音增强算法,该算法利用语音信号服从分布、噪声服从分布的假设,结合最小均方误差理论,得到了纯净语音分量的估计,实验结果表明该算法在与传统算法假设语音和信号噪声均服从分布相比,语音增强效果更佳。关键词: 实值离散变换,语音增强,联合时频域,谱减法,最小均方误差, .混合分布,, . , , . ?姗 . . ,。 . ?? . ...,.。 , ,. .. . : , . , ,,?目录第一章绪论 .语音增强简介? ..弓言?.. ..语音增强算法简介..噪声的特点研究 ..语音增强算法的性能测评标准 . .实值离散变换理论概述??.. ..短时变换 ..二次时频联合分析.. 变换研究现状?. ..实值离散变换及其快速算法? .语音信号的实值离散变换的分析与处理? ..语音信号的实值离散变换?一 ..语音信号的重建??一 ..语音信号的实值离散变换语音联合时频谱分析?一 .论文研究背景与意义 .论文研究工作与结构安排? 第二章基于实值离散变换的谱减语音增强算法? .基于短时傅罩叶变换的谱减语音增强..传统谱减法介绍??. ..谱减法的改进形式?.. .基于实值离散变换的功率谱减法? ..实值离散变换的功率谱减法.. ..噪声估计 ..算法流程??. .实验仿真以及语音增强结果分析? 第三章基于实值离散变换的最优对数谱估计的语音增强算法? .引言?. 基于实值离散变换的语音增强算法研究 .基于幅度谱的最小均方误差估计算法...? .基于对数谱的最小均方误差估计算法. .基于最优改进对数谱幅度估计算法? .基于实值离散变换的最优改进对数谱幅度估计的语音增强算法 .实验仿真和结果分析 .小结?. 第四章基于拉普拉斯模型的联合时频域语音增强算法? .引言? .基于拉普拉斯模型一高斯混合模型的联合时频域语音增强算法? .实验仿真和结果分析 .结?.. 第五章总结与展望? .总结? .展望? 参考文献??一致谢攻读学位期间发表的学术论文目录. 攻读学位期参加的科研项目??. 第一章绪论第一章绪论 .语音增强简介 ..引言语音是人类进行传播信息和表达感情的主要工具,也是现代信息通信的最基本的手段。语音处理技术在当今数字时代成为一种重要支撑技术,语音处理领域一般可以根据处理目的不同,分为语音编码、语音感知、语音识别和说话人识别以及语音增强等方向【。然而,在实际的应用中,语音处理设备及系统获得和处理语音的过程中各种背景噪声的污染,这些噪声最终使语音处理系统接收到的语音不再是纯净原始语音而是含有噪声的语音,许多语音处理系统如语音识别系统在纯净语音的环境下识别率很高,但是在背景噪声存在的情况下,会急剧下降其识别率,因此,严重的背景噪声一方面会引起听觉疲劳,还会影响语音处理的效果【】语音增强技术就是消除噪声干扰的一种最重要手段,它的一个主要目标就是从带有噪声的语音信号中提取出尽可能的原始纯净语音,语音增强是解决噪声污染的一种有效方法,由于干扰的发生一般都具有随机性,并无直观规律可言,导致语音去噪后得到原始纯净语音信号是非常困难的。在这种客观条件的限定下, 语音增强的主要能够实现的目标一般来说,就是通过对含噪语音的去噪处理,以尽可能达到消除背景噪声和增加语音质量之问的一种最佳平衡,从而最大幅度的提升语音处理系统的性能【嵋】。 ..语音增强算法简介作为语音信号处理的一个关键环节,语音增强这个研究课题早在上个世纪的年代就受到了人们的关注,此后许多人对这一课题进行了研究。最早是实验室研究人员对电话系统的音节清晰度进行了系统的实验。从于年提出谱减法语音增强算法不始,和提出的卡尔曼滤波算法【】,基于信号子空间算法【丹】,将人类听觉特性引入出现的听觉掩蔽效用的语音增强算法基于实值离散变换的语音增强算法研究【 ,利用人工神经网络实现语音增强算法【】,盲源分离的语音增强算法等‘】。语音增强算法从本质上来看,可以看作是一个预测问题,也就是从含有噪声的语音信号中预测出纯净语音信号。不同的分类标准下,语音增强算法有不同的种类, 语音信号和噪声信号在一个通道时对应的是单通道的语音增强算法,与之相对应的是多通道语音增强算法,手机就是典型的单声道语音处理系统。多通道语音增强算法一般是针对多通道的语音系统而言的,多通道语音系统是指由麦克风阵列对语音进行采集,使用阵列处理技术进行处理,代表性算法有自适应波形形成算法等。需要说明的是,单通道语音增强是语音增强的基础,故本文主要针对单通道语音增强进行研究。在语音增强算法中有一类算法取得了突破性进展即基于语音谱幅度的统计模型的语音增强算法,代表算法有语音谱幅度的最小均方误差和对数谱幅度的最小均方误差的语音去噪算法,这两种算法最先由和,最先于年和年提出,之后许多学者进行了改进,如提出的基于最优改进对数谱幅度估计算法【。后来学者又根据不同的概率分布函数来模拟语音谱幅度分布,于年首先提出使用分布作为纯净语音谱幅度分布的算澍】,后来和等人使用了语音谱幅度符合拉普拉斯分布进行语音增强处理【。】,可以预计这类算法还将在未来一段时间受到学者们的重点关注。另外,根据对语音信号的处理的域不同可以把语音增强算法分为变换域语音增强算法以及时域语音增强算法。时域语音增强算法不需要对语音信号先进行变换和逆变换运算,而是在传统的时域直接对含噪语音进行处理,恢复出纯净语音信号的增强算法,代表性算法有参数和模型的方法【、子空间处理算法【】等。变换域语音增强算法是将语音先变换到其他变换域,然后在变换域对语音进行增强和分析处理的方法,处理完成后再通过相应的反变换恢复出估计的纯净语音分量。根据语音变换的方法不同可以分成不同的变换域处理算法,常用的变换方法有离散傅里叶变换、.变换、离散余弦变换以及小波变换等,相应的算法有短时谱幅度的语音增强算法【, 、基于.变换的语音增强算法【】、基于离散余弦变换‘,的语音增强算法和小波变换语音增强算法五等,变换域增强算法中一般来说语音和噪声较之在时域相关性更小且特征更明显,因此一直是学第一章绪论者的研究重点。本文研究和提出的新的语音增强算法也是变换域算法,相对于传统的常见语音变换手段,本文引入实值离散变换将语音变换到联合时频域进行处理分析,分别提出了第二章的联合时频域的谱减语音增强算法、第三章的联合时频域的最小均方误差语音增强算法和第四章的联合时频域下基于语音和噪声分布模型的语音增强算法。 .噪声的特点研究噪声的特点是语音增强算法中必须考虑的决定性因素,设计一个好的噪声模型对语音增强算法是非常重要的。噪声广泛地存在于人们的现实生活中,如办公和生活区的电器噪声,工厂中的机器声及街道、广场等环境中嘈杂的噪音等等【。这些噪声由于来源于实际语音处理的环境,可以说具有偶然性和无规律性,不易被人们掌握其原理。在语音处理的实践中,一般可以认为,噪声可以分为两类, 一类是加性噪声,一类是乘性噪声。由于乘性噪声可以通过同态变换变为加性噪声,故本文中主要讨论的是加性噪声干扰下语音信号的增强问题。加性噪声又可以根据噪声源的不同分为不同的种类,如我们经常处理的周期性噪声和宽带噪声等。周期性噪声周期性运行的机械设备是周期性噪声的主要来源,典型引起来源有发动机、交流电和扇等。冲击噪声时域波形中瞬时出现的窄脉冲是脉冲噪声的主要判断依据’】。宽带噪声宽带噪声是噪声类型中比较难以去除的一种噪声,因为它具有和语音信号无论在频域还是时域都一致重叠的特性,有许多噪声可以化为宽带噪声,如风和人的呼吸和热噪声等。语音干扰语音干扰就是在单一信道中,其他语音信号和纯净语音同时传输时的情况引起的噪声,典型案例就是在语音处理环境中多个人说话引起的干扰。噪声分类和特性的研究在语音增强领域是一个重要突破方向,值得重点关注, 因为不同的噪声显然需要不同的噪声处理方法,噪声一方面破坏了语音的一些本质特征,改变了语音的原有模型参数,使得语音质量失真增大,另一方面还会引起现象的发生,现象就是人们在安静环境和噪声环境下的发音基于实值离散变换的语音增强算法研究方式会发生改变,这回从根本上影响如语音识别系统的性能。总而言之,噪声会对语音信号带来非常大的影响。由于噪声种类来源众多,不同的噪声性质不同导致处理方式不同,所以也难以找到一种通用的能适用于各种噪声环境的语音增强算法,这就要求语音处理领域的研究学者面对不同的背景噪声情况时区别对待。 ..语音增强算法的性能测评标准语音增强的质量和性能是衡量一个语音增强算法或语音增强系统优劣的关键标准之一,语音质量的评价不但与语音学、语言学、信号处理等学科有关,而且还与心理学、生理学等学科有密切的关系,语音增强算法的性能测评标准的设计也就成为语音增强处理领域中~个重要的复杂的课题。一般来说,按照评价的主体为标准进行分类,可以分为两类,分别为客观评价和主观评价。 ...主观评价 ..主观评价方法是符合人类听觉对语音质量的感觉,目前得到广发应用,缺点是组织主观试听需要消耗一定的人力物力和时。常用的方法有平均意见得分和判 , 、判断韵字测试等,其中最常用的是方断满意度测量, 法。得分采用五级评分标准,如表.所示,即将增强后的语音质量按照优到坏分为个不同的分数对应的等级。本文在后述章节的实验性能评判中采用此种方法作为主观评判方法。表.语音质量主观测评标准一判分质量等级语音失真级别优无察觉良偶尔有察觉中有察觉差明显察觉但可以忍受第~章绪论 ...客观评价语音增强效果的客观评价是通过输入信号与输出结果之间的比较得到的,按照某种能反映语音的参数来进行客观比较,依次衡量语音增强前后的失真程度和去噪效果。与主观评价相比,它能定量的衡量出语音增强效果的优劣且容易实现, 但不能全面反应语音的整体质量,一般与主观评价标准搭配使用。客观评价指标有很多,许多学者并在此领域进行了深入研究,如.和【矧等人提出了 , 许多新的客观测评指标,从衡量效果来看,常见的如信噪?? 衡量效果比较优秀,分段年对数谱失真测度,? 信噪比是信噪比的评价效果的改进。信噪?. , 语音增强算法衡量指标中最常用和常见的方法之一是信噪比,它是对宽带噪声的失真衡量的比较,其定义为,设表示为含噪语音,分别纯净语音信号,表示语音增强处理后输出的增强语音,则可表示为 ?疗 ?刀一衲式中,定义为时域采样点数的总数,由于与语音质量的主观属性并不一定有确定的联系,因而信噪比往往并不能充分反映信号的时变特征。分段信噪 ? , 由于语音处理过程中一般是分帧考虑的,信噪比给出的是整个时域段的一个输入和输出的平均,显然有不合理的因素,帧问信噪比就是针对这个缺点进行的改进,对每一帧进行考虑,计算每一帧的信噪比,再取平均即可得到, 可表示为三, 删专舡小萌丽:, 式为语音分帧考虑的帧总数,和,依次为帧的长度和帧的次序。帧间信噪基于实值离散变换的语音增强算法研究比对语音评价进行了分帧考虑,计算不同帧中得信噪比均值,是针对对常规信噪比的无音和有音阶段不加辨别的对待所有波形的缺点的一种有效改进,从式 .可以看出,分段信噪比值越大标志着语音增强效果越好。对数谱失真测度, 是一种常用的频域客观失真测量标准,频域失真 . 测度与时域测度相比,一般来说性能更可靠,信号的对数谱失真测度计算式如下七, 肋专薯彘鬟似,文州,砰式中.,为语音分帧考虑的帧总数,?帧长度,从式.可以看出,如果值越小,那么语音增强后的频谱效果更加与原始语音频谱一致,从而效果更好。此外感知语音质量评价标准、 .失真测度距离等也是研究者们经常使用的客观评价标准,本文根据实验所用噪声环境,在算法评价时一般采用两种以上客观测评方法结合评价算法的性能。 .实值离散变换理论概述法国著名工程师于年在提出了变换理论,在这之后,通过变换将时域信号变换到频域变成可能,而频谱分析作为信号处理和分析新的方法不始得到非常广泛的应用,变换是一种典型的可逆变换, 逆变换实现信号从频域变换回到时域。但是,变换是在信号整体上将信号分解为不同的频率分量【,显然不具备时问和频率的定位功能,因而它仅仅适合处理平稳信号,现实世界中许多非平稳信号变换只能给出一个总的平均效果,这也导致了变换的局限性。为解决这种局限性,为了克服上述问题,学者们不始研究联合时频分析方法即将信号从时域变换到时频联合域的方法,这些方法可以分为三大类:线性变换, ,变换、非线性变换?分布, 分布和参数化时频分析。时频联合分析方法的出现解决了变换处理非平稳信号的缺陷,英国物理学家于年提出了变换【】,紧接着年等人【】为处理语音信号接着提出了短时傅里叶变换第一章绪论。年,将在年提出的分布引入到信号处理领域,开启另一类不同类型的非平稳信号的时频表示法,此后许多学者还提出了许多新的时频分析方法。 ..短时变换设工是连续时间信号,若用一个以为中心的窗函数‖?去截取并做傅里叶变换,定义为工的印,即 .. ,:彳矿一,伽此式称为的短时傅里叶变换,也可以称为加窗的傅里叶变换。其中, 通常称为分析窗函数。从公式.中可以看出,在时刻,.万瓦是信号乘以平移的窗函数‖?后在做变换,因此可以有效的抑制窗函数以外的信号,反映其在该特定时刻的局部频谱特征伫。 ..二次时频联合分析年于研究量子力学时候提出了分布的思想,在把分布应用于信号处理领域才得到人们的重视‘,且被认为分布也是时频联合分布中最重要的一个分布,并有许多新的进展,故本文对此作简要介绍。信号的分布定义为四: ,., ,厂, 工三’一三一,万厂, 的互分布定义为: ., ,厂, ‘三工;,一主一,万厂, 若,则 . ,力,力口恐,口.,,力】从上式.可见分布虽然时频聚集性高,但是交叉项干扰严重, ~.,。彳‖一,口州基于实值离散变换的语音增强算法研究影响其分辨率。此后,.】又给出了一种广义的双线性时频分布的定义, 即分布,公式如下: 鼬?去肚和“妒“一手伽弘伊荆捌善. 其中咖,是处于善,平面的核函数,它决定了,厂的特性。 .. 变换研究现状在年, 就提出了变换的概念,并给出定义 . ??, / 这就是连续时问信号的展开,式中的,胛是信号工的展开系数【】。变换一经提出,就被普遍认为是信号处理中信号的表示与分析的最好的方法之一。但是,变换展开式中的窗函数厅?并不构成『交基,导致计算变换的系数,变得比较复杂,这也一直限制了变换理论的应用。本人在文献也只是提出了~种近似计算,刀的迭代求解方法。近十几年来,许多学者在变换方面取得了许多进展,主要有以 ,、和.等人研究的双正交分析法,为代表的框架‘理论,等人提出的利用神经网络计算变换系数的方法。最早给出了临界抽样条件下计算变换的解析方法, 本文作者导师.陶亮等人【在的辅助双正交分析方法基础之上,将系数求解的复值计算推广到了实值计算,即实值离散变换方法【,从而有效降低了双交分析法计算的复杂度,又在此基础上,研究出了多抽样率的并行格型结构实现块时问递归的实值离散变换快速算法【,具体内容可参考文献【】,在下一节中本文会对实值离散变换单独叙述。 ..实值离散变换及其快速算法根据语音信号的特点,本节讨论有限长时『白序列的实值离敞展不和变换以及以学者陶亮为代表的提出的快速算法,作为实值离散变换的基础知第 ~章绪论识部分复值变换的基本理论以及双正交函数分析法,可参考相应书籍如文献,此不再赘述。设是周期为三的有限长时间序列,则的实值离散展开定义为 ?,一 . 后??口聊,玎露,。七对应的实值离散变换的定义为 ,,?尼死,。七式.和式.称为变换对,其中 . .。七?/ . 无。足夕尼一/ 定义为周期,且满足而廊,上式中我们使用了下整数、、露和 ,其中为抽样角频率,离散周霄,依次定义为矿/。?/ 廊,离散变换的期函数抽样后,//?厕厨瓦临界抽样条件相对应为或者厨、?,即个系数米表示一个离敞时问周期信号,当?厨上时为欠抽样的条件,这时,刀的个数少于工后的样点数,臣口×个系数来表示一个离散时间周期信号,明显对石表示是不完备的,这种状况下容易导致重建过程信息的丢失。石七是综合窗函数厅尼的周期拓展, 少尼是分析窗函数足的周期拓展, 依次可定义为 . 石七?五尼让石足 . 少后?厂七让尹尼一般石尼需要满足约束条件,即满足单位能量的约束并可表示为下式七四驴忌这种情况下,盯是周期实数函数,如下: . ,, ,,?,?,?,? 厅七与少足满足写成如下式的双证交条件】基于实值离散变换的语音增强算法研究工一 . ’』九删/:击烈呐烈功正 ??丙一 ?,雅?露一, 对上式写成矩阵形式如下 . . 其中: . /,,,..., ’ . 尹,尹,?,’,,?,一上两式中长度是厩的长度是 ,是阶矩阵向量,可写为 . ,尼/ 当厨和?或厕条件下,式.中的解是唯一,日是一分块『矩阵,如果能选择合适的下整数和下整数,就可以完全保证矩阵是可逆的。此时,由式.可得: . :~. 当在廊过抽样条件时式.中/的解显然是不唯一的。这时,我们 ’‰’时,可以对式.取广义逆解规定约束条件最小范数 . 。只要求出了双正交对偶分析窗之后,结合式.和式. ,,?七夕尼一朋?删万,七/? . 九一 ??.。/ 其中尺。,足?,/。式.可后一求和项中具备点快 ×次实数相速的的结构,从而计算复杂性为点. 乘厨一××个实数加,分析可知,与文献【】中提出的求系数方法相比,此种计算复杂性代价要小。同理,?点快速的运算同样可以用在信号的重建里,将式.代入式.得第一章绪论 . 七?石七一村?口优,刀厂』’ 窆砸一村萎咖警令尼叫‰,,,...,露一,,,...,,则上式改写为一 . ‘ 口,, ? /咖孕篓 ×次实数相乘一×个上式的计算复杂性为×点实数加,与文献相比,计算复杂性更小。 .语音信号的实信离散变换的分析与处理在.节中介绍的实值离散变换的基础上,本节主要研究如何使用来处理语音信号,以及如何有系数来计算语谱图和时频分析以及信号重建等问题。 ..语音信号的实值离散变换语音信号石经过抽样离散后的序列为工七,一般来说,的序列长度比较长,根据.节中所述,语音信号比较适合使用长序列的实值离散变换米处埋利分移。对尼及综合窗矗七长度分别为和,则进行周期延拓化个周期序列 . ;尼和五七, ., ;七,;七圮。,言主:兰手三三 . 礅;”训髅氅三匕式中.:.?.?.?,?。则;尼的实值离散展不由前文知可扩展为 ?,一 . ;尼??口,,露,。七同样,相应;七的实值离散变换公式也同样扩展为如下式所示 . 口肌,咒:/?;七死,。尼:篁尼冗,。七一脚 .基于实值离散变换的语音增强算法研究其中: . %.。七?/ . 死.。尼?/ 其中少后是综合窗五相对应的分析窗,也定义为周期的序列,有 . ?”叫啦戮三上式中,汪,?,?,?,?。雨一.正整数?、、厨和?的含义上一节中已有叙述,不再重复,的临界抽样条件相对应为朋?或者厨、 ??,即个系数来表示一个离散时间周期信号,当面订时为欠抽样的条件,这时,的个数少于的样点数,即个系数来表示一个离散时间周期信号,明显对工表示是不完备的,这种状况下容易导致语音重建过程中信息的丢失【】。根据.节理论得知, 石与少七双下交条件‘可推导成下式形式 “. ?砸击跏刖』’ 荟石七棚/七 ?厨一.??一一改写成矩阵形式: . .:矿其中: . /,,,...,‘ . 尹,夕,?,夕一,,?,’ 是/×一丙×三实数矩阵,其结构是: . 一一,七/丙其中,??/一,??一一,?。下面讨论在临界抽样和过抽样条件下式.的解,在把式.看作一个超定线性方程的情况下,在临界抽样一般不存在,而在过抽样条件下,一般具有多解,其中最小范数解可以表达为 . ‰///一矿第一章绪论求出,可利用快速离散变换计算变换系数工一 ,,夕/ . ‘一 ,一 ? ??/ 式.中七?霄,/,观察式.显然可利用?点快速的进行计算,在注意到/尼取的范围,计算还可以进一步简化。 ..语音信号的重建快速计算方法可以在语音信号的重建中使用,从而可以加快语音信号的重建后?石七一所丙?口朋,门灿等型一厕窆咖川湖警』’ 令七叫心,,?.,厨一,,,...,一,则上式改写为如下: . ‘ 以。一。? 咖警丕式.中第二个求和项为一点的,若注意到定义的取值范围, 在上式中??除以后余数值若是在和之间,则有 . ? 因此式.计算量可进一步减少,经过本文后续章节的多次仿真试验验证,语音信号的原始信号的均方误差的数量级仅为?。 ..语音信号的实值离散变换语音联合时频谱分析语音信号的时频分析现有的研究一般是基于短时变换,在本文研究范围内,需要扩展到实值离散变换到联合时频域进行分析。其中语谱图在确定语音基频、说话人语音特征等方面骑着重要作用。下面以语谱图为例进行分析。根据文献,】中复谱图和语谱图等定义,可知复谱图.。的值为 . 。,。以删一。/删一口删一。/ 这罩,:?,相对的语谱图值为气。删 .基于实值离散变换的语音增强算法研究 . ,。%,。一/《口一口。一/ ,,,?,;,,,?/ 根据相关实验可知,采用不同的分析窗和综合窗宽度和时域和频域抽样点数可以影响到语谱图中时间和频率的分辨率。 .论文研究背景与意义语音是人们进行交流的最重要手段,也是人机交互的最主要的方式。随着科技的进步,移动电话、声控系统、车载导航等语音信号处理系统已成为人们的现实生活中必不可少的一部分。这些语音信号处理技术如移动电话通信给人们带来便利的同时,也给人们带来了新的问题,移动电话在使用时,由于各种噪声源的干扰在通信过程中会伴随着各种各样的背景噪声,如交通噪声、人群噪声、机场噪声等,这些噪声一方面影响了移动通信的质量,也会增加受听者的疲劳度,影响语音的质量。声控系统中在纯净语音环境下性能优越,但随着噪声的增加如多个说话人噪声的时候,语音识别控制能力急剧下降。因此,以消除背景噪声为目标的是语音增强技术受到了越来越多的重视。此外,在语音编码领域,语音编码一个追求目标是在低速率下得到高质量的语音编码,但由于噪声的存在,是低速下的参数编码错误率很高,导致出现解码后语音不可读现象,进行语音增强作为预先处理就显得极为重要。总之,语音增强技术是语音处理技术中范围最广泛的一个分支,对于语音增强技术的研究具有重要的应用意义。本文课题研究是在国家自然科学基会项目.的资助下完成的。 .论文研究工作与结构安排本文主要针对实值离散变换的联合时频域语音增强算法进行了系统的研究,在回顾和总结已有语音增强研究的基础上,针对联合时频域和概率分布模型进行了语音增强研究,提出了自己的解决方法,并相应利用进行了仿真实验。论文的研究工作如下: 针对传统谱减法在将语音信号从时域变换到时频域时一般采用工具, 本文尝试用作为从时域到联合时频域的桥梁,提出了基于的谱减第一章绪论法语音增强,比与传统算法进行了比较。系统研究和比较了各种均方误差估计的短时谱幅度语音增强算法并用对各种算法进行了仿真实验,结果表明基于的最优改进对数谱幅度估计的语音增强算法在各种算法中性能最优。针对在语音增强算法中一般假设语音和噪声服从高斯分布模型的不足,提出了基于的混合高斯模型的语音增强算法,即假设语音信号概率密度函数符合拉普拉斯分布,而噪声符合高斯分布,算法的分布假设更加符合语音和噪声信号的处理,实验证明语音增强的效果的优越性。论文的结构安排如下所示: 第一章,绪论回顾了语音增强基础知识,对本文使用的语音信号处理的工具实值离散变换理论和利用此工具进行语音信号处理的方法进行了简要的介绍,并给出本文的研究成果和主要内容。第二章,详细介绍作者提出的基于的谱减法语音增强算法,对语音噪声估计算法进行了描述,文中给出了仿真实验,分别用客观和主观测评标准进行评判算法性能。第三章,系统研究和比较了各种均方误差估计的短时谱幅度语音增强算法并用对各种算法进行了仿真实验,并给出相应的结果和评价反馈。第四章,给出了分布模型的理论和研究状况,并指出在联合时频域语音和噪声信号更加符合超高斯模型,在混合高斯模型下,利用结合均方误差提出了一种新的语音增强算法,对算法原理和流程进行了描述,并给出对比实验和结论。第五章,对全文进行了总结,对提出的三种算法进行了分析和比较,并对下一步的研究工作进行了展望和设想。基于实值离散变换的语音增强算法研究第二章基于实值离散变换的谱减语音增强算法在第一章中本文介绍了利用实值离散变换进行语音处理的方法,同时指出与传统的短时傅里叶变换相比,在语音处理领域采用实值离散变换这个时频分析工具的优点。在语音处理方法中需要将语音从时域变换到频域时,均采用短时加窗傅里叶变换,而采用其他时频分析工具如本文采用实值离散变换的谱减法文献并不多见。正是基于此考虑,本章从短时幅度谱估计算法中最经典和易于实现的谱减语音增强算法出发,引入实值离散变换, 提出了一个新的谱减法即基于实值离散变换的谱减语音增强算法,并给出仿真实验,将实验结果与传统以及改进的谱减法结果进行对比分析,本文提出算法主观试听音乐噪声更小,客观评价指标也表明本章提出算法的有效性。 .基于短时傅里叶变换的谱减语音增强如第一章叙述,语音增强的方法主要有:基于短时谱估计的语音增强算法】、基于人的语音感知特性的语音增强算法【、基于信号子空’日的浯音增强算法【?、基于语音生成模型的增强算法【等。基于短时谱估计的语音增强算法由于充分利用了在频域中语音和噪声之间的特征区别和短时一般认为内的语音和噪声之间较小的相关性这两点优点,使得基于短时谱估计的语音增强算由于其计算法在单声道语音增强算法中最常见,而谱减法量小,易于实时处理等特性在实际语音系统中得到广泛应用。该算法首先由于年提出【】,后来有许多学者对此进行了改进,这种方法的实现原理就是从带噪的语音信号的谱幅度中直接减去噪声信号的谱幅度,然后利用人耳听觉特性也就是对声音相位信息不敏感的特点,使用含噪语音的相位结合增强语音的谱估计恢复出增强后的语音。谱减法一大不足容易产生“音乐噪声”。第二章基于实值离散变换的谱减语音增强算法 ..传统谱减法介绍阪砹嗓声为加性噪声,则笛噪声语音信号【甩叫写为 . ,刀其中和分别代表纯净语音信号和平稳加性噪声,且统计不相关。语音信号处理为避免截断效应,需要分帧加窗处理,然后对刀和刀进行离散变换得到, . 】,尼:】,七/旷尼:?,一/ 』 . 跗阳袱纠萋咖‘,等式中缈尼为纯净语音信号的相位,矽七为含噪语音信号相位。则由于语音和噪声信号的不相关有 . .’ 七后后七木七难七其中七和相互独立,且满足零均值高斯分布,则有 . 砸七眦?眦’ 由于语音信号是分帧处理的,有 . 一般采用语音无声阶段的信号功率潜足作为噪声功率谱七的估计值,故可得到增强后语音的幅度谱雪七 . 足一尼三对上式可以写成增益函数的形式,定义增益函数尼雪七/,定义后验信噪比尼】,足/则式.可改写为 . 陆七.基于实值离散变换的语音增强算法研究足一妻由于估计噪声信号谱幅度时候会存在一定的误差,导致后会取到负值,将失去其意义,故需要对七限定其最小值,一般要大于零。在通过式.求得雪尼后,利用含噪语音信号的原始相位,通过离散傅里叶反变换重建增强后的语音时域信号。 . .,妒忌 , 总结来说,其功率谱减法框图如下图.所示方差图.功率谱减法算法示意图? ..谱减法的改进形式针对上一了中介绍的谱减法,大量的研究工作围绕改善谱减法语音增强效果展不,对谱减法进行了许多有益的改进。如使用下面的广义谱减法 . 一寿‖眦参数的引入控制谱减程度,可以观察式.和.知道,,‖就是普通功率谱减法,,‖就对应的是谱幅度相减法。增大‖和调节会调节增益函数,减少噪声,但也会引起语音失真度增大,,‖具体值需要在实际应用中确定以取得最优的语音增强效果。 .基于实值离散变换的功率谱减法上文介绍到,在各种经典和改进的谱减法算法中需要将语音从时域变换到频域时,均采用短时加窗傅晕叶变换,而采用其他时频分析工具如本文采用实值离第二章基于实值离散变换的谱减语音增强算法散变换的谱减法文献并不多见。从本节开始,采用实值离散变换处理语音信号基于以下考虑:第一,与短时傅里叶相比,由于采用高斯窗函数而具有时频带宽最小的特性,相比短时傅里叶的其他窗函数如汉明窗对语音信号分析更加细腻,更易区分语音谱和噪声谱;其次,谱减法基于语音在较小窗时间内是平稳信号这一假设,但语音信号本质是非平稳信号,许多文献表明舶】与短时傅里叶相比更适合处理非平稳信号;另外,基于学者陶亮等人的研裂】,本节可以通过在中通过对抽样率参数进行控制而确定最优语音增强效果;最后,在增强后的信号重建时,本节利用目前最快的算法并行格型快速算法【】可快速重构语音信号,算法复杂度与短时傅里叶相比更小,且失真度更小。本节采用基于最小统计和最优平滑的噪声估计算法【,,提出了基于实值离散变换的谱减法语音增强算法,为了验证本节提出的算法的有效性,评价本节的语音增强性能,进行了仿真实验,实验表明本节提出的算法在信噪比和语音主观试听质量上都优于其他经典算法。 ..实值离散变换的功率谱减法如前面章节所一致,假设噪声为加性噪声,在分帧加窗处理情况下,假定语音信号短时平稳,噪声和语音在这种情况下相互独立,则含噪声语音信号可表示为 , . 其中和分别代表经过采样离散后的纯净语音信号和加性噪声,且统计不相关。设足,,,品七,,和足足,,分别为,甩,刀,咒的根据. 式得到的实值离散变换系到,有下式成立: 刈?丢驰驰舻矿】 . 其中,为含噪语音信号的联合时频谱,后为帧号时刻,,代表第,个频率分量,?为频域抽样点数,且由于和相互独立,且变换具有线性性质,有下式成立 ,,,,后,, . 上式中,,和,,分别表示纯净语音和噪声的第尼时刻第,频率点的联基于实值离散变换的语音增强算法研究合时频谱,蕙义如第一苹.节中所描述的一致。实值离散变换的功率谱减法就是通过噪声能量谱的估计,用谱减法公式计算增强的语音时频谱 . 尼,,,,一七,, 在式.中在中陟后,可以直接得到,但噪声能量谱七,无法精确得到; 需要噪声估计方法得到,传统方法是使用系统无语音时的统计平均尼,, 来代替,在..节中本文采用最小统计和最优平滑的噪声估计算法,则可知纯净原始语音功率谱的估计尼,叫计算公式为尼,后,,一尼,, . 求得雪后,,基础上可以直接得到?七,,.且由于人耳对语音信号频谱分量的相位感知不敏感,可利用含噪语音的相位信息,则增强后的语音信号可以通过获得: 墨七,,,功一尼,, . ?,一 . ,??文七,/ 七刀即为增强后的语音,综上所述,本文提出的基于实值离散变换的谱减法语音增强的系统框图如图.所示。图.基于实值离散变换功率谱减语音增强算法系统框图第二章基于实值离散变换的谱减语音增强算法 ..噪声估计在第..节中,需要估计噪声能量谱时以求得纯净语音功率谱的估计,本文采用提出的最小统计和最优滤波噪声谱估计算法【,,首先对,,进行一阶平滑处理,,,为平滑后的功率谱 . ,,,?,,?,,, 其中,,,是平滑滤波参数,是在希望尸后,,尺可能接近噪声功率谱密度七,, 的条件下构造最小均方误差准则下得到的【,引,然后在一定时间窗内搜索出平滑后的粗略噪声的最小值己;。七,: . 名。后,,,,’只。尼,, 调只。后,,在搜索中是在个,,估计中找到最小值,文献】建议为减少延时,对进行分子窗处理,其中,和分别为子窗数和一个子窗中的值得数目,在每个中进行一次最小值更新。最后对最小值进行偏差补偿,得到噪声的无偏估计值盯?尼,,. . ,,。,足,,只。露,, 其中吃;。为补偿因子,具体含义可参考文献。 ..算法流程综合上述内容,实值离散变换的谱减法语音增强的具体操作步骤为: 步骤:对语音信号进行变换,将语音从时域转换到联合时频域,得到变换系数矩阵七,,维数木。、步骤:采用第节噪声估计方法,计算出噪声功率谱矛后,,维数木。步骤:使用功率谱减法对语音信号进行增强,对坎七,,矩阵每一个点进行增益更新,利用%后,,的含噪语音相位信息,得到纯净语音的估计七,,。步骤:利用式.和式.将语音信号进行逆变换,输出增强的语音信号。基于实值离散变换的语音增强算法研究 .实验仿真以及语音增强结果分析为验证本章提出算法的语音增强效果和性能,本文使用了进行了仿真实验,并将基本谱减法. 【】、改进的噪声估计谱减法. 【和本文算法进行性能比较。本章实验中纯净语音选用语音数据库样本中的男女声各段,噪声采用数据库的高斯白噪声、汽车噪声、和噪声,噪声和纯净语音采样率均为,混合产生范围的含噪语音,测试结果既包括客观测试结果,也包括主观测试结果。客观测试结果包括分段信噪比和对数频谱距离,其定义: .?’ :了./箩,:了苎.:一尝./:三一了善习而而网’ 包, 肋矧而?篙。纠竹其中,表示语音帧数。在实验环境中,本文通过设置不同的过抽样率参数进行控制,确定最优语音增强效果时为过抽样率为。表.给出了不同噪声环境下三种算法的两种客观测试结果,分析表.可知,本文提出的算法与其他两种算法相比,分段信噪比值大于.和.算法,表明本文算法去噪能力更强;对数谱距离本文提出算法小于.和.算法,进一步表明了本文算法增强后的语音与原始语音更接近,语音质量更好。表.二种谱减法、.、的客观评价结果《,?, 噪声类础算法输入信噪比输入信噪比 . . . . . . . . . 高斯向噪声 ? . . . . . . . . . . ? . . . . . . . . 汽午噪卢 . . . . . . . . . . . 第二章基于实值离散变换的谱减语音增强算法 ? . . . 。 . . . . . . . 。噪声 . .粥 . . . . . 客观指标不能完全体现语音听觉效果,为验证本文算法的性能,本文进一步给出主观测试结果,主观测试结果包含两部分,一部分是对比增强语音前后的语谱图,直观显示噪声残留和语音失真情况;另一部分是非正式的主观测听得分情况,实验采用三种谱减法实验结果中抽取段秒语音拼接成秒语音文件播放给同实验室个没有语音研究背景的个体对语音文件进行打分,满分为分,取其平均得到表。从语谱图可以看出,使用实值变换的谱减法与.增强后的语音结果相比,保留语音信息更强,且基本不含音乐噪声, 与?算法处理的结果相比,去除噪声信息和保留语音信息更强,且主观试听可知音乐噪声信息基本消除,得分更验证了方法的优异性。算法增强后的实验语音信号的语谱幽 .算法增强后的实验语音信号的语谱图基于实值离散变换的语音增强算法研究 .算法增强后的实验语音信号的语谱图纯净语音的语谱图图. 时含汽车噪声各种语音增强后的语谱图表?三种谱减法、.、的得分表,?, 得分噪卢类型算法输入信噪比. . . . . . . . 高斯白噪声 . . . 。 . . . 汽车噪卢 ? . . . . . . . . . . . 噪声 ? . . . . . 本章提出了一种基于信号变换工具新的谱减语音增强算法,在语音信号增强过程中,可利用目前最快的算法并行格型快速算法快速分析和重构语音信号,算法复杂度与短时傅里叶相比更小。客观测试结果表明了本文提出的算法在分段信噪比和对数谱距离等方面都优于目前主流代表性方法,主观测试结果表明残留“音乐噪声’’更小,进一步验证了本文算法的有效性。在这旱需要指出的是,基于实值离散变换进行的语音增强并不限于谱减法,理论上任何需要将语音变换到频域或者时频域的算法都可以使用作有用的尝试,这就引出了本文第三章内容,将与最小均方误差估计结合起来,提出一种新的语音增强算法。第三章基于实值离散变换的最优对数谱估计的语音增强算法第三章基于实值离散变换的最优对数谱估计的语音增强算法 .引言在本文第一章所叙述的语音增强方法中,维纳滤波增强算法是在高斯模型假设下的平稳条件下时域波形的最小均方误差估计,是关于谱估计的最优估计,但并不是谱幅度的最优估计。相关文献表明【”】,由于人耳对语音信号频谱分量的相位感知不敏感,可利用含噪语音的相位信息,从含噪语音信号中恢复出增强后的语音信号,基于短时谱幅度估计的语音增强算法中下是利用这一特性,考虑利用含噪语音中纯净语音谱幅度的最优估计来提高语音增强算法的性能,从谱幅度的角度来来恢复语音信号。谱幅度的语音增强的重点有三个方面,第一要假设一个合理的语音和噪声的分布概率模型;第二是确定参数估计的原则,一般来说有三种,分别是最小均方误差,最大似然估计和贝叶斯估计和最大后验概率估计:第三是噪声谱的估计和语音帧与噪声帧的区分。在文献】提出了基于高斯模型假设的谱幅度的估计方法,文献】根掘人耳对语音信号的强度与幅度谱的对数成『比的关系改进提出了基于对数谱的估计算法.,并给出实验证明和.算法有效的解决了音乐噪声问题,一般情况下,相同的实验环境和背景噪声条件下,语音增强效果相比谱减和维纳滤波效果更好。在本章所研究的算法中,针对目前主流的或.算法中, 语音的幅度谱或者对数谱的取得一般是通过短时傅甲叶变换,在学者周健和本文作者的研究】,与第二章描述算法中一致的是,在将语音信号从时域信号变换到频域的变换过程中,并不使用短时傅罩叶变换,而使用实值变换,并将频域的对数谱幅度扩展到联合时频谱的对数谱幅度,进行语音增强,并给出仿真实验和结果,验证了扩展算法的有效性能,分析实验结果后,针对语音和噪声的分布模型的假设的缺陷传统文献认为语音和噪声符合高斯假设进行改进, 基于实值离散变换的语者增强算法研究引出第四章内容。 .基于幅度谱的最小均方误差估计算法概述首先给出含噪语音和噪声以及纯净语音的表达式,假设噪声为加性噪声,在分帧加窗处理情况下,假定语音信号短时平稳,噪声和语音在这种情况下相互独立,则含噪声语音信号可表示为: 以,‖, . 其中和分别代表经过采样离散后的纯净语音信号和加性噪声,且统计不相关。对,、和分别进行分帧加窗进行傅里叶变换处理,得到: . ,后,七, 其中,为含噪语音信号在第帧和第频率点的加窗傅罩叶系数, ,为纯净语音信号在第帧和第频率点的加窗傅里叶系数,而,为噪声信号在第帧和第频率点的加窗傅罩叶系数,在算法的处理考虑分帧的情况下,为书写方便且不影响阅读情况下,将,尼和,分别表示为【,蚓: . 尼旭 . 七见上式中疋和点含噪语音信号和纯净语音信号在第频率点的谱幅度,鼠和。又分别对应含噪语音信号和纯净语音信号在第频率点的谱相位,由于人耳对相位信息的不敏感,语音增强重点在于如何从中估计出,然后用含噪语音的相位恢复出增强后的语音信号。根据文献【】中提出的的纯净语音谱的估计女为【】: 确哑泓一拍?凤 ‘?’ : :呈竺堡:墨竺兰墨:量兰呈竺 . ”. 将又根据假设,噪声和纯净语音均符合高斯分布模型,将两者的概率密度函数代入式.可得到二?【,??: 第三章基于实值离散变换的最优对数谱估计的语音增强算法愚置哟、, 口后. 。石’ 懿 .? . 哪阼一巫弘巫弘叫讣一上式中.是伽码函数,一.;;一阼是合流超几何函数,可以利用级数求和计算,.矛.分别表示第一类零阶和一阶修正贝塞尔函数,其函数内部的参数值定义为: 七, 珐羔舻焉弘器上式中萌为先验信噪比, 弘为后验信噪比。一般对式.可写成增益函数的形式: . :.巫啪;一弘获得语音谱增益后,即可获得纯净语音的谱估计: . 雪尼,, 一旦获得纯净语音谱估计后,由于人耳听觉对语音谱幅度比相位敏感的特性, 可结合原始含噪语音的相位,使用傅罩叶反变换输出增强后的语音信号。 .基于对数谱的最小均方误差估计算法? 前文提到,相关文献【证明由于人耳的听觉特性,语音处理采用对数谱比谱更加适合一些,基于此,文献【将.节的的估计式进行推广到对数谱,对上式.作如下变化: . 一二足又根据假设,噪声和纯净语音均符合高斯分布模型,将两者的概率密度函数代入式.化简后可得到三。: 七? 孤惫唧圭:等业. 同样,一般对式. 可写成增益函数的形式:基于实值离散变换的语音增强算法研究四惫唧获得语音谱增益后,后续的处理如同.节描述一致,不在赘述。 .基于最优改进对数谱幅度估计算法 . .节中介绍的.算法结合人的听觉特性,得到较好的语音增强效果,当多种背景噪声的条件下,.的对数谱增益估计函数也并不总是最优的,针对此问题,文献提出了基于的对数谱幅度估计的最优

                    本文档为【基于实值离散Gabor变换的语音增强算法研究（可编辑）】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于实值离散Gabor变换的语音增强算法研究（可编辑）

你可能还喜欢