基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法

基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法第 36 卷第 1 期自动化学报 Vol. 36, No. 1 2010 年 1 月 ACTA AUTOMATICA SINICA January, 2010 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法程宁 1 刘文举 1 摘要针对麦克风阵列后滤波语音增强算法的不足, 结合人耳的听觉掩蔽效应, 提出了改进的后滤波语音增强算法. 提出了最大化目标语音存在概率来确定信号子空间维度的方法, 在噪声子空间上, 利用条件概率估计出噪声功率谱. 基于人耳的听觉掩蔽效应, 提出了后...

第 36 卷第 1 期自动化学报 Vol. 36, No. 1 2010 年 1 月 ACTA AUTOMATICA SINICA January, 2010 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法程宁 1 刘文举 1 摘要针对麦克风阵列后滤波语音增强算法的不足, 结合人耳的听觉掩蔽效应, 提出了改进的后滤波语音增强算法. 提出了最大化目标语音存在概率来确定信号子空间维度的方法 , 在噪声子空间上, 利用条件概率估计出噪声功率谱. 基于人耳的听觉掩蔽效应, 提出了后滤波器的一种合理的设计方法. 实验证明, 所提的噪声估计方法比传统方法更加准确, 所提的后滤波算法比传统的后滤波算法更好, 在多项语音评价指标上, 都取得了更好的实验效果. 关键词麦克风阵列, 基于听觉特性的后滤波器, 语音增强, 多统计模型 DOI 10.3724/SP.J.1004.2010.00074 Microphone Array Post-filter Based on Multi-statistical Models and Perceptual Properties of Human Ears CHENG Ning1 LIU Wen-Ju1 Abstract To overcome the drawbacks of the conventional microphone array post-filter speech enhancement method, some improvements are proposed using the masking properties of human ears. A subspace selection method is proposed by maximizing the present probability of the target speech. In the noise subspace, the conditional probability is used to estimate the noise power spectrum. A novel post-filter is proposed based on the masking properties of human ears. Experiments prove that the proposed noise estimation method and post-filter are much better than the conventional ones. The proposed speech enhancement technique has shown to produce impressive results in terms of quality measures of the enhanced speech. Key words Microphone array, auditory properties based post-filter, speech enhancement, multi-statistic models 现实生活中的语音常常受到环境中噪声的影响, 多通道语音增强算法在近些年来受到了广泛关注. 麦克风阵列语音增强算法相对于单通道语音增强算法的优势在于它可以利用多路信号之间的相关性更准确地估计信号的特性, 从而达到更好的语音增强效果. 其中, 麦克风阵列后滤波语音增强算法更是由于其出色的降噪性能近年来得到了广泛的使用[1−3]. Simmer 等[1] 证明了最小均方误差意义下的最优多通道语音增强解可分解为一个最小方差非畸变响应波束形成器加上一个单通道的维纳后滤波器的形式. 尽管理论上证明了后滤波算法的最优性, 但在实际应用中, 由于很难精确地估计出语音信号和噪声信收稿日期 2008-12-29 录用日期 2009-06-15 Manuscript received December 29, 2008; accepted June 15, 2009 国家重点基础研究发展计划 (973 计划) (2004CB318105), 国家高技术研究发展计划 (863 计划) (20060101Z4073, 2006AA01Z194), 国家自然科学基金 (90820011, 60675026, 60121302, 90820303) 资助 Supported by National Basic Research Program of China (973 Program) (2004CB318105), National High Technology Re- search and Development Program of China (863 Program) (20060101Z4073, 2006AA01Z194), and National Natural Science Foundation of China (90820011, 60675026, 60121302, 90820303) 1. 中国科学院自动化研究所模式识别国家重点实验室北京 100190 1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190 号的功率谱来得到理想的后滤波器, 限制了后滤波算法的性能. 所以, 合理的后滤波器设计, 准确的信号功率谱估计都可以使得语音增强算法的性能得到大幅提高. Zelinski[2] 假设各个阵元上的噪声信号是不相关的, 提出了一种后滤波器设计方法. 但由于实际环境中, 阵元噪声之间是存在一定相关性的, 所以该算法性能较差. McCowan 等[3] 考虑了噪声之间的相关性, 利用散射噪声场的特性, 提出了一种后滤波器设计方法, 具有较好的语音增强性能. 但由于其算法是基于散射噪声场假设的, 所以, 当实际场合中的噪声场不符合散射噪声场时, 该算法性能会有明显的下降. 本文利用人耳的听觉掩蔽效应, 提出了一种基于听觉感知特性的后滤波器设计方法. 为了更准确地估计噪声功率谱, 本文将带噪信号空间分解为信号子空间和噪声子空间, 提出了用目标语音信号存在概率最大化来估计子空间维度的方法, 合理地估计出信号子空间和噪声子空间的维度, 在噪声子空间上, 提出了用条件概率估计噪声功率谱的方法. 实验证明, 本文所提的噪声估计方法比以往的噪声估计方法更准确, 所提的基于听觉感知特性的后滤波器也比传统的后滤波器更有效. 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 75 1 后滤波语音增强算法简介假设由 L 个麦克风组成的阵列上接收到的带噪语音信号向量的频域表示为: XXX = [X1, X2, · · · , XL]H. 由阵列输入信号的加权相加得到的增强后的语音信号的频域表示如下: Y = wwwHXXX = wwwH[S · ddd+NNN ] (1) 其中, www 是阵列加权系数, S 是目标语音, ddd = [d1, · · · , dL]H 是传播向量, NNN = [N1, · · · , NL]H 是噪声信号向量. 误差信号 e = S −wwwHXXX 的功率为: φee = E[{S −wwwHXXX}{SH −XXXHwww}] = φSS −wwwHφφφXS −φφφHXSwww +wwwHΦXXwww (2) 令 φee 对权值 www 求导数, 使其为零, 可得最优加权系数: wwwopt = Φ−1XXφφφXS (3) 在目标信号与噪声不相关的假设下, 式 (3) 变为: wwwopt = Φ−1XXφSSddd = [φSSdddddd H +ΦNN ]−1φSSddd (4) 应用 Sherman-Morrison-Woodbury恒等式[1],上式又可表示为: wwwopt = [ φSS φSS + (ddd HΦ−1NNddd)−1 ] Φ−1NNddd dddHΦ−1NNddd = [ φSS φSS + φNN ] Φ−1NNddd dddHΦ−1NNddd (5) 其中, φSS 和 φNN 分别是单通道目标信号和噪声的自功率谱, ΦNN 是阵元间的噪声交叉功率谱矩阵. 式 (5) 可看成一个最小方差非畸变响应波束形成器 Φ−1NNddd/(ddd HΦ−1NNddd) 加上一个单通道的维纳后滤波器 φSS/(φSS + φNN). 2 基于人耳听觉掩蔽效应的后滤波器设计本文的目标在于对式 (5) 中的单通道后滤波器的估计. 合理的单通道后滤波器设计需要考虑的问题包括两个方面: 好的降噪性能和较小的目标语音畸变. 通常而言, 后滤波器在降噪的同时, 也可能会增加目标语音的畸变. 所以, 对这两者进行合理折中是后滤波器设计必须考虑的问题. 本文利用人耳的听觉掩蔽效应提出了一种合理的折中方案 , 设计了一种新的基于听觉感知特性的后滤波器. 人耳的听觉掩蔽效应是指, 在通常情况下, 目标语音信号是强信号, 而背景噪声相对较弱, 这样人耳听觉系统会根据具体的目标语音信号确定频域上的听觉掩蔽阈值, 如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下, 那么该噪声就不会被人耳感知, 从而实现对带噪语音信号的增强. 具体的做法如下: 假设最小方差非畸变响应波束形成器的输出信号为 S˜(ejω), 目标语音信号为 S(ejω), 后滤波器为 G(ejω), 后滤波增强后的语音信号与目标语音信号的误差可表述如下: E(ejω) = G(ejω)S˜(ejω)− S(ejω) = [G(ejω)−1]×S(ejω)+G(ejω)N˜(ejω) (6) 其中, N˜(ejω) 为 S˜(ejω) 中的噪音. 式 (6) 中的第一项描述了增强语音中目标语音的畸变, 第二项描述了增强语音中残余噪声的大小. 可计算出一个合适的后滤波器G(ejω) 使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值, 从而消除其影响. 2.1 基于目标语音存在概率最大化的信号子空间维度确定和基于条件概率的噪声功率谱估计从式 (6) 中可以看出, 要实现基于听觉感知特性的后滤波器的设计, 首先需要估计出噪声功率谱. 通常使用的噪声估计方法是基于语音检测 (Voice activity detection, VAD) 的噪声估计方法[1]. 也就是检测出带噪语音中的纯噪声帧, 用这些帧上的平均功率谱来估计语音与噪声混合帧上的噪声功率谱. 由于噪声是变化的, 各帧上的噪声实际上是不同的. 所以, 基于 VAD 的噪声估计方法用纯噪声帧上的平均噪声功率谱来估计所有帧上的噪声功率谱会导致较大的估计误差. 针对这一情况, 本文提出了一种基于带噪信号子空间分解的噪声功率谱估计方法, 在每一帧信号上都估计噪声功率谱, 极大地减少了噪声估计误差. 在目标信号与噪声不相关的假设下, 带噪信号在时帧 t 和频率 k 的功率谱矩阵 ΦXX(k, t) 可表示为目标语音信号功率谱矩阵 ΦSS(k, t) 和噪声信号功率谱矩阵 ΦNN(k, t) 之和: ΦXX(k, t) = ΦSS(k, t) + ΦNN(k, t) (7) 对于麦克风阵列信号而言, 可假设各阵元上噪声信号的自功率谱相等, 而阵元间噪声信号不相关[3], 则下式成立: ΦNN(k, t) = φNN(k, t)I (8) 其中, I 为单位矩阵, φNN(k, t) 为噪声的自功率谱. 令目标语音信号功率谱矩阵的特征值分解为: ΦSS(k, t) = UΛSSUH (9) 其中, ΛSS = diag{λS1 , · · · , λSQ , 0, · · · , 0} 为特征值降序排列的特征值矩阵, U 为对应的特征向量矩阵, Q ≤ L 为矩阵的秩. 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 76 自动化学报 36卷利用特征值分解可将带噪信号空间分为两个子空间: 信号子空间 (包含目标语音和噪声) 和噪声子空间 (只包含噪声)[4−5]. 设带噪信号功率谱矩阵特征值分解为: ΦXX(k, t) = UΛXXUH = U(ΛSS + φNN(k, t)I)UH (10) 其中, ΛXX = diag{λX1 , · · · , λXL} = diag{λS1 + φNN , · · · , λSQ + φNN , φNN , · · · , φNN}, Q ≤ L 是信号子空间的维度, U = [U1;U2], U1 ∈ CL×Q 为信号子空间的基, U2 ∈ CL×(L−Q) 为噪声子空间的基. 本文提出了从噪声子空间中估计得到噪声自功率谱 φNN 的方法. 接下来, 首先需要确定信号子空间的维度 Q 和噪声子空间维度 L−Q. 本文提出了通过极大化带噪语音帧中目标语音的存在概率来确定Q 的方法, 即取最合适的Q 值使得目标语音存在概率最大. 绝大多数的语音增强算法都假设带噪语音帧可分为两种情况: 1) H0: 只存在噪声, 不存在目标语音; 2) H1: 目标语音与噪声同时存在, 即{ H0 : X(t) = N(t) H1 : X(t) = S(t) +N(t) (11) 其中, X(t), N(t), S(t) 分别是在第 t 帧上的带噪语音信号, 噪声信号和目标语音信号. 大多数的语音增强算法都假设语音信号和噪声信号的谱系数服从零均值的高斯分布[6−9]. 然而, 通过一些实验, 人们发现在某些情况下, 拉普拉斯模型和伽玛模型更适合于描述语音信号和噪声信号的谱系数[10−11]. 这里, 我们同时采用了这三种分布来描述信号的谱分布. 高斯模型: PG(S(k, t)|H1) = 1√ 2pivs(k, t) exp { − S 2(k, t) 2vs(k, t) } (12) 拉普拉斯模型: PL(S(k, t)|H1) = 1√ 2vs(k, t) exp { − √ 2|S(k, t)|√ vs(k, t) } (13) 伽玛模型: PM(S(k, t)|H1) = ( √ 3 8pi √ vs(k, t)|S(k, t)| )0.5 × exp { − √ 3|S(k, t)| 2 √ vs(k, t) } (14) 其中, S(k, t) 和 vs(k, t) 分别是目标语音信号在第 t 帧的第 k 个频率点上的谱和方差. 基于以上三种模型, 本文提出了一种选取子空间维度的方法, 确定信号子空间维度为: argmaxQ P (S(k, t)|H1). 其中, P (·) 是目标语音谱的分布函数, 从上面的三种模型中选择. 对于带噪信号每帧的每个频率点, 计算步骤如下 (为使表达简洁, 省略标记 (k, t) ): 步骤 1. 初始化 Q = 1 并逐渐增加 Q 的值; 步骤 2. 计算参数如下: φNN = 1 L−Q L∑ i=Q+1 λXi S = 1 Q Q∑ i=1 (λXi − φNN) 12 vs =  λXi − φNN , 若 Q = 11 Q Q∑ i=1 ((λXi − φNN) 12 − S)2, 若 Q > 1 3) 从高斯模型, 拉普拉斯模型和伽玛模型中任意选择一个来描述目标信号的谱分布. 确定信号子空间的维度为: argmaxQ P (S|H1). 接下来, 需要对噪声功率谱进行估计. 对于每一帧信号而言, 它以概率 P (H0|X) 属于假设H0, 以概率 P (H1|X) 属于假设 H1. 针对这两种情况, 本文分别估计噪声功率谱如下: H0 : φ0NN = 1 L L∑ i=1 λXi (15) H1 : φ1NN = 1 L−Q L∑ i=Q+1 λXi (16) 其中, φ0NN 和 φ1NN 分别是噪声在 H0 和 H1 下的功率谱. 根据条件概率公式, 本文提出噪声功率谱估计方法如下: φ˜NN = P (H0|X) · φ0NN + P (H1|X) · φ1NN (17) 其中, P (H0|X) + P (H1|X) = 1. P (H0|X) 和 P (H1|X) 的估计步骤如下: 步骤 1. 令 φpreNN 为带噪语音起始段纯噪声帧的平均功率谱, φcurNN = 1L ∑L i=1 λXi 为当前帧的功率谱. 计算两者的比值如下: r = φcurNN/φpreNN . 步骤 2. 计算条件概率 P (H0|X) 如下: P (H0|X) =  max( 1 1+r·β1 , 0.8), 若r ≤ 1.2{ 1 1+r·β2 , 若f ≤ fthr 1 1+r·β3 , 若f > fthr , 若r > 1.2 (18) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 77 其中, f 表示的是频率, fthr 是界限频率, βi 是加权系数. 取 β1 = 1 , β2 = 0.3, β3 = 0.7 和 fthr = 1200Hz. 步骤 3. P (H1|X) 计算如下: P (H1|X) = 1− P (H0|X) (19) 采用式 (18) 是由于当 r ≤ 1.2 时, 当前帧更可能为纯噪声帧, 所以 P (H0|X) 应取较大的值, 这里设置其下限为 0.8. 如果 r > 1.2, 当前帧更可能是语音帧, 此时 P (H0|X) 应取一个合适的值. 由于信号的能量在各个频率上分布是不均匀的, 所以, 这里根据不同的频率, 取不同的 P (H0|X) 值. 在低频时, P (H0|X) 的值应大于高频的值, 因为信号的能量大多集中在低频区域. 为了验证本文所提的噪声估计方法的效果, 本文进行了如下实验. 本文将实验室中录制的计算机风扇噪声数据与纯净语音 “j-o-h” 混合后形成带噪语音. 采样率为 16 kHz. 将估计出的噪声功率谱与真实的噪声功率谱相比较, 以评定算法效果. 本文定义噪声估计误差 (Noise estimation error, NEE) 如下: NEE = |φ˜NN − φtrueNN | φtrueNN (20) 其中, φ˜NN 和 φtrueNN 分别是估计的噪声功率谱和真实的噪声功率谱. 图 1 比较了高斯模型、拉普拉斯模型和伽玛模型对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱估计结果. 从图 1 中可看到这三种模型给出了三种不同的估计. 根据噪声功率谱的形状的不同, 最优的估计模型也有所不同. 这一发现表明我们可以进行模型选择来提高噪声估计的准确性. 图 1 对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱估计 (高斯模型、拉普拉斯模型和伽玛模型的平均噪声功率谱估计误差分别为 0.42, 0.47, 0.43.) Fig. 1 The noise power spectrum estimation of the noisy speech “j-o-h” at 4 000Hz (The average estimation errors of Gaussian, Laplacian, and Gamma models are 0.42, 0.47 and 0.43, respectively.) 但由于对于不同的噪声类型其噪声特性也会有所不同, 所以模型选择应根据目标噪声的特性有针对性的进行. 在本文中, 仅根据对于计算机风扇噪声的统计数据给出了一种根据谱的平稳性进行模型选择的方法. 定义判别函数如下[12]: Ω = L−Q √ L∏ i=Q+1 λXi 1 L−Q L∑ i=Q+1 λXi (21) 其中, Ω 定义为几何平均L−Q √∏L i=Q+1 λXi 对算术平均 1 L−Q ∑L i=Q+1 λXi 的比值, Ω 的值在 0 到 1 之间. 在对大量计算机风扇噪声实验数据进行统计后, 我们发现高斯模型在 Ω 取较小值时为最优模型, 在 Ω 值较大时, 拉普拉斯模型最优, 而伽玛模型总的平均噪声估计误差是最小的. 根据实验结果, 本文进行模型选择如下: Combined model =  Gaussian, 0 ≤ Ω ≤ Ω0 Lapalcian, Ω0 < Ω ≤ Ω1 Gamma, Ω1 < Ω ≤ 1 (22) 其中, Ω0 = 0.7 和 Ω1 = 0.75 为界限值. 为了验证本文模型选择的效果, 本文用式 (22) 中的联合模型对带噪语句 “j-o-h” 进行了噪声功率谱估计, 实验结果如图 2 和图 3 所示. 从图 2 中可看出, 相对于高斯模型、拉普拉斯模型和伽玛模型的估计结果而言, 联合模型减少了对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱估计误差. 图 2 对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱估计 (联合模型的平均噪声功率谱估计误差为 0.40.) Fig. 2 The noise power spectrum estimation of the noisy speech “j-o-h” at 4 000Hz (The average estimation of the combined model error is 0.40.) 在图 3 (a) 中, 给出了高斯模型, 拉普拉斯模型和伽玛模型对带噪语音 “j-o-h” 在所有频率上的平均噪声功率谱估计误差, 可以看出总体而言, 高斯模更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 78 自动化学报 36卷型比拉普拉斯模型和伽玛模型稍好. 从图 3 (b) 中的联合模型估计结果可以看到相对于三个模型中的最好模型, 本文所提的联合模型将总的噪声估计误差减少了 0.08. (a) 高斯模型、拉普拉斯模型和伽玛模型的平均估计误差 (在整句话上总的平均估计误差分别为 0.53, 0.54, 0.56.) (a) The average noise estimation errors of Gaussian, Laplacian, and Gamma models (The average noise estimation errors of the three models on the utterance are 0.53, 0.54, and 0.56, respectively.) (b) 联合模型的平均估计误差 (在整句话上总的平均估计误差为 0.45.) (b) The noise estimation error of the combined model (The average error on the utterance is 0.45.) 图 3 带噪语音 “j-o-h” 所有频率上的噪声功率谱的平均估计误差 Fig. 3 The average noise estimation errors over all the frequencies of the noisy speech “j-o-h” (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 4 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验的高斯、拉普拉斯、伽玛和联合模型的平均噪声估计误差结果 Fig. 4 The average experimental results of the Gaussian, Laplacian, Gamma, and combined model under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 79 为了进一步评估所提的噪声估计方法的效果, 本文在实验室中用 4 种噪声 (计算机风扇噪声、汽车引擎噪声、人群欢呼噪声、机器蜂鸣噪声) 录制了阵列噪声数据, 并进行了噪声估计实验. 所用的麦克风阵列有 8 个麦克风, 阵元间距为 4 厘米. 噪声源放置在阵列正前方距离为 1 米的地方. 数据采样率为 16 kHz. 对于每种噪声, 各用 5 句不同的纯净语音与其在 6 种信噪比 (−10 dB, −5 dB, 0 dB, 5 dB, 10 dB, 15 dB) 下进行混合, 总共得到 120 句带噪语句. 图 4 和图 5 给出了在这 120 句数据上进行实验的结果. 从图 4 中可看出, 对于计算机风扇噪声数据和机器蜂鸣噪声数据而言, 所提的联合模型在 8 dB 以下输入信噪比数据上比高斯模型、拉普拉斯模型和伽玛模型要好, 且在所有输入信噪比数据的平均统计上, 也是如此. 而对于汽车引擎噪声和人群欢呼噪声, 联合模型的效果比高斯模型和伽玛模型稍差, 比拉普拉斯模型要好. 这说明了针对噪声的特性进行模型选择的确能够改进噪声估计效果, 但模型选择也需要对噪声有针对性地进行才能达到较好的效果. 为了评估所提的噪声估计方法的效果, 本文进一步将所提的噪声估计方法 (使用了联合模型) 与基于 VAD 的噪声估计方法 (基于 VAD 的噪声估计方法用纯噪声帧的平均功率谱作为语音帧噪声功率谱的估计) 进行了比较, 实验结果如图 5 所示. 从图 5 中可看出, 本文所提的噪声估计方法相对于比较算法而言, 在不同的信噪比下都更加准确地估计了噪声. 基于 VAD 的噪声估计方法效果较差的原因在于语音帧上的噪声与纯噪声帧上的噪声总是存在着不同. 本文所提的方法在每帧上都在噪声子空间上估计噪声, 极大地减少了噪声估计误差. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 5 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验的基于 VAD 的噪声估计方法和所提方法的平均噪声估计误差 Fig. 5 The average experimental results of the VAD based method and the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 80 自动化学报 36卷 2.2 基于信号子空间的听觉掩蔽阈值估计在估计出噪声功率谱后, 接下来, 就需要估计目标语音信号作用于人耳产生的听觉掩蔽阈值, 将噪声限制在该阈值以下, 就可以将噪声掩蔽掉, 从而实现对目标语音信号的增强. 人耳听觉频率范围是 0 到 15 500Hz, 覆盖了 24 个关键子频带[13], 需要在每个子频带中计算听觉掩蔽阈值. 首先, 计算表征人耳基膜上能量的激励能量值 C(j, b)[14]: C(j, b) = SF (j) ∗H(j, b) (23) 其中, H(j, b) 表示的是第 j 个子频带内第 b 个频点上的能量, SF (j) 是传播函数, j = 1, · · · , 24. 传播函数 SF (j) 计算如下: SF (j) = 15.81 + 7.5(j + 0.474)− 17.5 √ 1 + (j + 0.474)2 (24) 频点能量 H(j, b) 则可根据信号子空间特征值和特征向量计算出来[15]: H(j, b) = mean ( 1 L Q∑ i=1 λSi |UUU1,i|2 ) (25) 其中, λSi = λXi − φ˜NN 为目标信号功率谱矩阵的特征值估计, UUU1,i 为信号子空间的第 i 个基, mean(·) 为取均值符号. 听觉掩蔽阈值 Cthr 可由 C(j, b) 计算出来[14]: Cthr = 10lg |C(j,b)|−|O(j)/10|−|φ˜NN/10| (26) 其中, φ˜NN 是估计的噪声功率谱, O(j) 是偏移量, 如图 6 所示. 图 6 各个子频带的偏移量 Fig. 6 The offsets of subbands 2.3 基于听觉感知特性的后滤波器设计在得到了听觉掩蔽阈值后, 本文接下来进行基于听觉感知特性的后滤波器的设计, 针对式 (6), 本文提出如下目标约束: minET = (G(ejω)− 1)2S(ejω)2 +G(ejω)2N˜(ejω)2 (27) s.t. G(ejω)2N˜(ejω)2 ≤ Cthr (28) 用拉格朗日乘子法求解, 令: J = ET + µ(G(ejω)2N˜(ejω)2 − Cthr) (29) 令 J 对 G(ejω) 求导, 并使其为零, 可得: G(ejω) = S(ejω)2 S(ejω)2 + (1 + µ)N˜(ejω)2 (30) 由式 (30) 可看出在本文的目标约束下, 基于听觉感知特性的后滤波器在表达形式上就是更合理地估计了噪声的维纳滤波器. 令 J 对 µ 求导, 并使其为零, 可得: G(ejω) = √ Cthr N˜(ejω)2 (31) 由式 (30) 和 (31) 相等, 可得: 1 + µ = S(ejω)2 N˜(ejω)2 ·max (√ N˜(ejω)2 Cthr − 1, 0 ) (32) 将式 (32) 带入式 (30), 并用式 (17) 中的 φ˜NN 代替 N˜(ejω)2, 得到本文所提的基于听觉感知特性的后滤波器如下: G(ejω) = 1 1 +max (√ φ˜NN Cthr − 1, 0 ) (33) 3 本文所提麦克风阵列后滤波语音增强算法实现本节给出了本文所提的基于听觉感知特性的后滤波语音增强算法的实现步骤. 在图 7 中, 给出了本文所提的基于听觉感知特性的后滤波语音增强算法的实现流程. 具体的计算步骤如下: 步骤 1. 将带噪信号进行延时补偿、对齐后, 进行分帧傅里叶变换, 并用波束形成器去噪, 得到单通道增强语音信号. 步骤 2. 对带噪语音信号每一帧中的每个频率点, 估计 ΦXX , 并进行特征值分解, 得到特征值和特征向量. 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 81 图 7 基于听觉感知特性的后滤波语音增强算法实现流程图 Fig. 7 The scheme of the proposed auditory properties based post-filter speech enhancement algorithm 步骤 3. 用本文所提的基于目标语音存在概率最大化的方法确定信号子空间维度为 argmaxQ P (S|H1), 进而得到噪声子空间维度 L − Q. 步骤 4. 用式 (18) 和 (19) 估计 P (H0|X) 和 P (H1|X), 并用式 (17) 估计噪声功率谱. 步骤 5. 用式 (26) 计算听觉掩蔽阈值. 步骤 6. 用式 (33) 估计本文所提的基于听觉感知特性的后滤波器. 步骤 7. 进行后滤波语音增强和逆傅里叶变换后, 得到增强后的语音. 4 实验结果为了验证本文所提的基于听觉感知特性的后滤波语音增强算法的效果, 本文将所提算法 (噪声估计用联合模型) 与波束形成器算法[1], Zelinski 后滤波算法[2] 和McCowan 后滤波算法[3] 进行了比较, 如图 8∼ 11 所示. 实验所用的数据为第 2.1 节中介绍的数据. 数据进行了加窗 (汉明窗) 傅里叶变换, 帧长 25 毫秒, 帧移为 10 毫秒. 所采用的评价标准包括[16−17]: 信噪比 (Signal to noise ratio, SNR)、对数域比例距离 (Log area ratio distance, LAR)、对数域似然距离 (Log likelihood ratio, LLR) 和对数谱距离 (Log spectral distance, LSD). 其中, SNR 值越高语音质量越好, LAR、LLR 和 LSD 值越低语音质量越好. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 8 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的平均信噪比结果 Fig. 8 The average SNR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 82 自动化学报 36卷从图 8 中可以看到在信噪比指标上, 对于各种噪声数据, 所提的算法比其他所有比较算法都要好. 相对于比较算法中的最好算法而言, 所提算法在所有输入信噪比数据上的平均改进分别为: 计算机风扇噪声数据 1.55 dB, 汽车引擎噪声数据 1.12 dB, 人群欢呼噪声数据 0.77 dB, 机器蜂鸣噪声数据 0.19 dB. 在４种噪声的所有数据统计上, 本文所提的算法比比较算法中的最好算法平均改进 0.91 dB. 从图 9 中可以看到在 LAR 指标上, 对于计算机风扇噪声数据和人群欢呼噪声数据, 所提算法比其他所有比较算法都要好. 相对于比较算法中的最好算法而言, 所提算法在所有输入信噪比数据上的平均改进分别为: 计算机风扇噪声数据 32.6%, 人群欢呼噪声数据 4.6%. 对于汽车引擎噪声数据, 所提算法比 Zelinski 后滤波算法和McCowan 后滤波算法要好, 比波束形成器算法要差 11.3%, 原因在于, 后滤波器进行后滤波提高信噪比的同时, 也有可能增加语音的畸变. 对于机器蜂鸣噪声数据, 所提算法比 Zelinski 后滤波算法和McCowan 后滤波算法要稍差 (比最好的差 7.5%), 比波束形成器算法要好得多. 总的而言, 后滤波器算法比波束形成器算法更能够减小语音的畸变. 在 4 种噪声的所有数据统计上, 本文所提的算法比比较算法中的最好算法平均改进 8.9%. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 9 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LAR 结果 Fig. 9 The average LAR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 83 从图 10 中可以看到在 LLR 指标上, 所提算法对于汽车引擎噪声数据、人群欢呼噪声数据和机器蜂鸣噪声数据比其他所有的比较算法都好, 相对于其他比较算法中的最好算法而言, 所提算法在所有输入信噪比数据上的平均改进分别为: 汽车引擎噪声数据 46.7%, 人群欢呼噪声数据 24%, 机器蜂鸣噪声数据 35.8%. 对于计算机风扇噪声数据, 所提算法比 Zelinski 后滤波算法和McCowan 后滤波算法要好, 比波束形成器算法稍差为: 8%. 在 4 种噪声的所有数据统计上, 本文所提的算法比比较算法中的最好算法平均改进 31.2%. 从图 11 中可以看到, 在 LSD 指标上, 对于各种噪声, 所提的算法比其他所有比较算法都要好. 相对于比较算法中的最好算法而言, 所提算法在所有输入信噪比数据上的平均改进分别为: 计算机风扇噪声数据 16.5%, 汽车引擎噪声数据 16.8%, 人群欢呼噪声数据 9.4%, 机器蜂鸣噪声数据 6.4%. 在 4 种噪声的所有数据统计上, 本文所提的算法比比较算法中的最好算法平均改进 11.6%. 从上述 4 种评价指标的实验结果可以看到, 所提算法对于多种不同的噪声数据都比传统算法具有更好的消除噪声和恢复目标语音的效果. 所提算法不仅在低信噪比下具有较好的语音增强性能, 在高信噪比下, 也没有增加目标语音的畸变. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 10 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LLR 结果 Fig. 10 The average LLR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 84 自动化学报 36卷图 12 给出了语句 “tvah5253” 的语谱图. 从图 12 中可以看到, 波束形成器、Zelinski 后滤波器和 McCowan 后滤波器都不能完全地消除噪声 (噪声为汽车引擎噪声), 尤其是噪声能量集中的低频噪声. 相比之下, 本文所提的算法具有更好的噪声消除效果, 恢复的目标语音信号也具有更小的失真. 5 结论本文首先针对传统的后滤波算法对于噪声功率谱估计不准的问题, 提出了一种基于子空间方法的噪声功率谱估计方法. 本文将带噪信号空间分解为信号子空间和噪声子空间, 提出了利用目标语音存在概率最大化确定信号子空间维度的方法. 在噪声子空间上, 提出了利用条件概率估计噪声功率谱的方法. 实验证明, 本文的噪声估计方法比传统的噪声估计方法更加准确. 接着, 本文基于人耳的听觉掩蔽效应, 提出了一种后滤波器设计方法. 语音增强实验证明本文所提的后滤波算法比传统算法更好. 在多项语音评价指标上, 相对于传统算法, 本文所提的算法都取得了更好的实验效果. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 11 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LLR 结果 Fig. 11 The average LSD results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 1期程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 85 (a) 目标语音 (a) The target speech (b) 中间麦克风的带噪输入 (b) The noisy input of the central microphone (c) 波束形成器输出 (c) The result of the Beamformer algorithm (d) Zelinski 后滤波器输出 (d) The result of the Zelinski algorithm (e) McCowan 后滤波器输出 (e) The result of the McCowan algorithm (f) 所提的后滤波器输出 (f) The result of the proposed algorithm 图 12 语句 “tvah5253” 的语谱图 Fig. 12 The spectrograms of the utterance “tvah5253” 更多技术文章，论文请登录www.srvee.com 内容版权归作者所有 86 自动化学报 36卷 References 1 Simmer K U. Post-filtering techniques. Microphone Arrays: Signal Processing Techniques and Applications. Berlin: Springer, 2001. 36−60 2 Zelinski R. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. New York, USA: IEEE, 1988. 2578−2581 3 McCowan I A, Bourlard H. Microphone array post-filter based on noise field coherence. IEEE Transactions on Speech and Audio Processing, 2003, 11(6): 709−716 4 Ephraim Y, van Trees H L. A signal subspace approach for speech enhancement. IEEE Transactions on Speech and Au- dio Processing, 1995, 3(4): 251−266 5 You C H, Rahardja S, Koh S N. Audible noise reduction in eigendomain for speech enhancement. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(6): 1753−1765 6 Chang J L, Kim N S. Speech enhancement: new approaches to soft decision. IEICE Transactions on Information and Systems, 2001, 84(9): 1231−1240 7 Chang J H, Kim N S. Voice activity detection based on complex Laplacian model. Electronic Letters, 2003, 39(7): 632−634 8 Kim N S, Chang J H. Spectral enhancement based on global soft decision. IEEE Signal Processing Letters, 2000, 7(5): 108−110 9 Sohn J, Kim N S, Sung W. A statistical model-based voice activity detection. IEEE Signal Processing Letters, 1999, 6(1): 1−3 10 Gazor S, Zhang W. Speech probability distribution. IEEE Signal Processing Letters

                    本文档为【基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法

你可能还喜欢