首页 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法

基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法

举报
开通vip

基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 第 36 卷 第 1 期 自 动 化 学 报 Vol. 36, No. 1 2010 年 1 月 ACTA AUTOMATICA SINICA January, 2010 基于多统计模型和人耳听觉特性的麦克风 阵列后滤波语音增强算法 程 宁 1 刘文举 1 摘 要 针对麦克风阵列后滤波语音增强算法的不足, 结合人耳的听觉掩蔽效应, 提出了改进的后滤波语音增强算法. 提出 了最大化目标语音存在概率来确定信号子空间维度的方法, 在噪声子空间上, 利用条件概率估计出噪声功率谱. 基于人耳的听 觉掩蔽效应, 提出了后...

基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法
第 36 卷 第 1 期 自 动 化 学 报 Vol. 36, No. 1 2010 年 1 月 ACTA AUTOMATICA SINICA January, 2010 基于多统计模型和人耳听觉特性的麦克风 阵列后滤波语音增强算法 程 宁 1 刘文举 1 摘 要 针对麦克风阵列后滤波语音增强算法的不足, 结合人耳的听觉掩蔽效应, 提出了改进的后滤波语音增强算法. 提出 了最大化目标语音存在概率来确定信号子空间维度的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 , 在噪声子空间上, 利用条件概率估计出噪声功率谱. 基于人耳的听 觉掩蔽效应, 提出了后滤波器的一种合理的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 方法. 实验证明, 所提的噪声估计方法比传统方法更加准确, 所提的后滤波算 法比传统的后滤波算法更好, 在多项语音评价指标上, 都取得了更好的实验效果. 关键词 麦克风阵列, 基于听觉特性的后滤波器, 语音增强, 多统计模型 DOI 10.3724/SP.J.1004.2010.00074 Microphone Array Post-filter Based on Multi-statistical Models and Perceptual Properties of Human Ears CHENG Ning1 LIU Wen-Ju1 Abstract To overcome the drawbacks of the conventional microphone array post-filter speech enhancement method, some improvements are proposed using the masking properties of human ears. A subspace selection method is proposed by maximizing the present probability of the target speech. In the noise subspace, the conditional probability is used to estimate the noise power spectrum. A novel post-filter is proposed based on the masking properties of human ears. Experiments prove that the proposed noise estimation method and post-filter are much better than the conventional ones. The proposed speech enhancement technique has shown to produce impressive results in terms of quality measures of the enhanced speech. Key words Microphone array, auditory properties based post-filter, speech enhancement, multi-statistic models 现实生活中的语音常常受到环境中噪声的影响, 多通道语音增强算法在近些年来受到了广泛关注. 麦克风阵列语音增强算法相对于单通道语音增强算 法的优势在于它可以利用多路信号之间的相关性更 准确地估计信号的特性, 从而达到更好的语音增强 效果. 其中, 麦克风阵列后滤波语音增强算法更是由 于其出色的降噪性能近年来得到了广泛的使用[1−3]. Simmer 等[1] 证明了最小均方误差意义下的最优多 通道语音增强解可分解为一个最小方差非畸变响应 波束形成器加上一个单通道的维纳后滤波器的形式. 尽管理论上证明了后滤波算法的最优性, 但在实际 应用中, 由于很难精确地估计出语音信号和噪声信 收稿日期 2008-12-29 录用日期 2009-06-15 Manuscript received December 29, 2008; accepted June 15, 2009 国家重点基础研究发展 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 (973 计划) (2004CB318105), 国家高技 术研究发展计划 (863 计划) (20060101Z4073, 2006AA01Z194), 国 家自然科学基金 (90820011, 60675026, 60121302, 90820303) 资助 Supported by National Basic Research Program of China (973 Program) (2004CB318105), National High Technology Re- search and Development Program of China (863 Program) (20060101Z4073, 2006AA01Z194), and National Natural Science Foundation of China (90820011, 60675026, 60121302, 90820303) 1. 中国科学院自动化研究所模式识别国家重点实验室 北京 100190 1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190 号的功率谱来得到理想的后滤波器, 限制了后滤波 算法的性能. 所以, 合理的后滤波器设计, 准确的信 号功率谱估计都可以使得语音增强算法的性能得到 大幅提高. Zelinski[2] 假设各个阵元上的噪声信号是 不相关的, 提出了一种后滤波器设计方法. 但由于实 际环境中, 阵元噪声之间是存在一定相关性的, 所以 该算法性能较差. McCowan 等[3] 考虑了噪声之间 的相关性, 利用散射噪声场的特性, 提出了一种后滤 波器设计方法, 具有较好的语音增强性能. 但由于其 算法是基于散射噪声场假设的, 所以, 当实际场合中 的噪声场不符合散射噪声场时, 该算法性能会有明 显的下降. 本文利用人耳的听觉掩蔽效应, 提出了一 种基于听觉感知特性的后滤波器设计方法. 为了更 准确地估计噪声功率谱, 本文将带噪信号空间分解 为信号子空间和噪声子空间, 提出了用目标语音信 号存在概率最大化来估计子空间维度的方法, 合理 地估计出信号子空间和噪声子空间的维度, 在噪声 子空间上, 提出了用条件概率估计噪声功率谱的方 法. 实验证明, 本文所提的噪声估计方法比以往的噪 声估计方法更准确, 所提的基于听觉感知特性的后 滤波器也比传统的后滤波器更有效. 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 75 1 后滤波语音增强算法简介 假设由 L 个麦克风组成的阵列上接收到 的带噪语音信号向量的频域表示为: XXX = [X1, X2, · · · , XL]H. 由阵列输入信号的加权相加 得到的增强后的语音信号的频域表示如下: Y = wwwHXXX = wwwH[S · ddd+NNN ] (1) 其中, www 是阵列加权系数, S 是目标语音, ddd = [d1, · · · , dL]H 是传播向量, NNN = [N1, · · · , NL]H 是 噪声信号向量. 误差信号 e = S −wwwHXXX 的功率为: φee = E[{S −wwwHXXX}{SH −XXXHwww}] = φSS −wwwHφφφXS −φφφHXSwww +wwwHΦXXwww (2) 令 φee 对权值 www 求导数, 使其为零, 可得最优加权 系数: wwwopt = Φ−1XXφφφXS (3) 在目标信号与噪声不相关的假设下, 式 (3) 变为: wwwopt = Φ−1XXφSSddd = [φSSdddddd H +ΦNN ]−1φSSddd (4) 应用 Sherman-Morrison-Woodbury恒等式[1],上式 又可表示为: wwwopt = [ φSS φSS + (ddd HΦ−1NNddd)−1 ] Φ−1NNddd dddHΦ−1NNddd = [ φSS φSS + φNN ] Φ−1NNddd dddHΦ−1NNddd (5) 其中, φSS 和 φNN 分别是单通道目标信号和噪声的 自功率谱, ΦNN 是阵元间的噪声交叉功率谱矩阵. 式 (5) 可看成一个最小方差非畸变响应波束形成器 Φ−1NNddd/(ddd HΦ−1NNddd) 加上一个单通道的维纳后滤波器 φSS/(φSS + φNN). 2 基于人耳听觉掩蔽效应的后滤波器设计 本文的目标在于对式 (5) 中的单通道后滤波器 的估计. 合理的单通道后滤波器设计需要考虑的问 题包括两个方面: 好的降噪性能和较小的目标语音 畸变. 通常而言, 后滤波器在降噪的同时, 也可能会 增加目标语音的畸变. 所以, 对这两者进行合理折中 是后滤波器设计必须考虑的问题. 本文利用人耳的 听觉掩蔽效应提出了一种合理的折中 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 , 设计了 一种新的基于听觉感知特性的后滤波器. 人耳的听 觉掩蔽效应是指, 在通常情况下, 目标语音信号是强 信号, 而背景噪声相对较弱, 这样人耳听觉系统会根 据具体的目标语音信号确定频域上的听觉掩蔽阈值, 如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈 值之下, 那么该噪声就不会被人耳感知, 从而实现对 带噪语音信号的增强. 具体的做法如下: 假设最小方差非畸变响应波束形成器的输出信 号为 S˜(ejω), 目标语音信号为 S(ejω), 后滤波器为 G(ejω), 后滤波增强后的语音信号与目标语音信号 的误差可表述如下: E(ejω) = G(ejω)S˜(ejω)− S(ejω) = [G(ejω)−1]×S(ejω)+G(ejω)N˜(ejω) (6) 其中, N˜(ejω) 为 S˜(ejω) 中的噪音. 式 (6) 中的第一项描述了增强语音中目标语音 的畸变, 第二项描述了增强语音中残余噪声的大小. 可计算出一个合适的后滤波器G(ejω) 使得增强语音 中的残余噪声小于人耳的听觉掩蔽阈值, 从而消除 其影响. 2.1 基于目标语音存在概率最大化的信号子空间维 度确定和基于条件概率的噪声功率谱估计 从式 (6) 中可以看出, 要实现基于听觉感知特 性的后滤波器的设计, 首先需要估计出噪声功率谱. 通常使用的噪声估计方法是基于语音检测 (Voice activity detection, VAD) 的噪声估计方法[1]. 也就 是检测出带噪语音中的纯噪声帧, 用这些帧上的平 均功率谱来估计语音与噪声混合帧上的噪声功率谱. 由于噪声是变化的, 各帧上的噪声实际上是不同的. 所以, 基于 VAD 的噪声估计方法用纯噪声帧上的平 均噪声功率谱来估计所有帧上的噪声功率谱会导致 较大的估计误差. 针对这一情况, 本文提出了一种基 于带噪信号子空间分解的噪声功率谱估计方法, 在 每一帧信号上都估计噪声功率谱, 极大地减少了噪 声估计误差. 在目标信号与噪声不相关的假设下, 带噪信号 在时帧 t 和频率 k 的功率谱矩阵 ΦXX(k, t) 可表示 为目标语音信号功率谱矩阵 ΦSS(k, t) 和噪声信号 功率谱矩阵 ΦNN(k, t) 之和: ΦXX(k, t) = ΦSS(k, t) + ΦNN(k, t) (7) 对于麦克风阵列信号而言, 可假设各阵元上噪声信 号的自功率谱相等, 而阵元间噪声信号不相关[3], 则 下式成立: ΦNN(k, t) = φNN(k, t)I (8) 其中, I 为单位矩阵, φNN(k, t) 为噪声的自功率谱. 令目标语音信号功率谱矩阵的特征值分解为: ΦSS(k, t) = UΛSSUH (9) 其中, ΛSS = diag{λS1 , · · · , λSQ , 0, · · · , 0} 为特征 值降序排列的特征值矩阵, U 为对应的特征向量矩 阵, Q ≤ L 为矩阵的秩. 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 76 自 动 化 学 报 36卷 利用特征值分解可将带噪信号空间分为两个子 空间: 信号子空间 (包含目标语音和噪声) 和噪声子 空间 (只包含噪声)[4−5]. 设带噪信号功率谱矩阵特 征值分解为: ΦXX(k, t) = UΛXXUH = U(ΛSS + φNN(k, t)I)UH (10) 其中, ΛXX = diag{λX1 , · · · , λXL} = diag{λS1 + φNN , · · · , λSQ + φNN , φNN , · · · , φNN}, Q ≤ L 是 信号子空间的维度, U = [U1;U2], U1 ∈ CL×Q 为信 号子空间的基, U2 ∈ CL×(L−Q) 为噪声子空间的基. 本文提出了从噪声子空间中估计得到噪声自功 率谱 φNN 的方法. 接下来, 首先需要确定信号子空 间的维度 Q 和噪声子空间维度 L−Q. 本文提出了 通过极大化带噪语音帧中目标语音的存在概率来确 定Q 的方法, 即取最合适的Q 值使得目标语音存在 概率最大. 绝大多数的语音增强算法都假设带噪语音帧可 分为两种情况: 1) H0: 只存在噪声, 不存在目标语音; 2) H1: 目标语音与噪声同时存在, 即{ H0 : X(t) = N(t) H1 : X(t) = S(t) +N(t) (11) 其中, X(t), N(t), S(t) 分别是在第 t 帧上的带噪语 音信号, 噪声信号和目标语音信号. 大多数的语音增强算法都假设语音信号和噪声 信号的谱系数服从零均值的高斯分布[6−9]. 然而, 通 过一些实验, 人们发现在某些情况下, 拉普拉斯模型 和伽玛模型更适合于描述语音信号和噪声信号的谱 系数[10−11]. 这里, 我们同时采用了这三种分布来描 述信号的谱分布. 高斯模型: PG(S(k, t)|H1) = 1√ 2pivs(k, t) exp { − S 2(k, t) 2vs(k, t) } (12) 拉普拉斯模型: PL(S(k, t)|H1) = 1√ 2vs(k, t) exp { − √ 2|S(k, t)|√ vs(k, t) } (13) 伽玛模型: PM(S(k, t)|H1) = ( √ 3 8pi √ vs(k, t)|S(k, t)| )0.5 × exp { − √ 3|S(k, t)| 2 √ vs(k, t) } (14) 其中, S(k, t) 和 vs(k, t) 分别是目标语音信号在第 t 帧的第 k 个频率点上的谱和方差. 基于以上三种模型, 本文提出了一种选取 子空间维度的方法, 确定信号子空间维度为: argmaxQ P (S(k, t)|H1). 其中, P (·) 是目标语音 谱的分布函数, 从上面的三种模型中选择. 对于带噪 信号每帧的每个频率点, 计算步骤如下 (为使表达简 洁, 省略标记 (k, t) ): 步骤 1. 初始化 Q = 1 并逐渐增加 Q 的值; 步骤 2. 计算参数如下: φNN = 1 L−Q L∑ i=Q+1 λXi S = 1 Q Q∑ i=1 (λXi − φNN) 12 vs =  λXi − φNN , 若 Q = 11 Q Q∑ i=1 ((λXi − φNN) 12 − S)2, 若 Q > 1 3) 从高斯模型, 拉普拉斯模型和伽玛模型中任 意选择一个来描述目标信号的谱分布. 确定信号子 空间的维度为: argmaxQ P (S|H1). 接下来, 需要对噪声功率谱进行估计. 对于每一 帧信号而言, 它以概率 P (H0|X) 属于假设H0, 以概 率 P (H1|X) 属于假设 H1. 针对这两种情况, 本文 分别估计噪声功率谱如下: H0 : φ0NN = 1 L L∑ i=1 λXi (15) H1 : φ1NN = 1 L−Q L∑ i=Q+1 λXi (16) 其中, φ0NN 和 φ1NN 分别是噪声在 H0 和 H1 下的功 率谱. 根据条件概率公式, 本文提出噪声功率谱估计 方法如下: φ˜NN = P (H0|X) · φ0NN + P (H1|X) · φ1NN (17) 其中, P (H0|X) + P (H1|X) = 1. P (H0|X) 和 P (H1|X) 的估计步骤如下: 步骤 1. 令 φpreNN 为带噪语音起始段纯噪声帧 的平均功率谱, φcurNN = 1L ∑L i=1 λXi 为当前帧的功率 谱. 计算两者的比值如下: r = φcurNN/φpreNN . 步骤 2. 计算条件概率 P (H0|X) 如下: P (H0|X) =  max( 1 1+r·β1 , 0.8), 若r ≤ 1.2{ 1 1+r·β2 , 若f ≤ fthr 1 1+r·β3 , 若f > fthr , 若r > 1.2 (18) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 77 其中, f 表示的是频率, fthr 是界限频率, βi 是 加权系数. 取 β1 = 1 , β2 = 0.3, β3 = 0.7 和 fthr = 1200Hz. 步骤 3. P (H1|X) 计算如下: P (H1|X) = 1− P (H0|X) (19) 采用式 (18) 是由于当 r ≤ 1.2 时, 当前帧更可 能为纯噪声帧, 所以 P (H0|X) 应取较大的值, 这里 设置其下限为 0.8. 如果 r > 1.2, 当前帧更可能是 语音帧, 此时 P (H0|X) 应取一个合适的值. 由于信 号的能量在各个频率上分布是不均匀的, 所以, 这里 根据不同的频率, 取不同的 P (H0|X) 值. 在低频时, P (H0|X) 的值应大于高频的值, 因为信号的能量大 多集中在低频区域. 为了验证本文所提的噪声估计方法的效果, 本 文进行了如下实验. 本文将实验室中录制的计算机 风扇噪声数据与纯净语音 “j-o-h” 混合后形成带噪 语音. 采样率为 16 kHz. 将估计出的噪声功率谱与 真实的噪声功率谱相比较, 以评定算法效果. 本文定 义噪声估计误差 (Noise estimation error, NEE) 如 下: NEE = |φ˜NN − φtrueNN | φtrueNN (20) 其中, φ˜NN 和 φtrueNN 分别是估计的噪声功率谱和真 实的噪声功率谱. 图 1 比较了高斯模型、拉普拉斯模型和伽玛模 型对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功 率谱估计结果. 从图 1 中可看到这三种模型给出了 三种不同的估计. 根据噪声功率谱的形状的不同, 最 优的估计模型也有所不同. 这一发现表明我们可以 进行模型选择来提高噪声估计的准确性. 图 1 对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱 估计 (高斯模型、拉普拉斯模型和伽玛模型的平均噪声功率 谱估计误差分别为 0.42, 0.47, 0.43.) Fig. 1 The noise power spectrum estimation of the noisy speech “j-o-h” at 4 000Hz (The average estimation errors of Gaussian, Laplacian, and Gamma models are 0.42, 0.47 and 0.43, respectively.) 但由于对于不同的噪声类型其噪声特性也会有 所不同, 所以模型选择应根据目标噪声的特性有针 对性的进行. 在本文中, 仅根据对于计算机风扇噪声 的统计数据给出了一种根据谱的平稳性进行模型选 择的方法. 定义判别函数如下[12]: Ω = L−Q √ L∏ i=Q+1 λXi 1 L−Q L∑ i=Q+1 λXi (21) 其中, Ω 定义为几何平均L−Q √∏L i=Q+1 λXi 对算术平 均 1 L−Q ∑L i=Q+1 λXi 的比值, Ω 的值在 0 到 1 之间. 在对大量计算机风扇噪声实验数据进行统计后, 我们发现高斯模型在 Ω 取较小值时为最优模型, 在 Ω 值较大时, 拉普拉斯模型最优, 而伽玛模型总的平 均噪声估计误差是最小的. 根据实验结果, 本文进行 模型选择如下: Combined model =  Gaussian, 0 ≤ Ω ≤ Ω0 Lapalcian, Ω0 < Ω ≤ Ω1 Gamma, Ω1 < Ω ≤ 1 (22) 其中, Ω0 = 0.7 和 Ω1 = 0.75 为界限值. 为了验证本文模型选择的效果, 本文用式 (22) 中的联合模型对带噪语句 “j-o-h” 进行了噪声功率 谱估计, 实验结果如图 2 和图 3 所示. 从图 2 中可看出, 相对于高斯模型、拉普拉斯模 型和伽玛模型的估计结果而言, 联合模型减少了对 带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱 估计误差. 图 2 对带噪语音 “j-o-h” 在 4 000Hz 频率上的噪声功率谱 估计 (联合模型的平均噪声功率谱估计误差为 0.40.) Fig. 2 The noise power spectrum estimation of the noisy speech “j-o-h” at 4 000Hz (The average estimation of the combined model error is 0.40.) 在图 3 (a) 中, 给出了高斯模型, 拉普拉斯模型 和伽玛模型对带噪语音 “j-o-h” 在所有频率上的平 均噪声功率谱估计误差, 可以看出总体而言, 高斯模 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 78 自 动 化 学 报 36卷 型比拉普拉斯模型和伽玛模型稍好. 从图 3 (b) 中的 联合模型估计结果可以看到相对于三个模型中的最 好模型, 本文所提的联合模型将总的噪声估计误差 减少了 0.08. (a) 高斯模型、拉普拉斯模型和伽玛模型的平均估计误差 (在整 句话上总的平均估计误差分别为 0.53, 0.54, 0.56.) (a) The average noise estimation errors of Gaussian, Laplacian, and Gamma models (The average noise estimation errors of the three models on the utterance are 0.53, 0.54, and 0.56, respectively.) (b) 联合模型的平均估计误差 (在整句话上总的平均估计误差 为 0.45.) (b) The noise estimation error of the combined model (The average error on the utterance is 0.45.) 图 3 带噪语音 “j-o-h” 所有频率上的噪声功率谱的平均估计误差 Fig. 3 The average noise estimation errors over all the frequencies of the noisy speech “j-o-h” (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 4 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验的高斯、拉普拉斯、伽玛和联合模型的平均噪声 估计误差结果 Fig. 4 The average experimental results of the Gaussian, Laplacian, Gamma, and combined model under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 79 为了进一步评估所提的噪声估计方法的效果, 本文在实验室中用 4 种噪声 (计算机风扇噪声、汽 车引擎噪声、人群欢呼噪声、机器蜂鸣噪声) 录制了 阵列噪声数据, 并进行了噪声估计实验. 所用的麦克 风阵列有 8 个麦克风, 阵元间距为 4 厘米. 噪声源 放置在阵列正前方距离为 1 米的地方. 数据采样率 为 16 kHz. 对于每种噪声, 各用 5 句不同的纯净语 音与其在 6 种信噪比 (−10 dB, −5 dB, 0 dB, 5 dB, 10 dB, 15 dB) 下进行混合, 总共得到 120 句带噪语 句. 图 4 和图 5 给出了在这 120 句数据上进行实验 的结果. 从图 4 中可看出, 对于计算机风扇噪声数据和 机器蜂鸣噪声数据而言, 所提的联合模型在 8 dB 以 下输入信噪比数据上比高斯模型、拉普拉斯模型和 伽玛模型要好, 且在所有输入信噪比数据的平均统 计上, 也是如此. 而对于汽车引擎噪声和人群欢呼噪 声, 联合模型的效果比高斯模型和伽玛模型稍差, 比 拉普拉斯模型要好. 这说明了针对噪声的特性进行 模型选择的确能够改进噪声估计效果, 但模型选择 也需要对噪声有针对性地进行才能达到较好的效果. 为了评估所提的噪声估计方法的效果, 本文进 一步将所提的噪声估计方法 (使用了联合模型) 与 基于 VAD 的噪声估计方法 (基于 VAD 的噪声估计 方法用纯噪声帧的平均功率谱作为语音帧噪声功率 谱的估计) 进行了比较, 实验结果如图 5 所示. 从图 5 中可看出, 本文所提的噪声估计方法相 对于比较算法而言, 在不同的信噪比下都更加准确 地估计了噪声. 基于 VAD 的噪声估计方法效果较 差的原因在于语音帧上的噪声与纯噪声帧上的噪声 总是存在着不同. 本文所提的方法在每帧上都在噪 声子空间上估计噪声, 极大地减少了噪声估计误差. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 5 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验的基于 VAD 的噪声估计方法和所提方法的平均 噪声估计误差 Fig. 5 The average experimental results of the VAD based method and the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 80 自 动 化 学 报 36卷 2.2 基于信号子空间的听觉掩蔽阈值估计 在估计出噪声功率谱后, 接下来, 就需要估计目 标语音信号作用于人耳产生的听觉掩蔽阈值, 将噪 声限制在该阈值以下, 就可以将噪声掩蔽掉, 从而实 现对目标语音信号的增强. 人耳听觉频率范围是 0 到 15 500Hz, 覆盖了 24 个关键子频带[13], 需要在每 个子频带中计算听觉掩蔽阈值. 首先, 计算表征人耳基膜上能量的激励能量值 C(j, b)[14]: C(j, b) = SF (j) ∗H(j, b) (23) 其中, H(j, b) 表示的是第 j 个子频带内第 b 个频点 上的能量, SF (j) 是传播函数, j = 1, · · · , 24. 传播函数 SF (j) 计算如下: SF (j) = 15.81 + 7.5(j + 0.474)− 17.5 √ 1 + (j + 0.474)2 (24) 频点能量 H(j, b) 则可根据信号子空间特征值和特 征向量计算出来[15]: H(j, b) = mean ( 1 L Q∑ i=1 λSi |UUU1,i|2 ) (25) 其中, λSi = λXi − φ˜NN 为目标信号功率谱矩阵的特 征值估计, UUU1,i 为信号子空间的第 i 个基, mean(·) 为取均值符号. 听觉掩蔽阈值 Cthr 可由 C(j, b) 计算出来[14]: Cthr = 10lg |C(j,b)|−|O(j)/10|−|φ˜NN/10| (26) 其中, φ˜NN 是估计的噪声功率谱, O(j) 是偏移量, 如图 6 所示. 图 6 各个子频带的偏移量 Fig. 6 The offsets of subbands 2.3 基于听觉感知特性的后滤波器设计 在得到了听觉掩蔽阈值后, 本文接下来进行基 于听觉感知特性的后滤波器的设计, 针对式 (6), 本 文提出如下目标约束: minET = (G(ejω)− 1)2S(ejω)2 +G(ejω)2N˜(ejω)2 (27) s.t. G(ejω)2N˜(ejω)2 ≤ Cthr (28) 用拉格朗日乘子法求解, 令: J = ET + µ(G(ejω)2N˜(ejω)2 − Cthr) (29) 令 J 对 G(ejω) 求导, 并使其为零, 可得: G(ejω) = S(ejω)2 S(ejω)2 + (1 + µ)N˜(ejω)2 (30) 由式 (30) 可看出在本文的目标约束下, 基于听觉感 知特性的后滤波器在表达形式上就是更合理地估计 了噪声的维纳滤波器. 令 J 对 µ 求导, 并使其为零, 可得: G(ejω) = √ Cthr N˜(ejω)2 (31) 由式 (30) 和 (31) 相等, 可得: 1 + µ = S(ejω)2 N˜(ejω)2 ·max (√ N˜(ejω)2 Cthr − 1, 0 ) (32) 将式 (32) 带入式 (30), 并用式 (17) 中的 φ˜NN 代替 N˜(ejω)2, 得到本文所提的基于听觉感知特性的后滤 波器如下: G(ejω) = 1 1 +max (√ φ˜NN Cthr − 1, 0 ) (33) 3 本文所提麦克风阵列后滤波语音增强算法 实现 本节给出了本文所提的基于听觉感知特性的后 滤波语音增强算法的实现步骤. 在图 7 中, 给出了本文所提的基于听觉感知特 性的后滤波语音增强算法的实现流程. 具体的计算 步骤如下: 步骤 1. 将带噪信号进行延时补偿、对齐后, 进 行分帧傅里叶变换, 并用波束形成器去噪, 得到单通 道增强语音信号. 步骤 2. 对带噪语音信号每一帧中的每个频率 点, 估计 ΦXX , 并进行特征值分解, 得到特征值和特 征向量. 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 81 图 7 基于听觉感知特性的后滤波语音增强算法实现流程图 Fig. 7 The scheme of the proposed auditory properties based post-filter speech enhancement algorithm 步骤 3. 用本文所提的基于目标语音存 在概率最大化的方法确定信号子空间维度为 argmaxQ P (S|H1), 进而得到噪声子空间维度 L − Q. 步骤 4. 用式 (18) 和 (19) 估计 P (H0|X) 和 P (H1|X), 并用式 (17) 估计噪声功率谱. 步骤 5. 用式 (26) 计算听觉掩蔽阈值. 步骤 6. 用式 (33) 估计本文所提的基于听觉感 知特性的后滤波器. 步骤 7. 进行后滤波语音增强和逆傅里叶变换 后, 得到增强后的语音. 4 实验结果 为了验证本文所提的基于听觉感知特性的后滤 波语音增强算法的效果, 本文将所提算法 (噪声估计 用联合模型) 与波束形成器算法[1], Zelinski 后滤波 算法[2] 和McCowan 后滤波算法[3] 进行了比较, 如 图 8∼ 11 所示. 实验所用的数据为第 2.1 节中介绍 的数据. 数据进行了加窗 (汉明窗) 傅里叶变换, 帧 长 25 毫秒, 帧移为 10 毫秒. 所采用的评价 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 包 括[16−17]: 信噪比 (Signal to noise ratio, SNR)、对 数域比例距离 (Log area ratio distance, LAR)、对 数域似然距离 (Log likelihood ratio, LLR) 和对数 谱距离 (Log spectral distance, LSD). 其中, SNR 值越高语音质量越好, LAR、LLR 和 LSD 值越低 语音质量越好. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 8 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的平均信噪比结果 Fig. 8 The average SNR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 82 自 动 化 学 报 36卷 从图 8 中可以看到在信噪比指标上, 对于各 种噪声数据, 所提的算法比其他所有比较算法都 要好. 相对于比较算法中的最好算法而言, 所提 算法在所有输入信噪比数据上的平均改进分别为: 计算机风扇噪声数据 1.55 dB, 汽车引擎噪声数据 1.12 dB, 人群欢呼噪声数据 0.77 dB, 机器蜂鸣噪 声数据 0.19 dB. 在4种噪声的所有数据统计上, 本 文所提的算法比比较算法中的最好算法平均改进 0.91 dB. 从图 9 中可以看到在 LAR 指标上, 对于计算 机风扇噪声数据和人群欢呼噪声数据, 所提算法比 其他所有比较算法都要好. 相对于比较算法中的最 好算法而言, 所提算法在所有输入信噪比数据上的 平均改进分别为: 计算机风扇噪声数据 32.6%, 人群 欢呼噪声数据 4.6%. 对于汽车引擎噪声数据, 所提 算法比 Zelinski 后滤波算法和McCowan 后滤波算 法要好, 比波束形成器算法要差 11.3%, 原因在于, 后滤波器进行后滤波提高信噪比的同时, 也有可能 增加语音的畸变. 对于机器蜂鸣噪声数据, 所提算法 比 Zelinski 后滤波算法和McCowan 后滤波算法要 稍差 (比最好的差 7.5%), 比波束形成器算法要好得 多. 总的而言, 后滤波器算法比波束形成器算法更能 够减小语音的畸变. 在 4 种噪声的所有数据统计上, 本文所提的算法比比较算法中的最好算法平均改进 8.9%. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 9 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LAR 结果 Fig. 9 The average LAR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 83 从图 10 中可以看到在 LLR 指标上, 所提算法 对于汽车引擎噪声数据、人群欢呼噪声数据和机器 蜂鸣噪声数据比其他所有的比较算法都好, 相对于 其他比较算法中的最好算法而言, 所提算法在所有 输入信噪比数据上的平均改进分别为: 汽车引擎噪 声数据 46.7%, 人群欢呼噪声数据 24%, 机器蜂鸣 噪声数据 35.8%. 对于计算机风扇噪声数据, 所提 算法比 Zelinski 后滤波算法和McCowan 后滤波算 法要好, 比波束形成器算法稍差为: 8%. 在 4 种噪 声的所有数据统计上, 本文所提的算法比比较算法 中的最好算法平均改进 31.2%. 从图 11 中可以看到, 在 LSD 指标上, 对于各种 噪声, 所提的算法比其他所有比较算法都要好. 相对 于比较算法中的最好算法而言, 所提算法在所有输 入信噪比数据上的平均改进分别为: 计算机风扇噪 声数据 16.5%, 汽车引擎噪声数据 16.8%, 人群欢呼 噪声数据 9.4%, 机器蜂鸣噪声数据 6.4%. 在 4 种 噪声的所有数据统计上, 本文所提的算法比比较算 法中的最好算法平均改进 11.6%. 从上述 4 种评价指标的实验结果可以看到, 所 提算法对于多种不同的噪声数据都比传统算法具有 更好的消除噪声和恢复目标语音的效果. 所提算法 不仅在低信噪比下具有较好的语音增强性能, 在高 信噪比下, 也没有增加目标语音的畸变. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 10 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LLR 结果 Fig. 10 The average LLR results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 84 自 动 化 学 报 36卷 图 12 给出了语句 “tvah5253” 的语谱图. 从图 12 中可以看到, 波束形成器、Zelinski 后滤波器和 McCowan 后滤波器都不能完全地消除噪声 (噪声 为汽车引擎噪声), 尤其是噪声能量集中的低频噪声. 相比之下, 本文所提的算法具有更好的噪声消除效 果, 恢复的目标语音信号也具有更小的失真. 5 结论 本文首先针对传统的后滤波算法对于噪声功率 谱估计不准的问题, 提出了一种基于子空间方法的 噪声功率谱估计方法. 本文将带噪信号空间分解为 信号子空间和噪声子空间, 提出了利用目标语音存 在概率最大化确定信号子空间维度的方法. 在噪声 子空间上, 提出了利用条件概率估计噪声功率谱的 方法. 实验证明, 本文的噪声估计方法比传统的噪声 估计方法更加准确. 接着, 本文基于人耳的听觉掩蔽 效应, 提出了一种后滤波器设计方法. 语音增强实验 证明本文所提的后滤波算法比传统算法更好. 在多 项语音评价指标上, 相对于传统算法, 本文所提的算 法都取得了更好的实验效果. (a) 计算机风扇噪声数据 (a) The noisy data of computer fan (b) 汽车引擎噪声数据 (b) The noisy data of car engine (c) 人群欢呼噪声数据 (c) The noisy data of people cheer (d) 机器蜂鸣噪声数据 (d) The noisy data of machine 图 11 针对不同噪声数据, 在不同输入信噪比下, 各用 5 句带噪语音进行实验, 所统计的 LLR 结果 Fig. 11 The average LSD results of the proposed method under different input SNR conditions for different noisy data (Each piece of noisy data has 5 utterances.) 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 1期 程宁等: 基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法 85 (a) 目标语音 (a) The target speech (b) 中间麦克风的带噪输入 (b) The noisy input of the central microphone (c) 波束形成器输出 (c) The result of the Beamformer algorithm (d) Zelinski 后滤波器输出 (d) The result of the Zelinski algorithm (e) McCowan 后滤波器输出 (e) The result of the McCowan algorithm (f) 所提的后滤波器输出 (f) The result of the proposed algorithm 图 12 语句 “tvah5253” 的语谱图 Fig. 12 The spectrograms of the utterance “tvah5253” 更多技术文章,论文请登录www.srvee.com 内容版权归作者所有 86 自 动 化 学 报 36卷 References 1 Simmer K U. Post-filtering techniques. Microphone Arrays: Signal Processing Techniques and Applications. Berlin: Springer, 2001. 36−60 2 Zelinski R. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. New York, USA: IEEE, 1988. 2578−2581 3 McCowan I A, Bourlard H. Microphone array post-filter based on noise field coherence. IEEE Transactions on Speech and Audio Processing, 2003, 11(6): 709−716 4 Ephraim Y, van Trees H L. A signal subspace approach for speech enhancement. IEEE Transactions on Speech and Au- dio Processing, 1995, 3(4): 251−266 5 You C H, Rahardja S, Koh S N. Audible noise reduction in eigendomain for speech enhancement. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(6): 1753−1765 6 Chang J L, Kim N S. Speech enhancement: new approaches to soft decision. IEICE Transactions on Information and Systems, 2001, 84(9): 1231−1240 7 Chang J H, Kim N S. Voice activity detection based on complex Laplacian model. Electronic Letters, 2003, 39(7): 632−634 8 Kim N S, Chang J H. Spectral enhancement based on global soft decision. IEEE Signal Processing Letters, 2000, 7(5): 108−110 9 Sohn J, Kim N S, Sung W. A statistical model-based voice activity detection. IEEE Signal Processing Letters, 1999, 6(1): 1−3 10 Gazor S, Zhang W. Speech probability distribution. IEEE Signal Processing Letters
本文档为【基于多统计模型和人耳听觉特性的麦克风阵列后滤波语音增强算法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_832301
暂无简介~
格式:pdf
大小:5MB
软件:PDF阅读器
页数:13
分类:互联网
上传时间:2010-05-26
浏览量:116