麦克风阵列语音增强技术及其应用

麦克风阵列语音增强技术及其应用麦克风阵列语音增强技术及其应用 Technology and application of speech enhancement based on microphone array 洪鸥 Hong Ou 摘要：本文简要叙述了应用麦克风阵列进行语音增强的原理及方法。且由于麦克风阵列在实际语音处理时具有良好的拾取语音能力及噪声鲁棒性，本文将介绍该技术在车载系统环境、机器人语音识别、大型场所的记录会议、助听装置及声源定位等系统中的应用。关键字：麦克风阵列；声源定位；语音增强中图分...

麦克风阵列语音增强技术及其应用 Technology and application of speech enhancement based on microphone array 洪鸥 Hong Ou 摘要：本文简要叙述了应用麦克风阵列进行语音增强的原理及方法。且由于麦克风阵列在实际语音处理时具有良好的拾取语音能力及噪声鲁棒性，本文将介绍该技术在车载系统环境、机器人语音识别、大型场所的MATCH_ word _1716348292239_0会议、助听装置及声源定位等系统中的应用。关键字：麦克风阵列；声源定位；语音增强中图分类号：TN912.3 文献标识码：A Abstract: This paper describes the foundational theory of speech enhancement based on microphone arrays. Microphone arrays have great potential in practical applications of speech processing, due to their ability to provide both noise robustness and hands-free signal acquisition. Then this paper introduces the applications of microphone array in car environment, robot, hands-free telephony, audio conferencing, car environment, and hearing aids etc. Key words: Microphone array；Speech localization； Speech enhancement 1 引言在目标语音的实际拾取过程中，不可避免会受到外界环境噪声和其他说话人的干扰。如果干扰噪声过强对收听者而言则会觉得刺耳乃至听不清目标语音。针对这种情况，通常采用增强语音、去除背景噪声的方法来改善系统性能。目前语音增强的方法很多，根据使用麦克风的数目可分为单麦克风系统和麦克风阵列系统。近 20 年来不少研究者提出了使用一个或两个麦克风来去除噪声，但由于实际环境噪声的复杂性均不能达到满意的消噪要求。而阵列信号处理采用广义旁瓣对消思想，即用“电子瞄准”的方式从声源位置获取较高品质的语音信号同时抑制其他说话人的声音及环境噪声，具有很好的空间选择性。由此麦克风阵列明显优于具有高方向性的单麦克风系统，使其成为 20 年来语音信号处理的一个重要分支，以及拾取语音时减小噪声和混响颇具前景的技术之一。如果系统的算法精简得当，麦克风阵列可应用于许多场合，如视频会议、机器人语音识别、车载系统环境、大型场所会议、助听装置等。 2 麦克风阵列语音增强的原理及优点麦克风阵列通过对拾取的多路语音信号进行分析与处理，使阵列形成的波束方向图主瓣对准目标语音，“零点”指向干扰源以抑制干扰信号，从而尽可能地获取目标语音。其中波束方向及波束主瓣宽度与麦克风的间距、麦克风数目、麦克风的摆放位置、声源入射角及采样频率紧密相关。波束的形成不仅消除了使用单个麦克风时需人工调节麦克风指向性问题，而且可以使输出语音的信噪比大幅度提高，从而无需人工干预亦可获得高质量的语音。在实际室内环境中麦克风阵列接收到的信号不仅有直接到达的目标语音，还有目标语音经过墙面反射、衍射等其它路径到达的部分即混响，同样对于噪声源也是如此。室内存在干扰和混响的典型示意图如图 1（a）所示，而利用麦克风阵列获取目标语音信号示意图如图 1（b）所示。图 1（a）室内存在干扰和混响语音示意图图 1（b）麦克风阵列波束示意图由上述可见麦克风阵列较之单麦克风系统具有许多优点，具体表现在：1) 麦克风阵列系统具有空间选择特性，可以用“电子瞄准”的方式从所需声源位置提供高品质的语音信号；在此麦克风阵列明显优于高方向性的单麦克风系统；2) 高方向性的单麦克风系统通常只能拾取一路信号且其指向性一般不随声源改变。而麦克风阵列系统具有自动探测定位，可在接收区域内追踪正在说话的人，有利于获取多个声源或移动声源。 3 麦克风阵列语音增强的主要方法麦克风阵列语音增强的处理过程主要涉及到三个方面：语音定位，空间抑制及自适应滤波。对于麦克风阵列获取语音的性能好坏而言，环境噪声是一个严峻挑战，因此迫切需要选择性地接收目标语音而抑制干扰信号及噪声的方法。目前众多研究人员应用麦克风阵列波束进行语音增强的方法大致上可分成三类[4]：延迟－累加方法（传统波束法）、自适应波束法及基于后置自适应滤波的麦克风阵列法。 3.1 延迟－累加波束法三种方法中最简单的是延迟－累加波束法，此方法实现空间滤波的思想来源于相控雷达的原理。通过延时控制补偿从声源到每个麦克风的延时，对每个麦克风接收到的信号进行校正。然后使麦克风阵列波束指向有最大输出功率的方向，即波束对准相应空间位置的声源信号同时削弱噪声和混响的影响。延时－累加方法可以分为三个部分，即时间延迟估计、时间延迟补偿及累加部分（Flanagan, 1985[6]），其系统框图如图 2（ a）所示。其中时间延迟估计与使用麦克风数目、麦克风间距、声源入射角及采样频率成正比，与声音的传播速度成反比。加权方法有很多种，最简单的是平均加权。该系统具有较好的鲁棒性且计算复杂度也较小，但在实际应用中，理论上信噪比的提高与采用麦克风数目的关系为 M10log10 (M 为所采用的麦克风数目)，由此欲达到较好指向性和较高信噪比时需要的麦克风数目较多。 3.2 自适应波束法自适应波束法利用的原理是自适应噪声抵消，即以噪声为处理对象将噪声抑制或进行非常大的衰减以提高接收信号的质量[1][2]，其系统框图如图 2（b）所示。由系统框图可以看到，在自适应噪声干扰抵消器的前端，提供所需的逼近跟踪信号即噪声信号的是一个块矩阵的运算输出，此输出相当于起了参考信号的作用。这个块矩阵称为标准 Griffiths—Jim 块矩阵，其形式为： ⎥⎥ ⎥⎥ ⎥⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎢⎢ ⎣ ⎡ − − − − = 11000 01100 00110 00011 Λ Λ ΜΛΟΟΛΜ Λ Λ B , 延迟补偿后的信号（即含噪语音）减去块运算输出的模仿噪声信号即得到最小均方误差准则下目标语音估计信号。在开放环境条件下，如果噪声源的数目比麦克风数目少，自适应波束法能得到很好的性能。而在封闭环境中由于反射和混响会产生多噪声域的情况，在此散射噪声条件下自适应波束法的消噪性能比较有限。 3.3 后置自适应滤波法由于单纯的延迟－累加方法较难得到理想的语音增强，一般在较复杂的实际噪声情况下采用4 个麦克风其信噪比的改善在 dBdB 1~5.0 左右[5]，因此需要进一步的增强方法。1988 年 Zelinski[8]提出了在传统的波束输出后采用后置滤波来消除不相关噪声的延迟－累加－滤波方法，即后置自适应滤波法，其系统框图如图 2（c）所示。此方法中维纳滤波器的系数是根据各信道接收信号间的自相关和互相关得到，即维纳滤波器的系数是自适应变化的。延迟－累加后的含噪语音信号经过维纳滤波后得到最小均方误差准则下的目标语音估计信号。这种方法在不相关噪声的环境下能通过相对较少的麦克风数目获得较好的消噪性能。如在较复杂的实际情况下系统采用4 个麦克风时，采用此方法比延迟－累加方法能提高 dBdB 6~4 左右[5]，消噪效果十分明显。 3.4 几类语音增强方法的优缺点比较由上述分析可知，延迟－累加波束法和后置自适应滤波法适用于非相干噪声和弱相干噪声消除；而自适应波束法适用于消除相干噪声，对非相干噪声或散射噪声消除效果较差。而在实际应用中，噪声域包含的噪声既不是完全散射的也不是仅有直接路径到达麦克风的，因此需要在以后的研究中应探讨可以同时消除这两种噪声的麦克风阵列语音增强方法。 ∑ 图 2（a）延迟－累加波束法系统框图麦克风阵列 Mic0 Mic1 Mic2 Mic3 时延补偿时延估计加权块矩阵 B 1a 0a 2a ∑∑ ∑ + - 图 2（b）自适应波束法系统框图麦克风阵列 Mic0 Mic1 Mic2 Mic3 时延补偿时延估计加权维纳滤波器参数估计维纳滤波器后置自适应滤波 ∑ 图 2（c）后置自适应滤波系统框图 4 麦克风阵列语音增强技术的应用由于麦克风阵列在实际语音处理时能提供良好的拾取语音能力及噪声鲁棒性，且随着 DSP 芯片的飞速发展、性价比的提高使得麦克风阵列广泛应用于车载系统环境、机器人识别、视频会议、语音识别的前端、大型场所的记录会议和助听装置等。 4.1 应用于车载系统移动电话已成为一般人日常生活中不可或缺的通信工具，而汽车行驶中驾驶员使用移动电话的安全问题已引起了广泛关注，采用麦克风阵列系统与语音识别相结合则能很好地解决此难题。汽车中的噪音主要包括汽车引擎的声音、轮胎经过道路的声音及车內音响空调的声音等，这些噪声大致可认为形成了一个不相干的噪声域。这时采用基于后置自适应滤波的麦克风阵列可以有效地提高语音的辨识效果[7]。 4.2 应用于机器人语音识别在办公室内运作的机器人与工厂机器人最大的不同是人机交互而办公室是一个动态的工作环境，需要机器人有足够的灵活性和适应性。当人机交互时就需要机器人“准确”地识别指令，而当环境噪声比较复杂时，用单麦克风的效果是很差的。为解决这个问题就可以使用麦克风阵列，在机器人的身上放置多个麦克风从而实现语音定位，通过麦克风阵列语音增强与语音识别相结合能更精确地“理解”指令。 4.3 应用于视频会议及大型会场参加视频会议的人很多时，欲发言讨论者也相应较多。传统方法是使用一个麦克风谁欲发言就给谁使用，该方法虽然成本不高但在实际使用时很麻烦；另一种方法则是给每一个欲发言者配备一个专用麦克风，此方法虽然方便但造价很高。使用麦克风阵列则可以较好地解决该问题，它能自适应地调整波束并对准发言者。德国工业计算机辅助中心（CAIP）于 2001 年把麦克风阵列应用于室内演讲中，此系统由两组每组四个成直角分布位于观众席的麦克风阵列组成，其具有定位能力以集中采集当前演讲者的语音。 4.4 应用于助听器目前在数字助听器中，麦克风阵列的技术得到日益广泛的应用。使用这种技术的原因来自几个方面：首先，在有噪声的环境下助听器在增强目标语音信号幅度时也增强了噪声的幅度；其次，在有混响时助听器不仅增强了直接到达的语音信号也增强了后来经过反射后到达的语音；再者，助听器的输出反馈会削弱助听器的频率响应。因此一个优异的助听器不仅能增强幅度，而且要提高信噪比、减小混响影响并消除反馈。麦克风阵列可利用目标语音和噪声在空间域的差异来克服上述问题。美国斯坦福大学 Bernard Widrow 教授 2001 年发明了利用麦克风阵列的助听器[3]，这种助听器是将六组细小的麦克风安装在一个 V 形状的项链中。多次实验证实其能正确收听 95%的声音，且从理解率而言比老式助听器提高近 70%。 5 总结鉴于麦克风阵列相对单麦克风系统的诸多优点，使其成为减小噪声的又一有力武器，并成为语音数字信号处理的一个重要分支。因语音是一种宽带的非平稳信源，所以采用阵列系统时需满足一个比较宽的声域范围以能把此技术更广泛地应用于实际，同时需要考虑降低系统成本和计算时间，以达到较好的实用性。近年来随着研究的不断深入和 DSP 芯片的飞速发展性价比的提高使麦克风阵列越来越接近实际使用，在各领域的研究产品也是层出不穷。参考文献 [1]B.Widrow, P.E.Mantey, L.J.Griffiths and B.Goode（1967）. Adaptive antenna systems. Proc. IEEE.Vol.55, No.12, pp.2143-2159. [2]B.Widrow et al.（1975）. Adaptive noise canceling: Principles and applications.Proc. IEEE, Vol.63, No.12, pp: 1692-1975. [3]B.Widrow, Luo Fa-Long（2003）. Microphone arrays for hearing aids: An overview. Speech Communication, Vol.39, Issue: 1-2, January, 2003, pp: 139-146. [4]Fischer Sven, Simmer Klaus Uwe（1996）. Beamforming microphone arrays for speech acquisition in noisy environments. Speech communication, Volume: 20, Issue: 3-4,pp. 215-227. [5]I.A. McCowan, H. Bourlard（2002）. Microphone array post-filter for diffuse noise field. Acoustics, Speech, and Signal Processing, 2002. Proceedings. (ICASSP '02). IEEE International Conference on, Volume: 1, 13-17 May 2002, vol.1, pp:I-905 - I-908 [6]J.L.Flanagan, J.D.Johnson, R.Zahn and G.W Elko（1985）.Computer-steered microphone arrays for sound transduction in large rooms. J.Acoust.Soc.Amer, Vol.78, No.5, pp: 1508-1518. [7]Y.Grenier（1993）.A microphone array for car environments.Speech Communication, Vol.12, No.1, pp: 25-39. [8]Zelinsk（1988）. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms. ICASSP-88., 1988 International Conference on, 11-14 April 1988, vol.5, pp: 2578 -2581. 作者简介：洪鸥，女，1979.5，汉族，上海大学通信与信息工程学院硕士毕业生；研究方向：语音数字信号处理，阵列信号处理；e_mail：nbho@sohu.com Author Briefing: Hong Ou, Female, Born in 1979, Han, Graduate from Communication and Information Engineering, Shanghai University；Researchful Field：Speech signal processing，Array signal processing；e_mail：nbho@sohu.com 通信地址：（201101 上海市漕宝路 1555 号 8 区 3 号 201 室）洪鸥另：因为已毕业，现在的地址是家里的地址，所以刊登时能否不刊出通信地址，以免有时会引起不必要的麻烦。给您工作带来的麻烦表示非常抱歉。刊出后杂志请寄往上述通信地址。谢谢！

                    本文档为【麦克风阵列语音增强技术及其应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

麦克风阵列语音增强技术及其应用

你可能还喜欢