全部分类

搜索资料

首页 语音信号处理课程设计报告孤立词识别

语音信号处理课程设计报告孤立词识别

举报

开通vip

语音信号处理课程设计报告孤立词识别PAGEPAGE14课程设计报告名称语音信号处理课程设计基于动态时间规整的小规模孤立词语音识别系统设计与开发指导教师李红莲设计起止日期2015-5-14至2015-6-14学院信息与通信工程专业电子信息工程学生姓名班级/学号成绩指导老师签字12级“语音信号处理课程设计”任务书题目3基于动态时间规整的小规模孤立词语音识别系统设计与开发主要内容编程实现基于动态时间规整的小规模孤立词语音识别系统，可以实时识别每个集合内的孤立词。设计要求录制训练及测试语音。能够提取特征参数MFCC。能够使用动态时...

语音信号处理课程设计报告孤立词识别

PAGEPAGE14课程设计报告名称语音信号处理课程设计基于动态时间规整的小规模孤立词语音识别系统设计与开发指导教师李红莲设计起止日期2015-5-14至2015-6-14学院信息与通信工程专业电子信息工程学生姓名班级/学号成绩指导老师签字12级“语音信号处理课程设计”任务书题目3基于动态时间规整的小规模孤立词语音识别系统设计与开发主要内容编程实现基于动态时间规整的小规模孤立词语音识别系统，可以实时识别每个集合内的孤立词。设计要求录制训练及测试语音。能够提取特征参数MFCC。能够使用动态时间规整（DTW）算法计算语音模板之间的距离。编程实现基于动态时间规整的小规模孤立词语音识别系统。对某个集合内的孤立词语音实时进行识别准确率应不低于80%。主要仪器设备计算机1台，安装MATLAB软件及cooledit录音软件主要参考文献数字语音处理及MATLAB仿真[M].北京：电子工业出版社，2010.课程设计进度计划（起止时间、工作内容）本课程设计共安排3个题目，这是其中题目之一。具体进度如下：6学时复习题目相关知识，掌握实现的原理；16学时用MATLAB语言实现题目要求；6学时进一步完善功能，现场检查、答辩；4学时完成课程设计报告。课程设计开始日期2015.5.14课程设计完成日期2015.6.14课程设计实验室名称电子信息技术实验室地点实验楼3-507资料下载地址摘要本论文主要阐述了语音识别系统开发的过程，采用了端点检测和特征参数提取的思路，主要的关注点是如何运用MEL频率倒谱系数(MFCC)的算法,也运用了动态时间规整(DTW)算法，以MATLAB语言为编程语言，编程和获得语音识别算法。笔者设计的语音识别算法的识别率相对较高，而以该算法为基础的语音识别系统可以达到设计的要求，所以其市场前景广阔。关键词：语音识别系统；MFCC；DTW；孤立词识别AbstractThispapermainlyexpoundsthevoicerecognitionsystemdevelopmentprocess,usingtheendpointdetectionandfeatureextractionofideas,themainconcernishowtouseMELFrequencyCepstralCoefficients(MFCC)algorithm,alsousedtheDynamicTimeWarping(DTW)algorithminMATLABlanguageprogramminglanguageprogrammingandaccesstospeechrecognitionalgorithm.Theauthordesignthespeechrecognitionalgorithmoftherecognitionrateisrelativelyhigh,andbasedonthealgorithmofspeechrecognitionsystemcanmeetthedesignrequirements,soitswideprospectofmarket.Keywords:speechrecognitionsystem,MFCC,theDTW(dynamictimewarping);isolatedwordsrecognition;目录TOC\o"1-3"\h\uHYPERLINK\l_Toc2846412级“语音信号处理课程设计”任务书PAGEREF_Toc284642HYPERLINK\l_Toc3000摘要PAGEREF_Toc30003HYPERLINK\l_Toc6007AbstractPAGEREF_Toc60074HYPERLINK\l_Toc23713第一章概述PAGEREF_Toc237136HYPERLINK\l_Toc283201.1主要内容PAGEREF_Toc283206HYPERLINK\l_Toc10561.2要求PAGEREF_Toc10566HYPERLINK\l_Toc208211.3主要仪器设备PAGEREF_Toc208216HYPERLINK\l_Toc122971.4基本方法PAGEREF_Toc122976HYPERLINK\l_Toc12970第二章信号特征参数MFCC提取PAGEREF_Toc129707HYPERLINK\l_Toc14716第三章DTW算法PAGEREF_Toc147169HYPERLINK\l_Toc30739第四章实现过程及结果PAGEREF_Toc3073911HYPERLINK\l_Toc14294.1实现过程PAGEREF_Toc142911HYPERLINK\l_Toc312134.2结果及分析PAGEREF_Toc3121312HYPERLINK\l_Toc7232结束语PAGEREF_Toc723212HYPERLINK\l_Toc30057参考文献PAGEREF_Toc3005712HYPERLINK\l_Toc17404附录PAGEREF_Toc1740413HYPERLINK\l_Toc221981、place_recgrnitionPAGEREF_Toc2219813HYPERLINK\l_Toc231482、vadPAGEREF_Toc2314814HYPERLINK\l_Toc265693、mfccPAGEREF_Toc2656916HYPERLINK\l_Toc208994、dtwPAGEREF_Toc2089917HYPERLINK\l_Toc30615、outPAGEREF_Toc306119第一章概述21世纪，人类要不断地进行信息交流和传递，而在这一过程中，语音无疑是最为方便的工具和主要的交流媒介。所以，为了达到交流方便的目的，我们往往在人机系统中，采用语音识别系统。说得更通俗一点，语音识别就是要能让机器理解人在说什么，即准确地识别出语音的内容，以此来达到人的意愿执行机器指令的目的。就语音识别技术的应用的主要内容来看，主要就是语音拨号、导航、语音文档检索等一系列功能。语音识别技术就好像其他的HYPERLINK"http://baike.baidu.com/view/18784.htm"\t"_blank"自然语言处理技术一样，在处理了相关的技术之后，就能够顺利地展开语音间翻译。1.1主要内容编程实现基于动态时间规整的小规模孤立词语音识别系统，可以实时识别每个集合内的孤立词。1.2要求1.录制训练及测试语音。2.能够提取特征参数MFCC。3.能够使用动态时间规整（DTW）算法计算语音模板之间的距离。4.编程实现基于动态时间规整的小规模孤立词语音识别系统。5.对某个集合内的孤立词语音实时进行识别6.准确率应不低于80%。1.3主要仪器设备计算机1台，MATLAB软件及cooledit录音软件1.4基本方法一般开说，我们在识别语音的时候，主要有三种语音识别方法：第一种是声道模型和语音知识方法，第二种是模板匹配方法，第三种是人工神经网络语音识别方法。（1）声道模型和语音识别方法：这种方法是较早就开始进行过研究的，当时主要是在语音识别技术的基础上提出来的，但是考虑到其模型及语音知识相对来说不是很简单，所以就是到了现在也没有采用于实际的工作中。一般来说，人们都会以为，在一些我们经常使用到的语言中，语音基元的数量是有限的，在区分它们的时候，我们通常都是以时域特性和语音信号频域为基础的，具体地来说，要实现该方法主要是按以下步骤进行的：其一，分段和标号，通过以时间为基本单元，把语音信号按划分成若干个离散的段，任何一段都与若干个语音基元特性存在着相互对应的联系。从此之后，人们在对语音基元进行分段的时候，都是以声学特性为基础，会给出相对应的标音符号。其二，我们成功地获取到了词序列之后，下一步的工作就是以语音识别序列为基础，获取到首个语音基元网格。(2)主要的模版匹配方法模板匹配方法目前的发展情况非常好，可以所已经处于一个比较成熟的实用阶段。我们在匹配模板的时候，通常都是按照下面的顺序来进行的：提取特征、讯乱模板、分类模板、判决。其中，往往用来开展此工作的方法如下：动态时间规整(DTW)、隐马尔可夫(HMM)理论等。第二章信号特征参数MFCC提取语音信号在端点检测以后，就把其中的噪声消去了，同时也把有价值的语音信息全部提出来了，这也就进到了语音识别的最关键的阶段：特征提取阶段。正确又合理地把特征参数选择出来，有利于提高系统的识别率，而且还会系统的实时性能产生较大的影响。语音信号特征提取往往就是出于二个目的，其一就是想尽办法取得模式匹配数据库中的模板样本：其二就是在进行语音识别时，采取一切措施，减少相同类的类间距离，与此同时，语音信号的端点还要保持在类的类间距离尽量大，这也就意味着异音字特征间的距离尽可能的大，而使得同音字的间距尽可能地缩小。近几年以来，充分地利用人耳的特殊感知特性的参数在实际中得到了普及应用，这就是Mel频率倒谱参数(MelFrequencyCepstrumCoefficient，MFCC)，简称MFCC。MFCC参数能够比LPCC参数可以更好地优化系统的性能。Mel频率和线性频率的具体关系式如下：对于频率轴，我们主要是使用了不均匀划分方法，而这也是MFCC特征最大的特点。如图2.2所示的滤波器组中，就有16个滤波器。图2.2Mel带通滤波器组图我们往往也按帧来计算MFCC倒谱系数，在实际应用中，MFCC倒谱系数的计算过程如图2.3：图2.3MFCC计算的一般流程(1)其一，就是要对信号进行预加重和加窗处理，然后以此为基础，做好离散FFT的变换工作，在进行了取模，再平方以后，又得到了离散功率谱QUOTE\*MERGEFORMAT。在此次文章中，我们主要是用了帧长为256点，帧移为80点的信号。所以，我们根据此，得到了第n帧语音信号QUOTE\*MERGEFORMAT,另外也做了离散傅里叶变换工作，并得到了下面的关系式：除此之外，我们再根据短时功率谱与短时傅里叶变换的关系，可以直接地把其中的短时功率谱求解出来，具体的可以用如下的关系式：(2)对做准确的计算，其主要的思路就是通过M(M往往是取16～24)个Mel带通滤波器QUOTE\*MERGEFORMAT，在滤波处理了以后，以此得到了相关的功率值。所以，在任何的频带里，人耳在其中的作用是叠加形成的，所以我们把滤波器的能量放在一起，也主要是对QUOTE\*MERGEFORMAT和QUOTE\*MERGEFORMAT在各点离散频率点上的乘积的和做一些详细的计算，以此来获得M个参数只QUOTE\*MERGEFORMAT(3)对QUOTE\*MERGEFORMAT的自然对数，我们运用如下的公式进行计算，以此来计算出对数功率谱，接下来，我们开展离散余弦变换(DCT)工作，从而得到了L个MFCC系数。对于L，我们往往是取12-16位为主。(4)对于其中的任何一个帧的语音信号，我们都要想办法把其中的L维MFCC参数计算出来，往往还是使用其中的一个参数进行提升。总的来说，标准的MFCC参数往往就只能显示出语音信号的某些静态特性，虽然纯净语音信号情况下可能会产生比较好的识别率。但是，有一点要注意的，那就是如果测试环境和训练环境无法进行匹配，就有可能会导致识别系统的性能下降的情形。其具体的计算公式如下：第三章DTW算法DTW（DynamicTimeWarping,动态时间规整）算法简介：在识别孤立词语音的时候，较好的方法就是DTW算法，它在语音识别中实用得比较早，也是其中最有影响力的一种，在识别孤立词的时候，经常都会使用到这种方法。在DTW算法中，无需做更多的计算。不管是建立模板还是训练模板的阶段，还是识别的阶段，需要判断最终的语音起点和终点。用{R(1)，R(2)，．．R(m)，．．R(M)}来表示其中的一个参考模板，其中起点语音帧用m=1表示，而m=M表示的则是终点语音帧。在表示参考模板和测试的时候，分别用T和R来表示它们。通常来说，相似度越高的距离就越小。（1）如果N和M是相等的，那么就表示R和T事实上就是相同的。直接匹配T(1)与R(1)帧，T(2)与R(2)帧，⋯，T(m)与R(m)帧，计算出它们的失真度，并对其进行求和，这样一来就可以获得总失真。（2）如果N和M值不相等的话，那么就表示R和T事实上是不相同的，这时可以采用动态规划(DP)方法首先需要对测试模式的各个帧号进行标记，具体情况如下图2.3所示：在对齐的时候，使用的主要办法是动态规划。实际上，首先需要查找出网络中所有格点的路径，当然，不可能随意地选择其中的路径，其主要原因就在于任何一种语音发音都有快慢，然而有一点是不能变的，那就是其各部分的先后次序。所以，无论选择什么样的路径，都是从左下角到右上角，参见图3：图2.3DTW算法搜索路径为了能够准确地描述这条路径，按照先后的顺序来设定这些格点，分别是()，⋯，，而在这其中()=（1，1)，=(N，M)。为了保持路径之间能够平稳过渡，可以限制其斜率在0.5：2左右，这也就是说若路径通过格点，那么下一个格点就是：为了能够获取到最准确的路径函数，确保积累的路径距离是最小的，最佳的搜索思路应该是：首先确定()为起点，假设表示的是所有路径的累计距离，最佳路径积累的距离才是最小的。不难证明，在限定条件下，所有的格点，满足要求的路径只有一条。也就是说可以达到该格点的前一个格点只可能是、和，所以说一定是从上面三者中选择最小者所对应的格点来充当其前续结点，若用来代表这一格点，则路径的积累距离可以通过下面的公式来计算：因此，在开展搜索工作的时候，应该以出发点为起点。在现实工作过程中，必须严格存放好所有的前一格点及相应的帧匹配距离。如果能够搜索得到，需要将最佳路径留下来。有时需要向前寻找来进一步得到整条路径。这就是DTW算法。第四章实现过程及结果4.1实现过程1.应用cooledit录音软件录制及测试语音,共录入50个孤立词。2.使用8000Hz的采样率，对录入的音频进行端点检测。3.提取特征参数MFCC。提取原理图如下：MFCCLn（M（p））X(n)M(p)X(k)DCT变换MFCC’4.使用动态时间规整（DTW）算法计算语音模板之间的距离。5.编程实现基于动态时间规整的小规模孤立词语音识别系统。6.对集合内的孤立词语音实时进行识别。4.2结果及分析分析：对麦克风读入“北京”，语音识别系统识别为“北京”。结果正确无误。结束语在本次课程设计中，我应用MFCC特征参数、端点检测等方法提高语音识别的准确性，得到了一个完整的语音识别系统。在整个语音识别系统的研究和设计时，我查阅了相应的资料，而由于语音识别技术毕竟是一个新的领域，所以会在具体的研究上碰到各种各样的困难，造成了在系统中出现各种各样的问题，主要表现在系统在噪音较大的环境下识别的准确度不高等。就当前来看，在语音技术领域有较大的潜力可以挖掘。我们还需要不断地改进其算法，提高识别的精确度。而在其中，人工智能是一个比较重要的前沿发展方向。参考文献[1]数字语音处理及MATLAB仿真[M].北京：电子工业出版社，2010.[2]中国科技论文在线．语音识别中双门限端点检测算法的研究．WvcW．paper．edu．ca，2008．04．07．[3]ZHANGJun,WEIGang．RobustMultistreamSpeechRecognitionBasedonWeightingtheOutputProbabilitiesofFeatureComponents[J].声学学报(英文版)，2009[4]YangJianhua，ZhaoLi.RecognitionOfSpokenChineseDigitBasedOnIntegrationOfVQAndHMM,DepartmentofElectronicEngineering,NUAA2000[5]郭春霞，裘学红.基于MFCC的说话人识别系统,电子科技，2005,11：53-56[6]赵力.语音信号处理[M]．机械工业出版社，2003[7]蒋珉.MATLAB程序设计及应用，北京邮电大学出版，2010[8]王志强.孤立词语识别系统关键问题的研究[D].北京:北京邮申大学,2008附录1、place_recgrnitionclcclearallfori=1:50name=[num2str(i)'.wav'];[y,fs,bits]=wavread(name);[StartPoint,EndPoint]=vad(y);%%端点检测ms{i}=mfcc(y(StartPoint:EndPoint));enda=1;whileaFs=8000;y=wavrecord(3*Fs,Fs,'int16');[StartPoint,EndPoint]=vad(y);%%plot(y(StartPoint:EndPoint));ms_unknown=mfcc(y(StartPoint:EndPoint));fori=1:50d(i)=dtw(ms_unknown,ms{i});endindex=find(d==min(d));out(index);a=input('1继续');End2、vadfunction[n1,n2]=vad(x)%幅度归一化到[-1,1]x=double(x);x=x/max(abs(x));%常数设置FrameLen=240;FrameInc=80;amp1=10;amp2=2;zcr1=10;zcr2=5;maxsilence=8;%6*10ms=30msminlen=15;%15*10ms=150msstatus=0;count=0;silence=0;%计算过零率tmp1=enframe(x(1:end-1),FrameLen,FrameInc);tmp2=enframe(x(2:end),FrameLen,FrameInc);signs=(tmp1.*tmp2)<0;diffs=(tmp1-tmp2)>0.02;zcr=sum(signs.*diffs,2);%计算短时能量amp=sum(abs(enframe(filter([1-0.9375],1,x),FrameLen,FrameInc)),2);%调整能量门限amp1=min(amp1,max(amp)/4);amp2=min(amp2,max(amp)/8);%开始端点检测x1=0;x2=0;forn=1:length(zcr)goto=0;switchstatuscase{0,1}%0=静音,1=可能开始ifamp(n)>amp1%确信进入语音段x1=max(n-count-1,1);status=2;silence=0;count=count+1;elseifamp(n)>amp2|...%可能处于语音段zcr(n)>zcr2status=1;count=count+1;else%静音状态status=0;count=0;endcase2,%2=语音段ifamp(n)>amp2|...%保持在语音段zcr(n)>zcr2count=count+1;else%语音将结束silence=silence+1;ifsilencexa%xb>xa,按下面三个区域匹配%1:xa%xa+1:xb%xb+1:Nforx=1:xay_max=2*x;y_min=round(0.5*x);warpendforx=(xa+1):xby_max=round(0.5*(x-n)+m);y_min=round(0.5*x);warpendforx=(xb+1):ny_max=round(0.5*(x-n)+m);y_min=round(2*(x-n)+m);warpendelseifxa>xb%xa>xb,按下面三个区域匹配%0:xb!%xb+1:xa%xa+1:N%forx=1:xbforx=0:xby_max=2*x;y_min=round(0.5*x);warpendforx=(xb+1):xay_max=2*x;y_min=round(2*(x-n)+m);warpendforx=(xa+1):ny_max=round(0.5*(x-n)+m);y_min=round(2*(x-n)+m);warpendelseifxa==xb%xa=xb,按下面两个区域匹配%0:xa%xa+1:N%forx=1:xaforx=0:xay_max=2*x;y_min=round(0.5*x);warpendforx=(xa+1):ny_max=round(0.5*(x-n)+m);y_min=round(2*(x-n)+m);warpendend%返回匹配分数dist=D(m);functionwarpglobalxy_miny_maxglobaltrglobalDdglobalmnd=D;ify_min<=0;y_min=1;endfory=y_min:y_maxD1=D(y);ify>1D2=D(y-1);elseD2=realmax;endify>2D3=D(y-2);elseD3=realmax;endd(y)=sum((t(x,:)-r(y,:)).^2)+min([D1,D2,D3]);endD=d;outfunctionout(n)switchncase1disp('你说的是:北京');figure(1),imshow('1.bmp')case2disp('你说的是:上海');figure(1),imshow('2.bmp')case3disp('你说的是:广州');figure(1),imshow('3.bmp')case4disp('你说的是:希腊');case5disp('你说的是:墨西哥');case6disp('你说的是:泰国');case7disp('你说的是:黄河');case8disp('你说的是:黄山');case9disp('你说的是:吉娃娃');case10disp('你说的是:缅甸');case11disp('你说的是:伊拉克');case12disp('你说的是:柳宗元');case13disp('你说的是:莫斯科');case14disp('你说的是:西班牙');case15disp('你说的是:葡萄牙');case16disp('你说的是:苏丹');case17disp('你说的是:萨摩耶');case18disp('你说的是:苏轼');case19disp('你说的是:蜈蚣');case20disp('你说的是:陈雯');case21disp('你说的是:德州');case22disp('你说的是:东莞');case23disp('你说的是:菏泽');case24disp('你说的是:济南');case25disp('你说的是:江西');case26disp('你说的是:莱芜');case27disp('你说的是:临沂');case28disp('你说的是:南昌');case29disp('你说的是:青岛');case30disp('你说的是:日照');case31disp('你说的是:山东');case32disp('你说的是:汕头');case33disp('你说的是:汕尾');case34disp('你说的是:深圳');case35disp('你说的是:泰安');case36disp('你说的是:淄博');case37disp('你说的是:澳门');case38disp('你说的是:冰岛');case39disp('你说的是:俄罗斯');case40disp('你说的是:李白');case41disp('你说的是:李清照');case42disp('你说的是:乌克兰');case43disp('你说的是:卢照邻');case44disp('你说的是:挪威');case45disp('你说的是:青海');case46disp('你说的是:西藏');case47disp('你说的是:香港');case48disp('你说的是:新加坡');case49disp('你说的是:雅典');case50disp('你说的是：日本’);end

                    本文档为【语音信号处理课程设计报告孤立词识别】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥25.0 已有0 人下载

立即下载

你可能还喜欢

最新资料

资料动态

专题动态

正方体

暂无简介~

格式：doc

大小：443KB

软件：Word

页数：21

分类：

上传时间：2022-05-10

浏览量：9

热点搜索

最新范文：转折反洗钱征文标题 2023年四川省德阳市中考历史试卷（含解析） (部编)初中语文人教2011课标版七年级上册称谓的敬辞谦辞幼儿园大班语言教案《两猫相争》含反思《纲要》和《指南》社会领域[整理版] 摩尔实验室超纯水器罗马书讲义讲章考核罚款通知单电工库存物品分类台账一年下册期中检测试卷成都青白江区工业集中发展区南片区控制性详细规划教案检查情况反馈（优秀5篇） “五性”作文教学观述评——梁启超《中学以上作文教学法》对中学作文教学的启示最新范文：转折反洗钱征文标题 2023年四川省德阳市中考历史试卷（含解析） (部编)初中语文人教2011课标版七年级上册称谓的敬辞谦辞幼儿园大班语言教案《两猫相争》含反思《纲要》和《指南》社会领域[整理版] 摩尔实验室超纯水器罗马书讲义讲章考核罚款通知单电工库存物品分类台账一年下册期中检测试卷成都青白江区工业集中发展区南片区控制性详细规划教案检查情况反馈（优秀5篇） “五性”作文教学观述评——梁启超《中学以上作文教学法》对中学作文教学的启示