2020年智能音箱行业市场运行分析报告

2020年智能音箱行业市场运行分析报告2020年智能音箱行业市场运行分析报告目录6第一节人工智能跃迁2.0阶段，智能音箱催熟语音AI新入口6一、市场面语音类产品热度提升，政策面AI被密集提及61、语音类AI产品突破市场，用户体验良好带动销量大增72、两会首提人工智能，科技规划紧随其后8二、AI2.0概念成型，语音入口地位显现81、AI2.0时代来临92、语音成为AI2.0产业新入口13第二节支撑技术日趋成熟，产品服务创新有迹可循13一、语音识别技术高度成熟，传统科技公司优势明显17二、声纹识别助力身份认证，安防与移动支付场景成看点171、VPR技术原理...

2020年智能音箱行业市场运行分析报告目录6第一节人工智能跃迁2.0阶段，智能音箱催熟语音AI新入口6一、市场面语音类产品热度提升，政策面AI被密集提及61、语音类AI产品突破市场，用户体验良好带动销量大增72、两会首提人工智能，科技规划紧随其后8二、AI2.0概念成型，语音入口地位显现81、AI2.0时代来临92、语音成为AI2.0产业新入口13第二节支撑技术日趋成熟，产品服务创新有迹可循13一、语音识别技术高度成熟，传统科技公司优势明显17二、声纹识别助力身份认证，安防与移动支付场景成看点171、VPR技术原理、应用和实现路径192、安全控制应用广泛，移动支付成看点21三、自然语言处理仍存技术难点，机器翻译或为突破口211、自然语言处理是语音AI的重要核心222、机器翻译技术发展迅速，互联网公司占主导优势23四、深度学习多点提升语音AI性能，数据将成发展关键241、DL可显著提升ASR系统性能252、DL开始延伸到VPR、NLP领域，数据成为关键因素26五、基础芯片硬件、麦克风阵列：提供计算和远场支持261、芯片，由通用到专用的发展282、麦克风阵列实现远场智能语音30第三节科技企业积极布局，共同推动产业链成熟31一、Google：底层技术积累深厚，持续发力布局全产业链33二、Amazon：以Alexa+Echo为核心，构建智能生态系统35三、科大讯飞：全面布局智能语音产业链37四、Apple：以Siri为入口，拓展智能设备应用39五、Microsoft：“小冰”、“小娜”与合作方切入多个领域39六、Nuance：语音识别传统巨头，车载与医疗语音前景看好41七、百度：整合打造AIG，度秘应用空间广阔43八、腾讯：借腾讯云布局语音AI，专注ASR和NLP46九、IBM、Intel、阿里巴巴等纷纷布局语音AI领域461、IBM：Watson不断完善，整体表现良好462、Intel：携手科大讯飞，精研语音AI芯片463、阿里：智能语音助力电商发展47第四节部分相关企业分析47一、科大讯飞47二、歌尔股份48三、路畅科技49四、中科创达50五、四维图新50六、东方网力51七、美亚柏科52八、神思电子图表目录6图表1：GoogleHome音箱7图表2：Amazon借助Echo音箱构建智能生态10图表3：AI2.0相较于移动互联网的层次类比11图表4：2017年AWE叮咚音箱等产品展示11图表5：Ticwatch语音交互界面14图表6：语音识别系统流程15图表7：2015年全球语音识别市场份额16图表8：2015年国内智能语音识别市场份额17图表9：声纹识别系统原理图18图表10：声纹识别常用算法19图表11：VPR判断阶段19图表12：VPR确认阶段20图表13：支付宝声纹支付演示20图表14：科大讯飞等联合推出的“声纹+人脸”支付产品21图表15：对话管理流程22图表16：机器翻译发展历程23图表17：单层人工神经网络23图表18：多层（深度）人工神经网络24图表19：百度ASR技术算法模型迭代25图表20：ASR建模三种层次的演进26图表21：三种芯片的内部架构28图表22：语音增强来解决噪声环境28图表23：声源定位确认移动的说话人29图表24：思必驰环形“6+1”远场麦克风阵列特性30图表25：语音AI产业链32图表26：谷歌语音AI领域布局路径33图表27：谷歌TPU展示38图表28：Siri约车功能38图表29：AirPods无线智能耳机39图表30：Nuance四大业务部门41图表31：DragonDrive智能车载自然语言语音平台六大特点42图表32：百度大脑技术服务界面功能展示43图表33：百度共享四项语言技术43图表34：腾讯人工智能四大垂直领域44图表35：腾讯人工智能三大应用场景45图表36：腾讯云智能语音—语音识别产品架构表格目录8表格1：近期国内对人工智能产业的部分政策9表格2：部分研究对AI2.0的定义13表格3：语音AI算法层面支撑技术分类14表格4：语音识别技术发展历史15表格5：2016年以来语音识别获得多项突破17表格6：五种生物识别模式对比27表格7：FPGA与ASIC对比30表格8：科技企业布局语音AI概览34表格9：AmazonEcho与GoogleHome对比35表格10：讯飞开放平台上丰富的语音AI产业链36表格11：科大讯飞麦克风阵列产品对比37表格12：科大讯飞AI+业务领域45表格13：腾讯云智能语音产品第一节人工智能跃迁2.0阶段，智能音箱催熟语音AI新入口一、市场面语音类产品热度提升，政策面AI被密集提及1、语音类AI产品突破市场，用户体验良好带动销量大增近日，来自AppleInsider、KGI等多处消息显示苹果公司正在筹划推出智能音箱类产品，其中或将植入Siri语音助手，并有望在WWDC苹果大会上发布。全球消费者电子龙头公司的加入，让语音类人工智能（ArtificialIntelligence，AI）产品再次吸引了业界和消费者的浓厚兴趣。一方面，人工智能受多个有影响力影响力的事件推动早已成为关注点。2016年谷歌AlphaGo大比分战胜人类围棋高手李世石，2017年初腾讯围棋机器人绝艺在UEC杯世界计算机围棋大赛等比赛中战绩突出，近期百度小度机器人在《最强大脑》节目里击败人类顶尖选手。这些事件表明AI技术发展越来越成熟，特别是深度学习技术不断实现突破。另一方面，从产品化角度看，语音类AI产品最为接近实用，性能表现能够基本满足用户需求。最有代表性的是Amazon在2014年11月发布的Echo智能音箱，以及在后期陆续发布入门级智能音箱EchoDot和便携式蓝牙智能音箱EchoTap。消费者可通过内置语音助手Alexa进行智能设备控制、多媒体操作、信息获取、日程提醒等服务，Echo还可提供第三方接口以实现功能扩展。根据CIRP和RBCCapitalMarket等公司的估计，截止到2017年2月，Echo系列产品累计销售量接近1000万台，销售额达到8~10亿美元。客户体验方面，Echo系列产品一改早期AI产品“尝鲜胜过实用”的表现，收获了良好的用户口碑。其官网已积累了5万余条用户评论，评分达4.4星。销量激增和口碑优秀的背后折射出Echo这一类语音交互类产品正迅速从早期用户的小众圈子进入大众市场。受此影响，Google、京东等也陆续推出GoogleHome、叮咚音箱等类似产品。若苹果推出智能音箱，则将成为另一个重要玩家。美国调查公司VoiceLabs在2017年初发布的《2017年语音报告》预测2017年将有2450万台以语音为主要交互方式的智能硬件产品发货，市场总量将达到3300万台，市场规模超过200亿美元。图表1：GoogleHome音箱资料来源：网易手机，北京欧立信调研中心图表2：Amazon借助Echo音箱构建智能生态资料来源：Amazon，北京欧立信调研中心2、两会首提人工智能，科技规划紧随其后2017年3月5日国务院总理李克强在政府工作报告中首次提到要加快人工智能等技术研发和转化，做大做强产业集群。实际上，最近一年来政府对人工智能的关注明显提升，相关政策的推进也有所加快：2016年7月，国务院在《“十三五”国家科技创新规划》中提出重点发展新一代信息技术，对人工智能和智能交互做出重点规划；2017年2月15日，科技部表示在“科技创新2030—重大项目”中新增“人工智能2.0”项目，并已进入实施方案的最终论证阶段；2017年3月11日，科技部部长万钢还在表示，科技部正和相关方面共同起草促进中国人工智能创新发展规划，此规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面应用。我们认为，政府工作报告首次提及AI，表明其已升级为国家战略，相关规划的具体设计和配套政策的落地也将助力AI产业深化发展。国家陆续出台的多项政策在政策面对人工智能产业的发展起到积极的助推和引导作用。表格1：近期国内对人工智能产业的部分政策资料来源：国务院、国家发改委，北京欧立信调研中心我们认为，人工智能领域受益于深度学习等技术的推动近年来发展迅速，尤其是率先在语音、图像等领域获得了长足发展。因此，语音交互类产品已具备较高的成熟度和较好的用户体验，在整个AI领域受到政策鼓励的良好环境下，语音类人工智能的商用化逐渐获得市场认可，规模有望进一步扩大。二、AI2.0概念成型，语音入口地位显现1、AI2.0时代来临目前多个研究认为，人工智能已基本发展到2.0阶段，应用领域深入到机器人、安防、金融、医疗、家居等多个垂直行业。总的来说，AI2.0的基本含义是指人工智能在内部新算法模型和高性能硬件发展的支持下，应对外部信息环境及社会需求的快速变动，从单个技术解决单一场景的“1.0”阶段跨越到不同产业融合式发展的新阶段。表格2：部分研究对AI2.0的定义资料来源：中国工程院院刊、搜狐科技，北京欧立信调研中心AI1.0向2.0转型升级具有五大表现特征：（1）学习驱动方式升级：从传统知识表达方式、单纯大数据驱动方式，转向大数据驱动和知识指导相结合的方式，可自动进行机器学习，其应用范围更加广泛；（2）数据处理方式升级：从分类型处理多媒体数据（如视觉、听觉、文字等），迈向跨媒体认知、学习和推理的新水平；（3）计算形态升级：从直接追求“智能机器”和高水平的人机协同融合，走向渐进型混合增强智能的新计算形态；（4）平台生成方式升级：从聚焦研究“个体智能”，走向基于互联网络的群体智能，形成在网上激发组织群体智能的技术与平台；（5）研究理念升级：从机器人主导，转向更加广阔的智能自主系统，从而促进改造各种机械、装备和产品，走上泛智能化之路。2、语音成为AI2.0产业新入口我们定义“语音AI”如下：智能系统通过机器感知技术实现声音采集、语音识别、语义理解等信息处理，利用自然语言理解等技术来进行分析，从而实现人机对话、智能判析和决策的一整套计算过程。语音AI需要将声学、语音识别、语义、搜索、内容等多种领域技术相融合，以实现自然的人机交互。比照互联网、移动互联网的技术层次可以对AI2.0系统进行分析：（1）底层技术：互联网时期承载信息的技术是网页，网页之间依靠超链接和图形交互等方式进行内容的组织；移动互联网时代的内容则在各个应用（App）内，数据由应用运营商提供和组织。而在AI2.0系统中，底层是借助机器学习、深度学习等技术，对来源于众多智能设备的大数据进行训练、处理，以模型的形式进行组织。（2）上层应用：互联网时代的应用以网站形式呈现，移动互联网时代则主要是App（具体分为原生App和WebApp两大类）。而在AI2.0系统中，应用则具化为机器人、智能穿戴设备、智能家居等智能设备和基于这些设备之上的服务。（3）连接两者的入口：互联网时代网站众多，人们获取信息典型的入口是搜索引擎；移动互联网时代要么通过应用市场获取App，要么通过重点App获取内容，要么通过二维码等新形态的入口进行信息访问。而在AI2.0系统中，受到智能终端的物理形态限制，传统的用户界面和围绕鼠标、键盘、触摸屏等的交互方式不再适用，而更直观自然、易于学习的语音交互则成为新系统的重要入口。因此，语音AI将会是AI2.0生态的入口级技术，占据其核心地位。图表3：AI2.0相较于移动互联网的层次类比资料来源：北京欧立信调研中心整理语音作为入口方式已经在诸多AI产品形态中存在。（1）在智能家电家居方面：2017年中国家电及消费电子博览会（AWE）“语音的交互与控制”主题中，思必驰、海知智能、云知声等语音方案商以及海尔、美的等家电企业发布以语音交互为核心的智能家居解决方案；（2）在可穿戴设备方面：出门问问推出的中文智能手表操作系统Ticwear和中文全交互智能手表Ticwatch、谷歌推出的GoogleGlassX智能眼镜等均具备基于语音的操作与交互能力；（3）在机器人方面：语音作为人机交互最为自然的沟通方式，在机器人应用上也非常广泛，例如NAO等实体机器人具备面部探测与识别、语音合成、自动语音识别等高级功能。图表4：2017年AWE叮咚音箱等产品展示资料来源：威腾网，北京欧立信调研中心图表5：Ticwatch语音交互界面资料来源：出门问问官网，北京欧立信调研中心我们认为，语音能够发展成为AI2.0的入口主要基于以下原因：（1）智能手机的语音助手产品为用户提供了体验语音交互的基础，Siri、小冰、GoogleNow等终端产品普遍提供的语音助手将语音交互引入日常生活，帮助用户接触到这样一种新技术。（2）机器学习的优化使得语音输入准确度不断提高，机器学习可以大规模地利用数据来生成可以理解语音和自然语言的模型，并在继续提升。例如在2016年11月23日发布会上，科大讯飞表示其语音输入识别成功率达到了97%。（3）语音对硬件支撑要求较低，语音是绝大多数交互方式中能耗低、效率高、表达方式直接的一种途径，易于在不同智能平台上搭建。（4）科技企业均希望在AI2.0时代占据入口，积极布局语音AI产业，苹果、Google、微软、百度、Amazon、Facebook、科大讯飞等公司在语音领域都存在丰富的产品和大量的研发投入。综合以上，我们认为由于语音AI成为AI2.0领域新入口，深入了解和分析语音AI的技术发展现状和未来趋势、行业竞争格局和主要解决方案等将对该领域的投资布局起到重要作用。第二节支撑技术日趋成熟，产品服务创新有迹可循语音AI技术包括三个要素：算法、计算能力和数据。（1）算法方面，按照“机器感知—人机理解—智能判断”这一典型语音AI作业流程划分，涉及的基础支撑技术主要包含语音识别、声纹识别、自然语言处理、深度学习等；（2）计算能力方面，主要涉及用于计算加速的GPU芯片和提升语音预处理效果的麦克风阵列等硬件；（3）数据方面，则和业务相关，主要分为通用型（如人机对话等）和专用型（如工作任务、特定信息查询、操作指令等）等。我们将对算法层面的支撑技术展开详细讨论，并对硬件支持进行简单介绍，数据处理问题将在后续报告中深入讨论。表格3：语音AI算法层面支撑技术分类资料来源：北京欧立信调研中心整理一、语音识别技术高度成熟，传统科技公司优势明显语音识别（AutomaticSpeechRecognition，ASR）是将人类的声音信号转化为文字或者指令的过程，是大多数语音交互的第一道门槛，只有首先听对用户说的话才能进行后续的理解和决策。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。而在具体实现上，一般的需要先准备特征模型库，在识别时对采集到的语音信号提取待检测特征，然后将得到的语音特征参数与模型库进行比对。由声音模式匹配模块对该段语音进行识别，从而识别出语音内容。图表6：语音识别系统流程资料来源：机器之心，北京欧立信调研中心早在1952年AT&T实验室研制出第一个特定人语音增强系统Audry，可识别十个英文数字系统。ASR技术历经60多年的发展历史，不断的技术积累为语音交互奠定了良好基础。表格4：语音识别技术发展历史资料来源：EDNChina，北京欧立信调研中心2016年以来，语音识别领域取得多个实质性突破（如下表），识别精度得到大幅提升，产品普适性也明显改善。其中，对非特定人语音的识别精度进展可观。以科大讯飞为例，其ASR产品识别率提升至97%，已经能够满足通常应用的要求。此外，随着大规模集成电路技术的发展，语音识别专用芯片已达到批量化生产的水平，在速度、功耗等方面有利于相关产品的普及。表格5：2016年以来语音识别获得多项突破资料来源：机器之心，北京欧立信调研中心从市场格局来看，传统的科技公司占据ASR市场绝对份额：2015年，全球市场中Nuance、谷歌、苹果、微软占据绝对市场份额，国内市场中科大讯飞和百度占据约73%的份额。图表7：2015年全球语音识别市场份额资料来源：智研咨询，北京欧立信调研中心图表8：2015年国内智能语音识别市场份额资料来源：智研咨询，北京欧立信调研中心我们认为，未来ASR技术的突破方向是结合特定应用领域进行拓展。目前成熟的底层ASR方案识别准确度已经超过95%，后续提升的边际成本越来越高。因此，随着时间推移，国内外底层技术差距有望缩小。而由于初创公司的投入与效果的提升远不成正比，我们认为未来的ASR的发展方向是特定领域内技术向产品的转化，尤其是结合行业应用和大量训练资源进行应用层的拓展。行业内巨头凭借多领域布局或将继续占据先发优势。二、声纹识别助力身份认证，安防与移动支付场景成看点1、VPR技术原理、应用和实现路径声纹识别技术（VoiceprintRecognition，VPR）是通过语音信号提取发声人的身份的相关特征，并通过这些特征进行模式匹配，从而识别出发声人身份的技术。声纹是一种承载语音频谱的音频信息，不同生物个体的发音器官均有其特殊性，发出的语音、语调等信号是有区别的，因此声纹识别技术可以实现身份信息的识别，并在现实生活中得到广泛应用。声纹识别作为生物识别技术的一种，受益于消费者电子技术创新的发展趋势。生物识别技术进入消费者电子产品的标志事件是2013年iPhone5S采用指纹识别技术。随后，虹膜、人脸、声纹等其他的生物识别技术也开始获得长足的发展。表格6：五种生物识别模式对比资料来源：手机报在线，北京欧立信调研中心VPR技术原理：VPR的实现是先对收到的语音信息提取特征做预处理，然后进行语音训练和语音识别两个阶段处理。语音训练是对提取出的语音信息特征进行学习训练，创建全面的声纹信息模板或语音信息库。识别部分则是根据信息模板或信息库对语音特征进行模式匹配计算，由此判断该语音是否为已知模板或语音库中的特征信息，从而得出识别结果。图表9：声纹识别系统原理图资料来源：《通讯世界》，北京欧立信调研中心VPR技术主要使用动态检测的方法。动态检测的方法是在静态检测的原理方法之上增加语音激活检测（VoiceActivityDetect，VAD）、降噪、去混响等算法。VAD的目的是检测人声开始与结束的时间点，将对应音频截取出来以供分析，避免无效的录音部分带来的额外时间开销；降噪和去混响是排除环境干扰，进一步提高识别正确率。图表10：声纹识别常用算法资料来源：雷锋网，北京欧立信调研中心声纹识别的使用过程也相应分为注册和测试识别两个环节。（1）声纹注册：对用户的语言信息进行端点检测、去噪、提取声纹特征，即进行声纹注册，由此得到一个用户的声纹模型。一般需要用户朗读特定文字短语，文字的选择对后续测试的可靠性有一定影响，注册文字最好包含不同音素信息。（2）识别测试：对说话人的语音信息进行端点检测、去噪、提取特征点后进行声纹模型匹配，从而进行身份识别，判断用户身份。声纹识别还可以分为闭集和开集两种情况。前者是判断说话者和现有数据库中谁的声音最接近（“是谁的声音”），后者是判断说话者是否为某一个特定用户（“是不是某人的声音”）。图表11：VPR判断阶段资料来源：《通讯世界》，北京欧立信调研中心图表12：VPR确认阶段资料来源：《通讯世界》，北京欧立信调研中心2、安全控制应用广泛，移动支付成看点VPR在政府、铁路、电力、安全等特殊部门中依然具有较好的实用价值。根据美国联邦调查局对近2000例与声纹相关的案件进行的统计，利用声纹作为证据时只有0.31%的错误率。同样声纹鉴别已是国内公安部的证据鉴定标准之一，这说明某些环境下声纹可以用来作为有效的身份鉴别方式。产业界一些领先企业开始在移动支付领域采用“声纹+人脸识别”的融合方式开展产品化工作。2015年，支付宝和百度钱包相继上线声纹支付功能。科大讯飞依托声纹识别和人脸识别技术构建了统一生物认证系统，并联合中国银联、徽商银行共同推出“声纹+人脸”融合认证个人转账应用。声纹识别一个重要的的优点是可以将语音操作和身份认证融合在同一个环节中，即用户发出语音指令即可同时进行声纹识别和语义理解，因此我们预计未来配合人脸识别的声纹认证服务将更多涌现。图表13：支付宝声纹支付演示资料来源：网易财经，北京欧立信调研中心图表14：科大讯飞等联合推出的“声纹+人脸”支付产品资料来源：徽商银行官网，北京欧立信调研中心三、自然语言处理仍存技术难点，机器翻译或为突破口1、自然语言处理是语音AI的重要核心自然语言处理（NaturalLanguageProcessing，NLP）是一门融语言学、计算机科学、数学于一体的科学。NLP可分为自然语言理解和自然语言生成。前者是计算机能理解自然语言文本的意义，后者是计算机能以自然语言文本来表达给定的意思。NLP是语音AI领域中的核心部分，但当前面临的技术挑战难度较大，基于统计技术的传统方法并未完全解决语言理解的难点。人机对话是NLP技术最为典型的应用之一。人机对话系统的基本结构包括三个部分：语言理解、语言生成和对话管理。语言理解和生成分别是指理解用户的语言输入和产生系统的语言输出。这两部分直接影响对话系统的性能，成为NLP中其他应用不可缺少的部分。对话管理则可用于区分对话系统和问答系统，是指从语言理解部分获取输入信息，维护对话过程中的系统内部状态（如上下文、指代词等），并基于状态生成对话策略，为产生对话言语提供依据。对话管理的评价指标主要是要控制对话流程的自然程度和用户体验。图表15：对话管理流程资料来源：中国人工智能学会，北京欧立信调研中心2、机器翻译技术发展迅速，互联网公司占主导优势NLP领域一个较成熟的方向是机器翻译（MachineTranslation）。一种方案是采用神经机器翻译模型，是一种通用的计算装置，适合处理“序列到序列”的问题。所谓“序列”是指机器翻译中源语言的句子和对应的目标语言的对应关系。机器翻译的发展主要经历以下四个阶段，如下图所示。图表16：机器翻译发展历程资料来源：《语言战略研究》，北京欧立信调研中心影响机器翻译水平的方面中双语语料库的构建很关键。大型互联网公司在这一领域积累深厚，已占据主导优势。例如科大讯飞在2016年底的年度发布会上演示的讯飞听见系统在实时转写的同时，能同步翻译成英语、日语、韩语、维语等。除了机器翻译应用，在新的消费者电子产品上NLP主流应用以智能语音助手为主，如IBMWatson、苹果Siri、GoogleAssistant、微软小冰和小娜、百度度秘等。人们对此已经比较熟悉，不再过多论述。目前，由于技术成熟度有限，NLP应用整体上还处于一个早期阶段，只能理解一些简单的句子，满足用户初级的沟通与交互需求。四、深度学习多点提升语音AI性能，数据将成发展关键深度学习（DeepLearning，DL）本质是训练深层结构模型的方法。DL是通过多层人工神经网络来对数据之间的复杂关系进行建模的算法。其特点在于随着网络层数的提高和训练难度加大，利用少量有标签样本和大量无标签样本依然可以进行有效学习。卷积神经网络（ConvolutionalNeuralNetwork，CNN）是流行的深度学习方案，其层级发展越来越深，业界已经从最初的8层发展到152层的技术方案。深度学习不只可以处理语音领域，但是对语音AI的发展成熟起到重要的助推作用。图表17：单层人工神经网络资料来源：中国知网，北京欧立信调研中心图表18：多层（深度）人工神经网络资料来源：中国知网，北京欧立信调研中心DL依靠其模型强大的拟合能力、高密度的计算能力、海量的训练数据获得良好的效果，渗透到许多领域。其对语音AI的影响主要体现在ASR性能提升、VPR训练、NLP语义表示和运算等方面。1、DL可显著提升ASR系统性能2006年Hinton提出深度置信网络，掀起深度学习的热潮，而后与他的学生将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库TIMIT（即德州仪器、麻省理工学院和斯坦福研究院合作构建的声学-音素连续语音语料库）上获得成功。从2010年开始，微软的俞栋、邓力等学者首先尝试将DL引入到语音识别，DL逐渐成为该领域的主流研究方向。随着深度学习的兴起，使用时间长达近30年的语音识别声学模型HMM（隐马尔科夫模型）逐渐被DNN（深度神经网络）所替代，模型精度获得长足发展，带来ASR建模单元、模型结构、建模流程等维度的改善。图表19：百度ASR技术算法模型迭代资料来源：CSDN，北京欧立信调研中心图表20：ASR建模三种层次的演进资料来源：雷锋网，北京欧立信调研中心在DL的支持下，语音识别的准确率和通用性的本质就在于数据量多少、算法的优劣和计算力的高低。数据量取决于搜索量和使用量的规模，算法的优劣取决于顶级人才的作用，计算力的水平高低取决于专业硬件的发展水平。2、DL开始延伸到VPR、NLP领域，数据成为关键因素深度学习也开始被引入到VPR领域，但和ASR不同的是VPR技术方案中传统算法和模型还占有较大的比重。DL在实时VPR中的重大突破难关是数据。深度学习是基于数据驱动的模型，需要庞大的基于真实场景的数据，并对数据的精确标注有较高要求。例如，在建立声纹识别训练库时，至少要保证性别比例分布为50%±5%，并包含有不同年龄段、不同地域、不同口音、不同职业的训练样本。数据本身成为DL在突破声纹识别的关键因素。DL对NLP的合成语义到关注、记忆和问答均会有重大促进作用。NLP中可以人为将概念和语句编码为向量，并且可以使用大量的向量作为记忆元素，算法的首要任务则是记住由这些向量构成的状态，神经网络学习中的深层网络在往下运算的过程中会在每个决策点确定此前哪个记忆状态是最相关的，通过搜索能找到问题的最佳答案，DL最终实现用文字回答问题。五、基础芯片硬件、麦克风阵列：提供计算和远场支持1、芯片，由通用到专用的发展简单的看，AI对计算能力的需求就是对计算硬件的需求。随着数据量的扩大、云计算与深度学习的发展深入，硬件方面的计算能力随之不断升级换代。GPU、FPGA以及定制ASIC等对人工智能的推动作用明显。CPU、GPU、FPGA和ASIC对比分析：CPU（CentralProcessingUnit，中央处理器）作为通用处理器，兼顾计算和控制，70%的晶体管用于构建Cache（高速缓冲存储器）和一部分控制单元，用于处理复杂逻辑和提高指令的执行效率，所以导致计算通用性强，可以处理的计算复杂度高，但计算性能一般。直接提高CPU计算性能方向主要为：增加CPU核数、提高CPU频率、修改CPU架构增加计算单元FMA（fusedmultiply-add）个数。图表21：三种芯片的内部架构资料来源：电子工程网，北京欧立信调研中心GPU（GraphicProcessingUnit，图形处理器）主要擅长做类似图像处理的并行计算，图形处理计算的特征表现为对缺少相关性的数据进行高密度的计算，GPU提供大量的计算单元（多达几千个计算单元）和大量的高速内存，可以同时对很多像素进行并行处理。相对于CPU由专为顺序串行处理而优化的几个核心组成，GPU则拥有一个由数以千计的更小、更高效的核心（专为同时处理多重任务而设计）组成的大规模并行计算架构。FPGA（Field-ProgrammableGateArray，现场可编程门阵列）作为一种高性能、低功耗的可编程芯片，可根据客户定制来做针对性的算法设计。由于FPGA的算法是定制的，所以没有CPU和GPU的取指令和指令译码过程，数据流直接根据定制的算法进行固定操作，计算单元在每个时钟周期上都可以执行，所以可以充分发挥浮点计算能力，计算效率高于CPU和GPU。ASIC（ApplicationSpecificIntegratedCircuits，专用集成电路）是指应特定用户要求或特定电子系统的需要而设计、制造的专用集成电路，最大特点是计算能力和效率都可以根据算法需要进行定制。ASIC与通用芯片相比，具有体积小、功耗低、计算性能高、计算效率高等优点，而最大的缺点就是由于算法是固定的，一旦算法改变将会无法使用。表格7：FPGA与ASIC对比资料来源：雷锋网，北京欧立信调研中心近期国内企业在语音芯片理论研究和应用研发方面值得关注。芯片理论方面，深鉴科技使用长短期记忆网络（LongShort-TermMemory，LSTM）进行语音识别的场景，结合深度压缩、专用编译器以及ESE（EfficientSpeechRecognition）专用处理器架构，在中等的FPGA上实现高性能低功耗的效果。应用研发方面，浪潮集团分别与英特尔和英伟达成立联合并行计算实验室，合作开发优化基于MIC和GPU的并行应用。北京智能管家科技有限公司（ROOBO）推出基于ASIC架构的DNN语音识别智能芯片CI1006，在自产的机器人系统上得到运用。2、麦克风阵列实现远场智能语音语音交互产品的发展提升了多环境下语音采集的要求。麦克风阵列就是主要解决远距离和复杂场景下语音采集与识别的问题。麦克风阵列技术包括语音增强和声源定位，其在视频会议、智能机器人、助听器、智能家电、通信、智能玩具、车载等领域均有很好的应用。图表22：语音增强来解决噪声环境资料来源：科大讯飞，北京欧立信调研中心图表23：声源定位确认移动的说话人资料来源：科大讯飞，北京欧立信调研中心国内创业公司思必驰于2015年底推出“环形6+1远场”麦克风阵列，也是目前国内唯一一款6+1环麦，是亚马逊Echo核心功能的“中国版”技术。目前该技术方案被广泛运用在机器人和音箱等智能家居产品中。该阵列周围6个麦克风呈环形360°排列，中间置1个麦克风辅助拾音，能够有效地在家居环境下进行抗噪处理及语音识别；远场5米交互识别率达92%以上；能准确捕获说话人位置，进行敏锐的声源定位精准度控制在±10°以内。图表24：思必驰环形“6+1”远场麦克风阵列特性资料来源：雷锋网，北京欧立信调研中心第三节科技企业积极布局，共同推动产业链成熟语音AI产业链主要分为上游的基础技术层、中游的基础应用层和下游的方案产品集成层。上、中游主要参与者是擅长基础技术研发的科研院所、技术与资金实力比较雄厚的传统巨头厂商（如亚马逊、谷歌、百度等），包括英伟达、英特尔等芯片厂商。下游主要参与者包括智能语音助手软件服务商和嵌入智能语音系统的硬件服务商等，国内如云知声、思必驰等研发实力较强的创业公司也通过与实力较强的企业合作参与其中。图表25：语音AI产业链资料来源：36氪，北京欧立信调研中心表格8：科技企业布局语音AI概览资料来源：36氪，北京欧立信调研中心一、Google：底层技术积累深厚，持续发力布局全产业链公司于2011年正式成立AI部门，目前包括Google搜索、GoogleNow、Gmail等100余个团队使用机器学习技术，并往其开源Android手机系统中注入大量机器学习功能（如用卷积神经网络开发Android手机语音识别系统）。目前产品和服务主要依靠AI技术驱动，如使用深度学习技术改善搜索引擎、识别Android手机指令、鉴别其Google+社交网络的图像等。掀起AI并购狂潮，持续发力语音AI领域。“内生+外延”双轮驱动成为科技龙头企业布局AI的一般战略。谷歌在成立专门的AI研究团队以维持自身在先天基础技术和产品集成优势的同时，也积极并购或参股AI初创公司，以期搭建完整的AI生态链。公司2016年9月收购的Speaktoit是专注于语音交互功能和自然语言学习，为有语音识别功能的应用app提供云端应用接口编程。2017年1月收购的LimesAudio在音频信号处理方面经验丰富，技术可用于减少因物理空间条件不足所导致的音效不佳问题。底层语音AI技术不断积累，用户使用场景进行重点覆盖。在语音AI布局方面，谷歌的布局分成三个方面。第一是做好底层技术积累，研发先进的深度学习算法，增强语音识别能力，对于信息处理和用户服务产生更好反馈；第二是覆盖用户生活使用场景，抓取到更多信息；第三是将技术转化为商业应用，以GoogleHome作为家居系统入口，着力打造智能家居生态产业链。图表26：谷歌语音AI领域布局路径资料来源：搜狐科技，北京欧立信调研中心开源第二代深度学习系统，设计专用集成芯片。2015年11月，谷歌宣布开源第二代深度学习系统TensorFlow。TensorFlow可模仿人类大脑工作的方式并识别出模式，在数据输入和输出方面都有较好的精度和速度，被广泛应用于语音识别、图像识别等领域。2016年5月，谷歌发布专为TensorFlow设计的专用集成芯片，命名为张量处理单元TPU（TensorProcessingUnit），大幅度提升深度学习系统运行效率。2017年2月15日第一届TensorFlow开发者峰会上，TensorFlow1.0版本正式推出，加强了PythonAPI的稳定性，使得加入新特征变得更加容易，更适合商业化使用。图表27：谷歌TPU展示资料来源：新智元，北京欧立信调研中心推出智能音箱GoogleHome，标志谷歌语音AI商业应用落地。2016年5月召开的GoogleI/O开发者大会上，谷歌推出语音智能助手GoogleAssistant与智能音箱GoogleHome，利用虚拟助理融合智能家居，加速推进智能生态建设。之后能与GoogleHome兼容的家庭智能设备继续增多。2017年1月25日，Google宣布与Belkin的Wemo系列智能插头和照明开关和Honeywell智能恒温器展开合作。GoogleHome用户只需打开App，就可以在控制菜单中将这些设备连接到智能音箱上。更进一步的是谷歌在MWC2017展会上宣布，Android6.0以上版本获取GoogleAssistant无需系统更新，谷歌会通过Play服务为符合运行条件的设备自动添加GoogleAssistant服务。Wavenet语音合成方法开创全新思路。2016年9月，谷歌发布由零开始创造整个音频波形输出的语音合成方法Wavenet，通过利用真实的人类声音剪辑和相应语言、语音特征来训练其卷积神经网络，让其能够辨别语音和语音模式，输出音频更接近人声。二、Amazon：以Alexa+Echo为核心，构建智能生态系统市场优势明显，智能音箱Echo抢占先机。亚马逊作为全球大规模跨国电商，拥有海量C端市场用户。2006年后，公司借助AWS在云市场的领先地位为AI产业发展积累基础数据量。2014年11月，亚马逊智能音箱Echo与个性化语音助手Alexa诞生，并在随后的两年时间内得到消费者的高度认可。尽管Amazon推出Echo时，它只是一个内置几个语音命令的智能扬声器，但随着用户习惯培养以及近两年语音技术的不断精进，已经发展成为一个丰富的智能生态系统。表格9：AmazonEcho与GoogleHome对比资料来源：雷锋网，北京欧立信调研中心加强Alexa第三方合作，步入相关智能设备领域。目前搭载Alexa的硬件品类已经超过7000种。产品品类从电器、手机到机器人、汽车信息娱乐系统等多个领域，品牌涵盖了LG、华为、GE、福特、大众、联想、优必选等。2017年1月，Amazon与华为达成合作，在面向美国发售的Mate9上搭载语音助手Alexa，同时与摩托罗拉合作开发MotoMods。MotoMods是与MotoZ手机配合使用的可拆卸模块，可为手机增加音箱、投影仪等功能。2017年2月，高通宣布旗下公司将帮助高通蓝牙音频系统芯片SoC实现内置Alexa唤醒支持，Amazon顺利进入智能耳机领域。后续借力AWS云服务，开源DSSTNE。2016年底亚马逊re:Invent大会上，AWS（亚马逊公司旗下云计算服务平台）正式推出自己的AI产品线：AmazonLex、AmazonPolly以及AmazonRekognition，分别可用于自然人机交互、语音转换以及图像识别等服务。此外，2016年5月亚马逊开源了针对深度学习的模型库DSSTNE。通过改善搜索、定制化产品推荐以及语音识别、增加有质量的产品评价，公司内部利用机器学习改善端到端的用户体验。三、科大讯飞：全面布局智能语音产业链科大讯飞作为国内智能语音产业领导者，实行全产业链发展战略，从上游的语音硬件芯片、麦克风阵列，到中游基础应用层的语音合成、语音识别和语音拓展等技术，再到下游的服务方案和产品均有完整布局。表格10：讯飞开放平台上丰富的语音AI产业链资料来源：讯飞开放平台官网，北京欧立信调研中心成功自主研发语音芯片和麦克风阵列。语音芯片研发方面，科大讯飞已成功研发出基于自身核心技术高度集成中英文语音合成芯片系列，在业内具有较好的语音合成体验。根据科大讯飞研究院魏斯介绍，在深度学习平台架构上，科大讯飞使用GPU作为主要的运算部件，并结合算法的特点，进行大量的并行化工作。例如，在分块模型更新基础之上设计融合弹性平均随机梯度下降（EASGD）算法的并行计算框架，在64位GPU上实现了近线性的加速比，大大提升训练效率，加快深度学习相关应用的研究进程。科大讯飞麦克风阵列主要有二麦、四麦、六麦三类，主要应用场景有机器人、智能家居、智能硬件等，功能聚焦于智能硬件远场拾音的实现。表格11：科大讯飞麦克风阵列产品对比资料来源：讯飞开放平台，北京欧立信调研中心语音合成和语音识别等基础应用技术遥遥领先。（1）语音合成：公司成功研发全新的基于深度学习的语音合成系统，合成语音的自然度和表现力得到显著提升，在国际最高水平的语音合成比赛BlizzardChallenge中再次夺冠，且七项指标全部全球第一。（2）语音识别：针对人与人之间自由交谈、会议演讲等场景，语音实时转写通用正确率很高，能够在实际应用场景中达到实用门槛的中文语音转写。2016年9月，科大讯飞参加由Google承办的第四届CHiMEChallenge国际多通道语音分离和识别大赛获取全部三项赛事第一名，说明其语音识别以及麦克风阵列处理技术处于国际顶尖水平。讯飞输入法月覆盖率超40%，叮咚音箱成家庭服务入口。公司积极发展移动端消费者产品，如讯飞输入法、录音宝、灵犀语音助手。截止到2017年1月，讯飞输入法总用户超过4.3亿，活跃用户超过1.1亿，输入法语音输入的月覆盖率超过40%，支持方言已达19种，语音输入的用户体验和口碑在同类产品中保持领先。定位于家庭智控中心的叮咚音箱销量持续增长，2016年全年销量近10万台。公司已经与JBL等多家知名音箱品牌厂商推出合作产品，并正式启动开放平台战略，与京东JIMI智能客服、中通快递、e袋洗、有道云笔记、百度地图、得到、中国天气通、万年历等企业实现合作，满足家庭场景下生活服务多样化需求，共同打造智能语音的家庭服务入口。表格12：科大讯飞AI+业务领域资料来源：科大讯飞官网，北京欧立信调研中心四、Apple：以Siri为入口，拓展智能设备应用苹果对于自身在人工智能领域的定位是设备智能技术研发商和产品提供商，即将人工智能技术纳入到硬件，利用如Siri语音以及iOS10中的图片自动识别分类机制，拓展语音、图像识别方面的应用。Siri于2011年和iPhone4S同时推出，客户体验经历了一个逐步攀升的过程。经过较长的语音技术探索，在2016年苹果开发者大会上，iOS10搭载的Siri开放新功能API和SDK，支持Siri控制第三方应用，如使用Siri叫滴滴专车、为QQ好友发送消息等。相较谷歌助手仅支持5种语言，亚马逊语音助手Alexa仅支持英语和德语，Siri支持语言的种类高达24种，可以更好地本地化、融入用户生活。今年3月，苹果表示iOS10.3版本中语音助手Siri将支持上海话，这是继粤语和台湾国语之后的另一种中文方言上线。以智能耳机完善布局，智能家居或紧随其后。2016年9月秋季发布会上苹果发布了智能耳机AirPods，支持和Siri的结合。（1）AirPods和iPhone配对之后，用户轻点两下AirPods即可激活Siri。（2）在打电话或与Siri交谈时，采用波束成形技术的双麦克风可过滤背景噪音。相信随着AirPods的上线，未来Siri将会更多地参与到用户日常活动中，对于苹果在AI领域的布局产生重大影响。据Bloomberg报导，苹果正打造与亚马逊Echo类似模式的智能家居设备，目前进入样品测试阶段，有望切入智能家居方面。图表28：Siri约车功能资料来源：北京欧立信调研中心整理图表29：AirPods无线智能耳机资料来源：苹果，北京欧立信调研中心五、Microsoft：“小冰”、“小娜”与合作方切入多个领域2014年5月，微软首次发布人工智能伴侣虚拟机器人“微软小冰”，经过两年的技术改进与调试，第四代微软小冰于2016年8月5日发布。2016年12月9日，微软（亚洲）互联网工程院宣布与腾讯达成合作，小冰进入腾讯QQ，让手机QQ聊天功能“厘米秀”拥有智能沟通的能力，与QQ平台上获得首批AI体验资格的用户进行智能互动。3月14日，合作又进一步深入，小冰可被用户邀请至QQ群聊。小冰拥有实时情感决策对话引擎，可以与群用户进行实时对话，支持语音和图像多感官交流。除聊天功能外，QQ群聊小冰还开放了测天气、猜成语、占星术、对诗等群游戏和群管理技能。“微软小娜”语音助手或成微软合作企业首选。2014年7月，微软召开WindowsPhone8.1Update中国区发布会，正式发布Cortana中文版“微软小娜”。在过去几十年里，微软一直是企业软件的主要提供商。日产和大众等公司将微软技术嵌入自己生产的汽车中，如日产将微软语音助手Cortana嵌入了下一代汽车的仪表板。同时，HarmanKardon宣布在2017年推出集成Cortana语音助手的智能蓝牙音箱，与亚马逊Echo、GoogleHome在智能音箱市场展开角逐。六、Nuance：语音识别传统巨头，车载与医疗语音前景看好Nuance是专注语音识别底层技术巨头之一。2012年，Nuance从底层语音技术输出商转型为企业解决方案服务商，成立四大业务部门，包括医疗业务部、企业业务部、移动设备业务部和图像业务部。凭借多年在银行、医疗、汽车等行业的服务经验，Nuance开始布局语音AI领域，试图率先建立行业壁垒。图表30：Nuance四大业务部门资料来源：雷锋网，北京欧立信调研中心推出物联网开发平台NuanceMix，提供智能物联网家居体验。2015年末，Nuance推出专门针对移动和消费电子产品的开发平台NuanceMix。NuanceMix可以帮助设备制造商和开发人员快速创建自定义语音和自然语言处理接口，加速包括智能家居、游戏、机器人等行业在内的发展。同时，NuanceMix可以作为中间件对智能手机和物联网产品实施控制，并直接与设备本身交互。2017年1月，在国际消费电子展上，Nuance通过融合NuanceMix平台的GreenwaveSystemsAXONPlatform、家居安全系统集成、ROOBOJellyOS等实现了对话型智能家居系统。现场有将物联网的连接范围延伸到互联汽车中的演示。为声龙驾驶语音平台引入对话型智能汽车助手。2012年9月，Nuance发布车载自然语言语音平台DragonDrive（声龙驾驶），使用NuanceDragonDictation（声龙听写）和DragonGo解决方案的核心技术，为用户提供无缝互联汽车体验。2016年1月14日，Nuance宣布为声龙驾驶添加人工智能，推出DragonDriveAutomotiveAssistant（声龙驾驶汽车助手）。汽车助手能够通过Nuance声纹验证技术识别乘客身份，与车内的多名乘客（而不仅仅是驾驶员）进行对话。2016年10月18日，公司宣布为声龙驾驶推出ContextualReasoningFramework（情境化推理框架），利用AI在导航、用餐、加油、兴趣点等方面提供情境化、个性化推荐。目前，声龙驾驶技术已被福特、宝马、丰田、戴姆勒等众多世界领先汽车制造商所采用。图表31：DragonDrive智能车载自然语言语音平台六大特点资料来源：EEWORLD，北京欧立信调研中心利用深度学习提升公司核心语音识别能力，布局AI医疗。2017年2月，在医疗信息与管理系统学会2017年会议上，Nuance公布的报告称，通过启用AI产品，临床医生可以节省45%整理文档的时间，并可以将文档质量提高36%。在此之前，Nuance推出DragonMedicalOne临床语音云平台，该平台在语音识别技术基础上加入了深度学习系统，有效降低了临床医生口述转化为文档的误差，减少了医护人员的行政负担。同时，Nuance的虚拟医疗助手Florence，可以听取并理解人类言语，并为重复活动提供帮助，例如药物，实验室或成像的订单。数据统计称，医生每年使用Nuance的临床语音识别技术产品记录近一亿病人的数据。与ROOBO达成战略合作，布局智能机器人市场。2016年11月，Nuance宣布与中国人工智能机器人系统公司ROOBO达成战略合作，将NuanceMix等服务与机器人系统整合，向全球机器人、智能硬件设备和开发者提供多语言语音识别和NLU高级开放平台接口。七、百度：整合打造AIG，度秘应用空间广阔百度作为BAT中最早进军人工智能的互联网公司，已将AI作为未来最重要的核心战略，先后成立深度学习研究院（InstituteofDeepLearning，IDL）、硅谷人工智能实验室、百度北美研究中心、AI技术平台体系（AIG）等。2010年，百度已经开始进行智能语音技术研发，并于同年10月推出语音搜索服务。2014年末，在百度任职的吴恩达团队发明了“DeepSpeech”语音识别系统，可以在嘈杂环境下实现将近81%的辨识准确率。该系统采用深度学习算法取代了原有模型，在递归神经网络或者模拟神经元阵列中进行训练，让语音识别系统更加简单。2015年11月，百度推出DeepSpeech2.0深度语言识别技术，用于提高在嘈杂环境下语音识别的准确率。2016年，百度公布深层卷积神经网络技术DeepCNN算法模型，此模型有望成为DeepSpeech3.0核心组成部分，并率先应用到百度语音搜索中。全力推进云计算中心与开源深度学习平台，助力“百度大脑”项目。百度拥有强大的数据获取能力和数据挖掘能力，在国内拥有十几座云计算中心，为满足人工智能在计算和存储上的高要求，已投入使用4万兆交换机，并在探索10万兆交换机。在此基础上，2016年9月，百度向外界全面展示百度人工智能成果“百度大脑”，包含语音、图像等技术，并宣布对广大开发者、创业者及传统企业开放其核心能力和底层技术。同时，百度开源Paddle-Paddle云端托管分布式深度学习平台，对于序列输入、稀疏输入和大规模数据的模型训练支持良好，支持GPU运算，仅需少量代码就能训练深度学习模型，大幅降低用户使用深度学习技术的成本。图表32：百度大脑技术服务界面功能展示资料来源：百度大脑官网，北京欧立信调研中心2015年9月，百度发布声控人工智能个人助理“度秘”，在广泛索引服务信息的基础上，依托百度智能交互技术，为用户提供优质服务。2015年12月，度秘与华为荣耀“精灵键”深度集成，为华为手机用户提供秘书化服务。目前，度秘可以在餐饮、电影、宠物等场景提供秘书化服务，还将延伸到代驾、教育、医疗、金融等行业中。2016年11月22日，百度宣布在其语音开放平台上线三周年之际，将四项技术免费开放给用户和开发者共享，包括情感合成、远场方案、唤醒二次技术和长语音方案。图表33：百度共享四项语言技术资料来源：环球网，北京欧立信调研中心

                    本文档为【2020年智能音箱行业市场运行分析报告】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

2020年智能音箱行业市场运行分析报告

你可能还喜欢