机器翻译与人工智能报告

机器翻译与人工智能报告机器翻译与人工智能研究报告1概念篇2技术篇2.1理性主义方法.......................................................................................................................................................92.1.1基于规则的机器翻译...................................................................

机器翻译与人工智能研究报告1概念篇2技术篇2.1理性主义方法.......................................................................................................................................................92.1.1基于规则的机器翻译....................................................................................................................................92.2经验主义方法.....................................................................................................................................................122.2.1基于统计的机器翻译..................................................................................................................................132.2.2基于实例的机器翻译..................................................................................................................................152.2.3基于深度学习的机器翻译.........................................................................................................................16Contents目录1.1机器翻译简介........................................................................................................................................................21.2机器翻译发展历程...............................................................................................................................................21.3我国机器翻译现状...............................................................................................................................................54应用篇3人才篇3.1领军人物..............................................................................................................................................................223.2中坚力量..............................................................................................................................................................283.3领域新星..............................................................................................................................................................335趋势篇5.1趋势篇..................................................................................................................................................................394.1趋势篇.................................................................................................................................................................36图表目录图1抽象转换的分层实现...........................................................................................................................................3图2机器翻译技术源头...............................................................................................................................................4图3机器翻译过程.......................................................................................................................................................9图4机器翻译的转换层面........................................................................................................................................10图5直接翻译过程....................................................................................................................................................10图6基于转换方法的翻译流程 ...............................................................................................................................11图7中间语言与转换方法比较...............................................................................................................................12图8中间语转换翻译过程........................................................................................................................................12图9统计机器翻译典型模型....................................................................................................................................13图10基于统计的机器翻译模型.............................................................................................................................14图11基于实例方法翻译过程.................................................................................................................................15图12深度学习发展脉络.........................................................................................................................................16图13机器翻译领域全球学者分布.........................................................................................................................21图14机器翻译领域中国学者分布图....................................................................................................................21图15机器翻译各国人才顺逆差图.........................................................................................................................22图16机器翻译领域全局热度.................................................................................................................................39图17机器翻译领域近期热度.................................................................................................................................391concept概念篇121概念篇1.1机器翻译简介机器翻译（MachineTranslation）是指运用机器，通过特定的计算机程序将一种书写形式或声音形式的自然语言，翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交叉学科（边缘学科），组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑，各自建立在语言学、计算机科学和数学的基础之上。机器翻译可以实现世界上不同国家不同语言间的低成本交流，其主要优点体现为：n成本低。相对于人工翻译来说，机器翻译的成本要低很多。机器翻译需要人工参与的程序其实很少，基本上由计算机自动完成翻译，大大降低了翻译成本。n易把控。机器翻译的流程简单快捷，在翻译时间的把控上也能进行较为精准的估算。n速度快。计算机程序的运行速度非常快，其速度是人工翻译速度不可比拟的。由于这些优点，机器翻译在这几十年来得到了快速的发展。在具体应用上一般分为三种，分别是：词典翻译软件、计算机辅助翻译软件和机器翻译软件。第一种是最基本的网络查词翻译，查询对象一般为单个的字词、简单的词组或者是固定结构。第二种为计算机辅助翻译，英文简称CAT（ComputerAidedTranslation），其原理为利用计算机的记忆功能将译者之前翻译的资料进行整理，以便为之后出现的类似翻译提供便利条件。CAT软件产业已经比较成熟，例如GoogleTranslatorToolkit、MicrosoftLocStudio等，Trsdos（塔多思）占有国际计算机辅助翻译软件产业绝大多数的市场份额，微软、西门子等国际大公司都是它的用户。第三种是机器翻译软件，也叫做计算机翻译，即MT（MachineTranslation）。其原理为应用计算机按照一定规则把一种自然语言转换为另一种目标自然语言。此过程一般指自然语言之间句子和段落等的翻译，大部分见诸于世的翻译软件，如谷歌翻译、金山词霸和有道翻译等均属于机器翻译软件。1.2机器翻译发展历程机器翻译思想正式提出于1949年，WarrenWeaver发表《翻译》备忘录，在那以后至今的时间里，机器翻译研究经历了一个曲折的发展过程。第一台数字电子计算机诞生于1946年，从那以后，人们就开始思索如何运用计算机代替人从事翻译工作的问题，甚至在此之前，图灵就已经开始思考计算机是否能够进行思维这一问题。1949年，信息论先驱WarrenWeaver发表了有关机器翻译的备忘录，提出了机器翻译的可计算性，他提出两个主要观点：第一，他认为翻译类似于解读密码的过程；第二，他认为原文与译文“说的是同样的事情”，因此，当把语言A翻译为语言B时，就意味着从语言A出发，经过某一“通用语言”或“中间语言”，可以假定是全人类共通的。这是机器翻译发展初始阶段的第一件标志性事件；1954年美国乔治敦大学（Georgetown）在IBM的协同下进行的英俄翻译实验开始了，在翻译自动化方面的尝试是机器翻译发展初始阶段的第二3件标志性事件。总体来说，这一阶段人们头脑中已经形成了机器翻译的概念，并且已经意识到可以利用语法规则的转换和字典来实现翻译目的。人们乐观地认为只要扩大词汇量和语法规则，在不久的将来，机器翻译问题会比较完美地得以解决。所以在此之后的很长一段时间，全球各国大力支持机器翻译项目，一个机器翻译研究的高潮就此形成。好景不长，1966年11月，美国语言自动处理咨询委员会（ALPAC）从机器翻译的速度、质量、花费以及当时人们对机器翻译的需求等几个角度，对当时的各个翻译系统进行了一次评估，公布了著名的APLAC报告，给机器翻译研究工作浇了一盆凉水。报告提出，机器翻译的译文质量明显远低于人工翻译，难以克服的“语义障碍”是当时机器翻译遇到的问题，这份报告全面否定了机器翻译的可行性，建议各大机构停止对机器翻译的投资和研究。尽管报告的结论过于仓促、武断，但是这一阶段关于机器翻译的研究的确没有解决许多至关重要的问题，并没有对语言进行深入的分析。此后在世界范围内，机器翻译出现了空前的萧条局面。20世纪80年代末，由于微处理器的出现，计算机能力获得了突飞猛进的发展，机器翻译这一学科有着极大的开发潜力和经济利益，被重新提起。许多大公司开始投入资金和人力进行研究，使得机器翻译得到了复苏和重新发展的机会。这一时期，计算机和语言学的一些基础工作，比如许多重要的算法的研究已经到达了一个比较深入的阶段，对语法和语义的研究也已经有了一些比较重大的成果，词法分析、句法分析的算法相继得到开发，并且加强了软件资源，例如电子词典的建设。翻译方法以转换方法为代表，开始普遍采用以分析为主，辅以语义分析的基于规则方法来进行翻译，采用抽象转换表示的分层实现策略，如图1。语法与算法的分开是这一时期机器翻译的另一个特点。所谓语法与算法分开，就是指把语言分析和程序设计分开来成为两部分操作，程序设计工作者提出规则描述的方法，而语言学工作者使用这种方法来描述语言的规则。图1抽象转换的分层实现现在，机器翻译已经成为世界自然语言处理研究的热门。原因之一是网络化和国际化对翻译的需求日益增大，翻译软件商业化的趋势也非常明显。这一时期的翻译方法我们一般称之为基于经验主义的翻译方法，主要是基于实例和基于统计的方法，特点是注重大规模语料库的建设，开始了针对大规模的真实文本处理。同时，这一阶段的研究工作开始解决一个比文本翻译更加复杂和艰难的问题——语音翻译。而且由于Internet上的机器翻译系统具有巨大的潜在市场和商业利益，此时网上翻译机器系统也进入了实用领域的新突破阶段。4图2机器翻译技术源头机器翻译功能越来越强大，从最初只能进行简单的单词翻译，到之后可以翻译出基本符合语法的句子，慢慢可以翻译具有一定逻辑性的句子，现在部分软件已经可以自主联系上下文进行翻译，翻译结果的准确性与可读性都已经取得了非常大的进步。近年来，加入了“深度学习技术”等人工智能的机器翻译已经不止于简单的将一个个单词翻译成另一种语言，而是可以像人工翻译一样，不断向前回顾理解结构复杂的句子，同时联系上下文进行翻译。最为明显的就是现在的部分机器翻译软件已经可以理解每一个代词具体指代谁，这在许多年前是不可想象的。实现这种功能的关键，分别依赖于两种神经网络架构，一个是循环神经网络（RNN，RecurrentNeuralNetworks），另一个是卷积神经网络（CNN，ConvolutionalNeuralNetwork），目前关于两种网路架构哪种更适用于机器翻译的争论还有很多。l循环神经网络循环神经网络的关键在于“循环”二字，计算机系统会“记住”上一次输出的内容，并以此来决定下一次输出。有了上一次和下一次的概念，神经网络就不会把输入和输出的信息看作是独立的，而是相互关联的时间序列。这样可以通过以往的序列关联猜测到下一个序列会出现的词。在翻译时，神经循环网络把源语言当作输入序列，把翻译语言当作输出序列，由于每次的输出都会参考上一次输出的结果，所以机器翻译更具有整体性，可读性和准确性更高，而不是简单地翻译单词。目前，循环神经网络运用最为熟练的应该是谷歌翻译，谷歌曾提出利用神经网络系统进行机器翻译，据称汉译英的错误率最高下降了85%。l卷积神经网络卷积神经网络可以同时处理多个语言片段，并且具有信息分层处理能力。将文本序列化、单词向量化，经过分层处理后再输出结果。在分层过程中，还会不断回顾原文本来确定下一个输出序列。提出这种技术的是Facebook和最近的机器翻译新秀DeepL。2017年上半年，Facebook宣布推出了基于卷积神经网络开发的语言翻译模型，据说比基于循环神经网络开发的语言翻译模型速度可以快9倍，而且准确率更高。在测试上，Facebook翻译系统在英语-德语、英语-法语的测试上都比循环神经网络更接近人工翻译。不管是哪种系统，都不是机器翻译的终点，比如谷歌近期提到的不再基于卷积神经网络的注意力机制，以及多层神经网络、深度神经网络等，都是解决机器翻译问题的探索，在速5度、计算机资源消耗、情感理解等多种维度上各有不同的表现。1.3我国机器翻译现状中国的机器翻译研究始于20世纪50年代，但是由于国际环境和电脑发展水平的束缚，国内真正对机器翻译的研究是在20世纪80年代晚期。具有重要意义的标志性成果是著名的“863智能英-汉翻译系统”。20世纪90年代，随着电脑技术的发展和对外交流的扩大，机器翻译的使用变得日趋频繁；机器翻译不仅是必要的，而且随着机器翻译软件发展到了前所未有的新高度，机器翻译也成为可能。机器翻译研究形成了独立研究机构和政府研究组织共存的良好面貌。国内成功的机器翻译的开发也呈现出前所未有的繁荣景象。第一阶段的开发期是在1957年，中科院语言研究所、电脑科技研究所与中俄机器翻译合作，成功译出了九类复杂的句式。作为世界上的两种重要语言，英汉互译是国内外诸多学者所关心的。第二阶段由于政治原因和机器翻译固有的困难而停滞。在此阶段，汉英机器翻译研究几乎止步不前。第三阶段是大发展阶段，始于1975年。国内的机器翻译列入了“六五”“七五”“863”等主要研究计划。研究者集中精力进行了多个科研院所的协作研究，开展了与国际研究机构的合作和沟通，不仅培养了大批人才，积累了资源，而且把我国机器翻译带入了繁荣期。上世纪90年代以来，我国相继推出了一系列机器翻译软件，例如“译星”“通译”等。随着市场需求的扩大，机器翻译成为一种新兴产业，走向了专业化和市场化。近几年国内机器翻译发展很快，各大IT公司都相继推出自己的机器翻译系统，而且神经翻译技术和深度学习技术作为一种新的机器翻译范式，在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术，并成为目前学术界和工业界研究的热点，以下对各大IT公司机器翻译进展逐一介绍。2010年初，百度组建了机器翻译核心研发团队，2011年6月30日，百度机器翻译服务正式上线，目前，百度翻译支持全球28种语言互译、756个翻译方向，每日响应过亿次的翻译请求。此外，百度翻译还开放了API接口，目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商，金山词霸、灵格斯词霸、敦煌网等众多产品均接入了百度翻译API。百度还将基于神经网络的机器翻译引入机器翻译中，这一应用比谷歌翻译要早一年，在海量翻译知识获取、翻译模型、多语种翻译技术等方面取得重大突破，实时准确地响应互联网海量、复杂的翻译请求。其所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于“枢轴语言”等技术，处于业内领先水平，在国际上获得了广泛认可。科大讯飞成立之时就再布局语言和翻译领域布局项目。基于深度神经网络算法上的创新和突破，科大讯飞在2014年国际口语翻译大赛IWSLT上获得中英和英中两个翻译方向的全球第一名；在2015年又在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。2017年科大讯飞还推出了多款硬件翻译产品，其中晓译翻译机1.0plus将世界上最先进的神经网络翻译系统，从在线系统优化成一个离线系统。它可以在没有网络的情况下提6供基本的翻译服务。阿里巴巴2015年收购了国内最大的众包翻译平台——365翻译，开始涉入机器翻译领域。2016年10月起正式开始自主研发NMT模型，2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部测评中，并取得了不错的成绩。2017年初阿里正式上线了自主开发的神经网络翻译系统，为阿里经济体复杂多样的国际化需求提供可靠的技术支撑。阿里机器翻译是基于阿里巴巴海量电商数据并结合机器学习、自然语言处理技术，实现多语言语种识别与自动翻译功能，为跨境电商信息本地化与跨语言沟通上提供精准、快捷、可靠的在线翻译服务，其宗旨是“让商业没有语言障碍”。2016年初，腾讯开始研发AI翻译产品，并正式推出机器人翻译——翻译君，支持中英日韩法德意土等15种语言和80个语种的对翻译。2017年宣布翻译君上线“同声传译”新功能，用户边说边翻的需求得到满足，语音识别+NMT等技术的应用保证了边说边翻的速度与精准性。腾讯机器翻译基于腾讯领先的底层算法、丰富的中文知识图谱和先进的NLP引擎能力，结合了神经网络机器翻译和统计机器翻译的优点，对源语言文本进行深入理解，使翻译效果更为准确，同时支持语音翻译、图片翻译、语种识别等多种场景，大大减轻传统文本翻译的读写成本。机器翻译是搜狗人工智能战略中的重要一环，一方面可以满足用户在搜索过程中大量机器翻译需求，一方面还可以通过搜索和机器翻译技术的结合，帮助中文用户打破语言障碍，搜索并浏览全世界外语信息。2016年5月19日，搜狗正式上线英文搜索。搜狗英文搜索提供跨语言检索功能，可自动将中文翻译成英文进行查询，再生成英文查询结果。对于不擅长英文的用户，可以节省很多“先翻后搜”的搜索时间2017年11月的乌镇世界互联网大会上，搜狗展示了机器同传技术，可将演讲者的中文同步翻译成英文并实时上屏12月21日，搜狗英文搜索正式升级为搜狗海外搜索频道，并同步上线了搜狗翻译频道。2018年3月，搜狗上线定位旅游用的翻译机——翻译宝开始了在机器翻译领域硬件的探索。目前，搜狗已经上线了基于神经网络的机器翻译频道，并发布了跨语言搜索系统，为用户提供高质量的英文网页搜索服务，并同时能够将搜索结果翻译为中文帮助用户理解。网易2011年创立网易感知与智能中心，拥有自建分布式深度学习平台，其自主研发的图像处理、语音识别、智能问答等AI技术，已经在有道翻译中得到了应用和推广。2017年5月网易有道在GMIC未来创新峰会上公布：由网易公司自主研发的神经网络翻译技术正式上线。此次在有道上线的YNMT技术，由网易有道与网易杭州研究院历时两年合力研发，让以中文为中心的、根据中文用户使用习惯定制的神经翻译系统服务于6亿有道用户，服务于有道词典、有道翻译官、有道翻译网页版、有道e读等产品。除了BAT这类大型的IT公司，一些机器翻译的创业公司如火如荼的发展起来。例如“小牛”翻译，由东北大学计算机科学与工程学院自主研发的机器翻译系统NiuTrans，荣获钱伟长中文信息处理科学技术一等奖，这是国内中文信息处理领域的最高科学技术奖项。小牛翻译是目前国际上功能最强的两个开源统计机器翻译之一，目前有70多个国家的2000多个高校和企业研究机构下载使用。它不仅能翻译外文，还能翻译西藏、新疆等少数民族语言。由微软亚洲研究院和微软搜索技术中心的资深技术专家创立的爱特曼科技（Atman）是一家7人工智能创业公司，创立仅三个月产品还没上线便获得千万级的天使轮投资。该公司聚焦于世界领先机器翻译技术的研发和应用，核心技术有机器翻译、语音识别、机器写作、知识图谱等，提供的产品和服务包括：领先机器翻译技术结合译后编辑重构高质量语言转换服务、外媒内容全链条生产平台，包括外媒选材、机器翻译、在线编辑、自动分发等。总而言之，机器翻译在我国从无到有，现如今其发展更是有着新的广度和深度，深刻的时代意义和现实价值。8技术篇2technology92技术篇机器翻译的过程包括三个阶段，原文分析、原文译文转换和译文生成。根据不同的翻译目的和翻译需求，在某一具体的机器翻译系统中，可以将原文分析和原文译文转换相结合，独立出译文生成，建立相关分析独立的生成系统。在这一翻译过程当中，机器翻译在进行原文分析时要考虑文本的结构特点，而在译语生成时则不考虑源语的结构特点。也可以结合原文译文转换与译文生成，把原文分析独立出来，建立独立分析相关生成系统。此时，文本分析时不考虑译语的结构特点，而在译语生成时要考虑源语的结构特点。还可以让原文分析、原文译文转换与译文生成分别独立，建立独立分析独立生成系统。在这样的系统中，分析源语时不考虑译语的特点，生成译语时也不考虑源语的特点，通过原文译文转换解决源语译语之间的异同。图3机器翻译过程自机器翻译诞生以来，其研究围绕理性主义方法和经验主义方法两种思潮进行了两次转变。所谓“理性主义”的翻译方法，是指由人类专家通过编撰规则的方式，将不同自然语言之间的转换规律生成算法，计算机通过这种规则进行翻译。这种方法理论上能够把握语言间深层次的转换规律，然而理性主义方法对专家的要求极高，不仅要求了解源语言和目标语言，还要具备一定的语言学知识和翻译知识，更要熟练掌握计算机的相关操作技能。这些因素都使得研制系统的成本高、周期长，面向小语种更是人才匮乏非常困难。因此，翻译知识和语言学知识的获取成为基于理性的机器翻译方法所面临的主要问题。所谓“经验主义”的翻译方法，指的是以数据驱动为基础，主张计算机自动从大规模数据中学习自然语言之间的转换规律。由于互联网文本数据不断增长，计算机运算能力也不断加强，以数据驱动为基础的统计翻译方法逐渐成为机器翻译的主流技术。但是同时统计机器翻译也面临诸如数据稀疏、难以设计特征等问题，而深度学习能够较好的环节统计机器翻译所面临的挑战，基于深度学习的机器翻译现在正获得迅速发展，成为当前机器翻译领域的热点。2.1理性主义方法2.1.1基于规则的机器翻译基于规则的机器翻译方法（Rule-basedSystem）的基本思想认为，一种语言无限的句子可以由有限的规则推导出来。依据语言规则对文本进行分析，再借助计算机程序进行翻译，这是多数商用机器翻译系统采用的方法。10基于规则的方法比较直观，能够直接表达语言学家的知识。规则的颗粒具有很大的可收缩性，大颗粒度的规则具有很强的概括能力，而且有比较好的系统适应性，不依赖于具体的训练语料；小颗粒度的规则具有精细的描述能力，这种方法便于处理复杂的结构和进行深层次的理解，如解决长距离依赖等问题。但是，基于规则的翻译方法中规则主观因素比较重，有时与客观事实有一定差距；规则的覆盖性比较差，特别是细颗粒度的规则很难总结得比较全面；规则之间的冲突没有好的解决办法；规则库的调试是一个漫长枯燥的过程；规则一般只局限于某一个具体的系统，规则库开发成本太高。图4机器翻译的转换层面基于规则的机器翻译系统中，主要包括词法、句法、短语规则和转换生成语法规则，通过三个连续的阶段实现分析、转换、生成，根据三个阶段的复杂性可以分为直接翻译、结构转换翻译和中间语翻译。（1）直接翻译直接翻译是指把源语中的单词或句子直接替换成相应的目的语的单词，必要时可以对词序进行适当的调整。这是机器翻译最初构想的体现，从目的语中寻找与源语词汇相对应的单词，但并不是电子词典word-to-word的形式，而是翻译句子中的所有词汇，再通过词语翻译、插入、删除和局部的词序调整来实现翻译，不进行深层次的句法和语义的分析，直接翻译应用的后期也加入了一些简单的句法或者是语义规则，对替换后的词语进行重新排序，生成最终的目的语文本，也可以采用一些统计方法对词语和词类序列进行分析。直接翻译是早期机器翻译系统常用的方法，后来IBM提出的统计机器翻译模型也可以认为是采用了这一范式，著名的机器翻译系统Systran早期也是采用这种方法，后来逐步引入了一些句法和语义分析。由于目的语和源语在句子语法结构等方面的差别很大，所以使用直接翻译法翻译出来的句子可读性和准确性都比较低，但它是机器翻译最实质性的一步，是机器翻译变成现实的一次迈步。图5直接翻译过程11（2）结构转换翻译结构转换翻译是在直接翻译系统上出现的，相比较于直接翻译，它更多的从句子的层面来分析处理源语与目的语，译文的可读性和准确性更高。结构转换翻译通常包括分析、转换和生成三个阶段。分析要对源语言句子和源语言深层结构进行分析，其中相关分析在分析时要考虑目标语言的特点，而独立分析在分析过程中则与目标语言无关。从源语深层结构向目标语言的深层结构转换是关键部分，生成则是由目标语言深层结构生成目标语言句子，相关生成要考虑语言的特点，独立生成则与源语言无关。这种方法被认为是模拟人类翻译活动最恰当的机制。不同的语言具有相同或者相似的深层结构，就像是一座桥梁，把人类不同的语言连接起来，使得两种语言间可以实现翻译交流。目前绝大部分商品化机器翻译系统采用转换式机器翻译方法。理想的转换方法应该做到独立分析和独立生成，这样在进行多语言翻译的时候可以大大减少分析和生成的工作量；转换放大根据深层结构所处的层面可分为句法层转换和语义层转换，分别对应句法信息和语义信息；分析的深层次越深，歧义排除也就越充分，但同时，错误率也会相对越高。[1]图6基于转换方法的翻译流程人类自然语言中很多单词不止有一个意思，比如中文的“意思”二字就有很多不同的意思，容易产生歧义。在机器翻译中，为了简化比较复杂的表达结构，避免翻译过程中出现有歧义的语言现象，能够独立于各种自然语言，同时还能够清晰准确的表达各种自然语言的人造计算机语言便应运而生，这种作为翻译中介的人造计算机语言被称作中间语。它常见的形式有语义网络（SemanticNetwork）、框架（Frame）和逻辑（Logic），以某种知识表示形式作为中间语言的机器翻译方法有时候也称为基于知识的机器翻译方法。（3）中间语言转换翻译中间语言转换的机器翻译原理其实是在不同的语言之间建立一个通用的语义-句法表达式。整个翻译过程分为“分析”和“生成”两个阶段，由源语言到中间语言的生成，由中间语言到目标语言的生成环节。分析过程只与源语言有关，与目标语言无关，生成过程只与目标语言有关，与源语言无关。[1]刘群机器翻译原理与方法讲义12中间语言方法的优点在于进行多语种翻译的时候，只需要对每种语言分别开发一个分析模块和一个生成模块，模块总数为2*n，相比之下，如果采用转换方法就需要对每两种语言之间都开发一个转换模块，模块总数为n*（n-1）。图7中间语言与转换方法比较中间语言方法一般用于多语言的机器翻译系统中，从实践看，采用某种人工定义的知识表示形式作为中间语言进行多语言机器翻译都不太成功，如日本主持的亚洲五国语言机器翻译系统，总体上是失败的。在CSTAR多国机器翻译系统中，曾经采用了一种中间语言方法，其中间语言是一种带话语信息的语义表示形式，由于语音翻译都限制在非常狭窄的领域中（如旅游领域或机票预定），语义描述可以做到比较精确，因此采用中间语言方法有一定的合理性，但该方法最终也不成功。实际上，领域特别窄的场合可以采用中间语言方法，一个适合于中间语言方法的例子是数词的翻译，采用阿拉伯数字作为中间语言显然是比较合理的。图8中间语转换翻译过程2.2经验主义方法20世纪80年代末至90年代初，随着计算机技术的快速发展，大规模双语语料库的构建以及机器学习方法的兴起，机器翻译方法逐渐由基于理性主义思维的规则方法转向基于经验主义思维的语料库方法。基于语料库的机器翻译方法又可以进一步划分为基于实例的翻译方法和基于统计模型的翻译方法。基于语料库的方法使用语料库作为翻译知识的来源，无需人工编写规则，系统开发成本低，速度快；而且从语料库中学习到的知识比较客观，覆盖性也比较好。但是这种系统性能严重依赖于语料库，有着严重的数据稀疏问题，也不容易获得大颗粒度的高概括性知识。132.2.1基于统计的机器翻译统计机器翻译（Statistics-basedmachinetranslation）的基本思想是充分利用机器学习技术，通过对大量的平行语料进行统计分析进行翻译。通俗来讲，源语到目的语的翻译过程是一个概率统计的问题，任何一个目的语句子都有可能是任何一个源语的译文，只是概率不同，机器翻译的任务就是找到概率最大的那个句子。20世纪90年代初期，IBM的研究人员提出了基于信源信道思想的统计机器翻译模型，并在实验中获得了初步的成功，正式标志着统计机器翻译时代的到来。不过由于当时计算机能力等方面限制，真正展开机器翻译方法研究的人并不多，统计机器翻译方法是否有效还受到人们的普遍怀疑，随着越来越多的人员投入到统计机器翻译中并取得成功，统计方法已经逐渐成为国际上机器翻译研究的主流方法之一。最初IBM研究人员提出的是基于词的机器翻译模型，但是，由于这种机器翻译模型复杂度较高，翻译质量也不尽人意，因此逐渐被一些更加有效的翻译模型所替代。下图是当前机器翻译中一些典型的翻译模型。[2]图9统计机器翻译典型模型统计机器翻译也是基于语料库的机器翻译方法，不需要人工撰写规则，而是从语料库中获取翻译知识，这一点与基于实例的方法相同。为翻译建立统计模型，把翻译问题理解为搜索问题，即从所有可能的译文中选择概率最大的译文，基于实例的机器翻译则无需建立统计模型，二者的区别还在于，基于实例的机器翻译中，语言知识表现为实例本身，而统计机器翻译中，翻译知识表现为模型参数。统计机器翻译是以严格的数学理论做基础的。所有的翻译知识都是以概率的形式呈现，表现为某种参数。训练的过程就是为了得到这些参数，解码的过程则是利用这些参数去搜索匹配最好的译文，只要使用这些参数就不需要去搜索原始的语料库。在整个过程中，机器翻译并不需要人工构造的翻译知识，所有的语言知识都是从语料库中自动获取。统计机器翻译的成功在于采用了一种新的研究范式，这种研究范式已在语音识别等领域中被证明是一种成功的翻译，但在机器翻译中是首次使用。这种范式的明显特点是，公开的大规模的训练数据、周期性的公开测评和研讨以及开放源码工具。[2]机器翻译原理与方法讲义14目前，统计机器翻译所使用的语料库是双语句子对齐的语料库，规模通常在几万句对到几百万句对不等。统计机器翻译的过程被看作是一个最优解搜索的过程，系统从巨大的可能译文中搜索最优的译文，搜索所使用的算法则采用人工智能中的一些成熟算法。统计翻译模型的发展，迄今为止经历了三个阶段。分别是基于词的模型，基于短语的模型和基于句子的模型。基于短语的模型中的“短语”表示连续的词串，该模型的基本思想是：首先从双语句子对齐的平行语料库中抽取短语到短语的翻译规则，在翻译时将源语言句子切分为短语序列，利用翻译规则得到目标语言的短语序列，然后借助调序模型对目标语言短语序列进行排序，最终获得最佳的目标译文。其中，短语调序模型，尤其是长距离的短语调序，一直是短语翻译模型的关键问题。目前，基于短语的模型是最为成熟的模型，而基于句子的模型是当前研究的热点。统计机器翻译的模型可以表现为一个金字塔的形式，如图10。图10基于统计的机器翻译模型在这个金字塔上，越往塔尖的方向走，对语言的分析也越深入。理论上来说，对语言的分析越深入，所具有的排歧能力就应该越强，译文的质量也应该越高。但实际上，分析语言本身就是一个很难的问题，分析的深度越深，往往引入的错误也越多，反而会导致翻译质量的下降。因此，如何通过引入更深层的语言分析来提高模型的排歧能力，同时又要避免分析导致的错误，就成了统计翻译模型要解决的主要问题。统计机器翻译为自然语言翻译过程建立概率模型并利用平行语料库训练模型参数，无需人工编写规则，利用语料库直接训练得到机器翻译系统，人工成本低、开发周期短，只要有语料库就很容易适应新的领域或者语种，成为Google、微软、百度等国内外公司在线翻译系统的核心技术。尽管如此，统计机器翻译仍然面临着一些严峻的挑战。例如统计机器翻译依赖人类专家通过特征来表示各种翻译知识源，由于语言之间的结构转换非常复杂，人工设计特征难以保证覆盖所有的语言现象；统计机器翻译中的原规则结构复杂，对语料库的依赖性强，引入复杂的语言知识比较困难，即使现在可以用大规模语料库训练数据，但仍然面临着严重的数据稀疏问题。152.2.2基于实例的机器翻译基于实例的翻译方法（Example-basedMachineTranslation）由日本翻译专家长尾真（MakokoNagao）提出，他在1984年发表了《采用类比原则进行日-英机器翻译的一个框架》一文，探讨日本人初学英语时翻译句子的基本过程，长尾真认为，日本人初学英语时总是记住一些最基本的英语句子以及一些相对应的日语句子，他们要对比不同的英语句子和相对应的日语句子，并由此推论出句子的结构。参照这个学习过程，在机器翻译中，如果我们给出一些英语句子的实例以及相对应的日语句子，机器翻译系统可以通过识别和比较这些实例以及译文的相似之处和相差之处，从而挑选出正确的译文。在基于实例的机器翻译系统中，系统的主要知识源是双语对照的翻译实例库，实例库主要有两个字段，一个字段保存源语言句子，另一个字段保存与之对应的译文，每输入一个源语言的句子时，系统把这个句子同实例库中的源语言句子字段进行比较，找出与这个句子最为相似的句子，并模拟与之相对应的译文，最后输出译文，这是一种由实例引导推理的机器翻译方法，整个翻译过程其实是查找和复现类似的例子，不需要对源语言进行任何分析，只需要通过类比，发现和记起特定的源语言表达或以前的翻译实例作为主要知识源来对新的句子进行翻译。[3]图11基于实例方法翻译过程基于实例的机器翻译系统中，翻译知识以实例和语义类词典的形式表示，易于增加或删除，系统的维护简单易行，且利用了较大的翻译实例库并进行精确地对比，有可能产生高质量译文，而且避免了基于规则的那些传统的机器翻译方法必须进行深层语言学分析的难点，在翻译策略上很有吸引力的。基于实例的机器翻译直接使用对齐的语料库作为知识表示形式，知识库的扩充非常简单，而且不需要进行深层次的语言分析，也可以产生高质量的译文。但是基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模和覆盖率，至少要百万句对以上，因此如何构建大规模翻译记忆库成为影响基于实例的机器翻译研究的关键。现阶段，由于缺少大规模的双语对齐语料库，基于实例的机器翻译系统匹配率其实并不高，往往只有限定在特定的专业领域时，翻译效果才能达到使用要求。如果基于实例机器翻译匹配[3]机器翻译原理与方法讲义16成功，可以获得相对较高质量的译文，因此基于实例的机器翻译一般和基于规则的机器翻译相结合使用，会产生比较好的翻译结构。对于匹配率过低的问题，可以试着做到短语级别的双语对齐，以提高匹配命中率，通过短语级别的局部匹配，结合相应的目标句子的框架，完成句子的翻译。2.2.3基于深度学习的机器翻译从最初的基于规则的机器翻译到最新的依靠数据驱动进行的机器翻译，其总体发展趋势是要让计算机更加自主的学习如何翻译。利用平行语料库进行数据的训练，是提高机器翻译准确性和可读性的关键，深度学习的引入则成了当前热点。（1）深度学习发展脉络以下是AMiner研究人员通过四个脉络对深度学习发展脉络进行了梳理。图12深度学习发展脉络l脉络一cv/tensor1943年卡洛可和皮茨提出了抽象的神经元模型MP，该模型可以看作深度学习的雏形。1957年FrankRosenblatt发明了感知机，是当时首个可以学习的人工神经网络。1969年MarvinMinksy和SeymourPapert用详细的数学证明了感知机的弱点，神经网络研究进入冰河期。1984年福岛邦彦提出了卷积神经网络的原始模型神经感知机，产生了卷积和池化的思想。1986年Hinton等人提出一般Delta法则，并用反向传播训练MLP。1998年以YannLeCun为首的研究人员实现了5层的卷积神经网络——LeNet-5，以识别手写数字。LeNet-5标志着CNN（卷积神经网络）的真正面世，LeNet-5的提出把CNN推上了一个小高潮。17之后SVM兴起。2012年AlexNet在ImageNet上夺冠，掀起了深度学习的热潮。AlexNet可以算是LeNet的一种更深更宽的版本，并加上了relu、dropout等技巧。这条思路被后人发展，出现了VGG，GoogLeNet等网络。2016年何恺明在层次之间加入跳跃连接，Resnet极大增加了网络深度，效果有很大提升。cvprbestpaperdensenet也是沿着这条思路发展的。除此之外，cv领域的特定任务还出现了各种各样的模型（Mask-RCNN等），这里不一一介绍。2017年Hinton认为反省传播和传统神经网络有缺陷，继而提出了CapsuleNet。但是目前在cifar等数据集上效果一般，这条思路还需要继续验证和发展。l脉络二生成模型传统的生成模型是要预测联合概率分布P（x，y）。RBM本在1986年的时候就存在，只是2006年重新作为一个生成模型，并且堆叠成为deepbeliefnetwork，使用逐层贪婪或者wake-sleep的方法训练，Hinton等人从此开始使用深度学习重新包装神经网络。Auto-Encoder提出于上世纪80年代，现在随着计算能力的进步重新登上舞台。2008年，Bengio等人又提出denoiseAuto-Encoder。MaxWelling等人使用神经网络训练Variationalauto-encoder。此模型可以通过隐变量的分布采样，经过后面的decoder网络直接生成样本。GAN（生成对抗网络）于2014年提出。它是一个生成模型，通过判别器D和生成器G的对抗训练，直接使用神经网络G隐式建模样本整体的概率分布。每次运行便相当于从分布中采样。DCGAN是较好的卷积神经网络实现，而WGAN则是通过维尔斯特拉斯距离替换原来的JS散度来度量分布之间的相似性工作，训练更稳定。PGGAN则逐层增大网络，生成极其逼真的人脸。l脉络三SequenceLearning1982年出现的HopfieldNetwork有了递归网络的思想。1997年Schmidhuber发明LSTM，并做了一系列的工作。但是更有影响力的还是2013年由Hinton组使用RNN做的语音识别工作。文本方面，Bengio提出了一种基于神经网络的语言模型，后来Google提出word2vec也包含了一些反向传播的思想。在机器翻译等任务上，逐渐出现了以RNN为基础的seq2seq模型，模型通过编码器把一句话的语义信息压成向量再通过解码器输出，但更多的还要和注意力模型结合。之后以字符为单位的CNN模型在很多语言任务也表现不俗，而且时空消耗更少。LSTM/RNN模型中的注意力机制是用于克服传统编码器-解码器结构存在的问题的。其中，自注意力机制实际上就是采取一种结构令其同时考虑同一序列局部和全局的信息。l脉络四DeepreinforcementLearning该领域最出名的是DeepMind，这里列出的DavidSilver则是一直研究reinforcementlearning（rl，强化学习）的高管。q-learning是很有名的传统rl算法，deepq-learning则是将原来的q值表用神经网络代替。之后DavidSilver等人又利用其测试了许多游戏，发在了Nature上。增强学习在doubleduel的进展，主要是q-learning的权重更新时序。DeepMind的其他工作诸如DDPG、A3C也非常有名，它们是基于policygradient和神经网络结合的变种。18可以说基于深度预习的机器翻译，显著地提升了机器翻译的质量，接近普通人的水平，是当前机器翻译领域的热点。大致可以分为两种情况，一是领用深度学习改进统计机器翻译中的相关模块；二是直接利用神经网络实现源语言到目标语言的映射，即端到端的神经机器翻译。（2）利用深度学习改进统计机器翻译利用深度学习改进统计机器翻译是指利用深度学习改进统计机器翻译中的相关模块，如语言模型、翻译模型等。上文也提到统计机器翻译有着不可避免的缺点，其中较为严重的是数据稀疏问题，而深度学习可以帮助统计翻译模型较好的解决这一问题。机器翻译的核心是语言模型，语言模型对译文的流利度和质量都有着至关重要的作用，通过深度学习可以改进语言模型。n-gram是传统的语言模型所采用的方法，模型参数是通过极大似然估计训练所得，采用离散表示（每个词都是独立的符号），但是因为大多数n-gram在语料库中只出现一次，无法准确估计模型参数，所以极大似然估计面临着严重的数据稀疏问题。因此传统的统计机器翻译基本会使用平滑和回退等策略来缓解数据稀疏问题，但即使采用平滑和回退策略，统计机器翻译还是因为数据稀疏无法获得更多历史信息，通常仅能使用4-gram或者5-gram语言模型。深度学习著名代表学者YoshuaBengio教授2003年提出基于神经网络的语言模型，这一模型中的数据稀疏问题由于分布式表示的存在得到了有效缓解；2014年美国BBN公司的研究人员进一步提出神经网络联合模型（NeuralNetworkJointMo

                    本文档为【机器翻译与人工智能报告】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.6 已有0 人下载

立即下载

机器翻译与人工智能报告

你可能还喜欢