首页 中文分词技术在智能操作票系统中的应用new

中文分词技术在智能操作票系统中的应用new

举报
开通vip

中文分词技术在智能操作票系统中的应用new中文分词技术在智能操作票系统中的应用new 中文分词技术在操作票系统中的应用 许先锋~庄卫金 国电南瑞科技股份有限公司 率。而中文分词技术是全文信息检索的核心技术之摘要:总结操作票系统的应用现状。介绍中文分词技术的基一。 本定义和方法。针对智能出票存在智能化程度低、操作票查 本文将中文分词技术应用到智能操作票系统询手段单一的问题,提出利用中文分词技术实现人工写票的 中,用以实现人工电脑写票或人工电脑改票的智能智能化处理和操作票的全文信息检索。并针对操作票的特点 解析、自动纠错、操作票的全文信息检索,将人工对中...

中文分词技术在智能操作票系统中的应用new
中文分词技术在智能操作票系统中的应用new 中文分词技术在操作票系统中的应用 许先锋~庄卫金 国电南瑞科技股份有限公司 率。而中文分词技术是全文信息检索的核心技术之摘要: 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 操作票系统的应用现状。介绍中文分词技术的基一。 本定义和方法。针对智能出票存在智能化程度低、操作票查 本文将中文分词技术应用到智能操作票系统询手段单一的问题,提出利用中文分词技术实现人工写票的 中,用以实现人工电脑写票或人工电脑改票的智能智能化处理和操作票的全文信息检索。并针对操作票的特点 解析、自动纠错、操作票的全文信息检索,将人工对中文分词技术进行了改进。本方法实现人工写票和智能出 写票和智能出票完美结合,既发挥计算机智能开票票的统一,操作票查询的智能化处理,具有良好的应用前景。 的优势,又发挥调度员人工写票的灵活性优势,满关键词:中文分词;智能操作票;全文信息检索 足不同场景下开票需求。 0 引言 1 中文分词技术 操作票系统广泛应用在电力系统调度、监控系 1.1什么是中文分词技术 统中,是调度员、监控员日常倒闸操作的重要依据 和安全保障。操作票系统的设计目的是:实现操作分词就是将连续的字(词)序列按照一定的规票运行管理的智能化、信息化水平,减轻运行人员范重新组合成词序列的过程。《信息处理用现代汉工作负担,提高工作效率,防止误操作现象出现,语分词 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 》中对分词的定义是:从信息处理需要保障电网操作安全和运行安全。 出发,按照特定的规范,对汉语按分词单位进行划 多年来,为了提高操作票系统的智能性、准确分的过程。对于英文分词,只要简单地以空格为分性、快速性、安全性,已经有大量的此类研究,也界符就能很好地把句子分析出来。不同于英文,计有大量的系统投入实际运行。从目前应用情况来算机对中文分词时,由于中文句子中词与词之间是看,智能操作票系统在标准接线方式、标准操作任没有空格的,而且,两个字组合起来看似是一个词务的出票中取得了良好的效果。但由于电网运行方在句子中未必是一个词,所以计算机想要识别出中式、接线方式的复杂多变,以及各地操作规程、操文句子中的词,就必须采用不同于英文分词的新技作习惯的不统一,对于复杂的倒方式、投运等操作术。 来讲,智能操作票系统很难解决。在这种情况下, 分词后的中调度员、监控员只能依赖人工电脑写票完成日常工待分词的中文(英文)词中文分词处理作写票工作。 文字符串或单字 随着调度员、监控员计算机水平的提高,以及 中文输入法智能化水平的提高,人工电脑写票的效 率也逐步提高。从管理的角度出发,领导也不希望1.2 中文分词基本算法 由于完全依靠智能出票而导致调度员、监控员业务 能力的下降。但人工电脑写票无法进行安全防误校 目前的中文分词算法主要分为三大类:基于字核,给电网安全操作造成隐患。 符串的方法、基于统计的方法和基于规则的方法。 1. 1 .1 基于字符串的分词算法 此外,目前操作票系统的检索手段单一,主要 这种方法又叫做机械分词方法或基于词典的依靠用户输入精准的查询条件后方可以查询出需 分词法。它由三个要素组成:分词词典、文本扫描要的操作票信息,智能化程度低。目前基于全文信 顺序和匹配原则。分词词典中包含“充分多”的词息检索的搜索引擎在互联网中被广泛使用,如 条,使得待切分的句子可以按照设定的扫描顺序和Google、百度等。将全文信息检索技术引入操作票 匹配原则。按照扫描顺序的不同,该分词方法可以系统中可以彻底改变操作票的查询手段和查询效 分为正向匹配、逆向匹配、双向匹配;按照匹配原1. 2 基于统计的分词算法 该方法的主要思想:词是稳定的组合,因此在则的不同,可以分为最大匹配、最小匹配、逐词匹 配和最佳匹配。常见的几种基于词典的分词方法思上下文中,相邻的字同时出现的次数越多,就越有想如下。 可能构成一个词。因此字与字相邻出现的概率或频 率能较好反映成词的可信度。比如对于任意两个词1. 1. 1.1 正向最大匹配算法 语 w1 、 w2 ,统计在语料库中词语 w1 后面恰 正向最大匹配算法思想[3 ] : (1) 从左往右 取待切分汉语句的m 个字符作为匹配字段,其中m 好是 w2 的概率 P(w1, w2) 。这样便会生成一个很 大的二维 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 。再定义一个句子的划分 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 的得分为 为机器可读词典中最长词条的汉字个数。(2) 查找 P(?机器可读词典并进行匹配。若匹配成功,则将这个, w1) ? P(w1, w2) ? „ ? P(wn-1, wn) ,匹配字段作为一个词切分出来;若匹配不成功,则其中 w1, w2, …, wn 依次表示分出的词。我们同样将这个匹配字段的最后一个字去掉,剩下的字符串可以利用动态规划求出得分最高的分词方案。 作为新的匹配字段,进行再次匹配。重复以上过程,1. 3 基于规则的分词算法 直到切分出所有词为止。 基于规则的分词方法是通过让计算机模拟人1. 1. 1.2 逆向最大匹配算法 对句子的理解,达到识别词的效果。其基本思想就 逆向最大匹配算法思想[4 ] :该算法是对正向是在分词的同时进行句法、语义分析,利用句法信 息和语义信息来对文本进行分词。 最大匹配算法的逆向思维,主要是从右往左对字符 串进行最大匹配。匹配成功,则将这个匹配字段作2 词典组织 为一个词切分出来;若匹配不成功,则将这个匹配 2.1操作票的格式特点 字段的最前一个字去掉,剩下的字符串作为新的匹 配字段,进行再次匹配。重复以上过程,直到切分出 操作票是调度员、监控员进行操作的凭据。一所有词为止。实验表明逆向最大匹配算法效果要优张操作票主要由操作任务和操作项目组成。通过对于正向最大匹配算法。 操作任务、操作项目内容的分析,可以总结出它们1.1.1.3 逐字匹配算法 主要由操作术语、操作对象、操作结果组成。通常 基于TRIE索引树的逐字匹配算法,是建立在树有三种格式: 型词典机制上,匹配的过程是从索引树的根结点依1) 操作术语,操作对象,[操作对象],„„ 次同步匹配待查词中的每个字,可以看成是对树某 比如:拉开220kV龙沙线2210开关。 一分枝的遍历。因此,采用该算法的分词速度较快, 但树的构造和维护比较复杂。一种改进的算法是和2) 操作对象,[操作对象],„„,操作术语 最大匹配算法相结合,吸取最大匹配算法词典结构 比如:220kV龙沙线2210开关由运行转冷备简单、TRIE索引树算法查询速度快的优点。因此词 用。 典结构和最大匹配词典构造机制相似,区别在于词 典正文前增加了多级索引。匹配过程类似TRIE索引3) 操作术语,操作对象,操作结果 树进行逐字匹配,在性能上和TRIE索引树相近。 比如:检查220kV龙沙线2210开关 确已拉1.1.1.4 最佳匹配算法 开。 此法分为正向的最佳匹配法和逆向的最佳匹配 其中“拉开”、“由运行转冷备用”、“检查”法,其出发点是:在词典中按词频的大小顺序排列 为操作术语 ,“220kV龙沙线2210开关”为操作词条,以求缩短对分词词典的检索时间,达到最佳 设备,“确已拉开”为操作结果。操作术语、操作效果,从而降低分词的时间复杂度,加快分词速度。 对象、操作结果根据各地的操作规程和操作习惯的实质上,这种方法也不是一种纯粹意义上的分词方 不同,一般也会有少许区别。在目前的智能操作票法,它只是一种对分词词典的组织方式。OM 法的 系统中,操作术语、操作结果一般存在知识库里,分词词典每条词的前面必须有指明长度的数据项, 用户可以根据各地的需要进行维护。操作对象一般所以其空间复杂度有所增加,对提高分词精度没有 存储在模型数据库中。 影响,分词处理的时间复杂度有所降低。 操作对象一般由以下格式组成: Trie索引树结点是以下述结构为单元的,按关 键字排序的数组: [厂站名称][电压等级]双重编号 1)关键字(2字节):单一汉字。 其中厂站名称、电压等级为可选项。 2)子树大小(2字节):以从根结点到当前单元的关键 字组成的子串为前缓的词的个数。 在操作票系统中,经常会出现人工写票、人工 3)子树指针(4字节):子树大小非0时,指针指向子改票等现象,如何从操作任务和操作项目中识别出 树,否则指向叶子。 操作术语、操作对象和操作结果是中文分词的主要 构建一个Trie树的流程如下: 任务。 目前利用中文分词技术解析操作票有以下几个开始问题需要考虑: 读取设备、厂站、操作术语、电压等级(1)操作对象名称重复问题。在电力系统中,设等信息,形成字符串列表备的编号在一个厂站内是唯一的,但在整个系统中 循环字符串列表是允许重复的。因此在中文分词词典的构造和算法 的设计上要考虑结合厂站名称进行识别。 读取第一个字符,指针赋为空(2) 否3 基于Trie树字典的正向最大匹配算法 该字符在首字散列表中? 是 通过对中文分词算法的介绍,我们采用基于New一个子树节点,指指针指向该字符的子树针指向该节点Trie的中文分词算法。有以下几种考虑: (1) 词典简单。操作术语、操作对象、操作 结果、厂站名称及电压等级等是需要分词的结果。循环剩余的字符 是在操作票系统中,他们均存在数据库中,数量相对 否少而固定,利用数据库直接可以生成所需的词典,该字符在指针的子树中?词典较小。 (2)Trie树是一棵用于存储多个字符串的多叉new一个子树节点当前指针指向下一级子树树,插入和查询极为高效,可以满足操作票中文分 否词快速性的需要。. 字符串循环完毕了吗? 基于TRIE树的分词词典由两部分组成,如图 3.2所示。 否 字符串列表循环完毕了吗? (1)首字散列表 利用trie树进行中文分词的算法流程如下: 通常情况下,词首字散列函数根据汉字的国标 结束区位码给出。通过一次Hash运算即可直接定位汉开始字在首字散列表中的序号。 设id是词首字在首字散列表中的序号,c1和构建Trie树词典c2是词首字的区码和位码,利用Hash方法求Id则 待分词文本预处理,根据空格、标点符有: 号分成多个待处理文本Id = (c1–176) * 94 + (c2 - 161) (3-1) 这种Hash方法实质上是一种一一映射 正向最大匹配算法 首字散列表的一个单元包括两项内容: Trie树搜索1) 入口项 数(4字节):以该字为首字的词的个数。 2) 第一入口项指针(4字节):指向第一入口项在词 输出分词结果索引表中的位置。 (2) Trie索引树结点 4 总体方案设计 1. 根节点不包含字符,除根节点外每一个节 点都只包含一个字符。 智能出票模块预处理2. 从根节点到某一节点,路径上经过的字符安全校核粗分连接起来,为该节点对应的字符串。 人工写票模块消歧3. 每个节点的所有子节点包含的字符都不操作票流程管理电网模型、操作术语相同。 Trie树词典分词结果等操作票基本信息 分词词典中文分词处理 在操作票系统中引入中文分词技术后,操作票系统的构成如图所示. 操作票系统主要由智能出票模块、人工写票模块、分词词典、中文分词处理、安全校核、操作票流程管理等 操作票的正确与否直接影响电网操作的安全.采用中文分词技术对操作票的操作任务和操作项目进行分词处理, 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 分词的结果必须正确可靠.通过上述对中文分词算法和操作票格式的介绍,本文采用下述的中文分词思路。 1)、首先查询专用词典(操作票知识库、模型库),采用最大正向匹配算法将操作任务、操作项目中的电压等级、设备名称、操作术语、设备厂站、操作 切出, 目的等 2)将切分出的操作术语和操作设备转换成数据库中对应的关键字。 3)将转换后的关键字推入队列,以操作术语为界再次进行切割,得到多个操作序列。 4)在分词过程中,如果操作任务或操作项目中包含标点符号、空格等分隔符,则先根据分隔符将字符串分割成若干子字符串。 2.2 中文分词算 Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 它有3个基本性质:
本文档为【中文分词技术在智能操作票系统中的应用new】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_963767
暂无简介~
格式:doc
大小:22KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-11-17
浏览量:13