面向短消息的文本聚类研究

面向短消息的文本聚类研究面向短消息的文本聚类研究学校代号: 学号: 密级: 普通湖南大学硕士学位论文面向短消息的文本聚类研究吣川四眦哪心肌 .. 、勉 . ,究所取任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 芸雾日期:排月勰日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论...

面向短消息的文本聚类研究学校代号: 学号: 密级: 普通湖南大学硕士学位论文面向短消息的文本聚类研究吣川四眦哪心肌 .. 、勉 . ,究所取任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 芸雾日期:排月勰日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于、保密口,在年解密后适用本授权书。、不保密囹。请在以上相应方框内打“?” 作者签名: 日期:扣『,年夕月甥日关爹/ 日期如/年夕月泓日 // 、\,\ 导师签名:.多绷山卜唧颈:学位论文摘要在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于信息管理和信息检索等具有重要意义。短消息具有动态性、错综复杂性、非规范性、大规模性等特点,这些给数据挖掘带来极大挑战。本文以短消息挖掘为背景,研究短消息聚类相关技术,涉及短消息预处理、合成会话、相似性度量以及聚类算法的研究,其中重点对相似性度量和聚类算法进行了研究,并试图提高聚类准确性和聚类算法的可伸缩性,为聚类输出提供实际应用。研究的主要内容如下: 首先提出了短消息文本聚类场景系统。‘聚类系统包括数据接收采集、归档消息数据库、聚类节点、输出节点四部分。本文描述了聚类场景系统的结构体系, 分析各个部分的功能,其中重点研究了接收采集部分需要处理的问题:如何采集, 能否按时间段划分消息记录,如何合成会话等。该系统的提出为本文展开短消息聚类相关技术研究提供了基础。接着提出了基于语义的短文本相似性度量方法。本文的相似性度量方法基于词法分类器,通过计算词语的语义距离,得到词语相似度,并可结合特征词权重一起计算文本相似度。该方法能够解决短文本的关键词稀疏带来的相似度偏离问题。针对短消息的文本聚类算法,本文提出了基于频繁词集和.的混合聚类方法。基于频繁词集的文本聚类算法执行效率很高,且可以适应高维的大规模数据。.算法得到的聚簇更接近于数据的真实分类,且算法基于树结构,执行效率较高。基于频繁词集和.的混合聚类方法,利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇;计算轮廓系数来消除初始聚簇中的重叠,在此基础上再通过.算法继续精化,最终得到高质量的结果输出。而且聚类结果保留了树状层级结构,为应用提供了更丰富的信息。最后设计了应用于聊天软件中的短消息文本挖掘系统,介绍了该系统的总体结构,阐述了各单元的功能结构与设计实现。关键词:短消息,语义,短文本相似度,文本聚类,频繁词集,., , .. ,, ,, . , , , , . , : .,“ , , ,,:, , . ., , , 。 . . , 。 . ‘ , 曲 ., . 硕:学位论文 , , . ?. .. , .. , .: , , “, , ,? ?面向矩消息的文本聚类研究目录学位论文原创性声明和学位论文版权使用授权书? 摘要插图索引?. 附表索引第章绪论?. .研究背景和意义.研究的主要问题和挑战?. .本文的研究内容.本文的组织结构??一第章文本模型及聚类方法分析?.. .文本表示模型 ..布尔模型..向量空间模型? ..概率模型?.. ..其他模型??. .相似度计算方法 ..基于向量空间模型的.方法. ..潜在语义标引法??. ..基于汉明距离的文本相似度计算方法..基于语义理解的文本相似度计算方法.主要聚类算法..划分的方法?. ..层次的方法? ..基于密度的方法 ..基于网格的方法?:. ..基于模型的方法?.. ..后缀树聚类算法??.. .本章小结?.. 第章短消息会话场景聚类系统设计.常规文本聚类过程 .短消息文本特性分析硕一:学位论文 ..会话交错性特征?.. ..文本稀疏性特征. ..大规模特征.. .短消息聚类系统设计.会话抽取技术??一 .本章小结?. 第章短文本相似度计算??.. .相关问题及技术分析 ..相关问题?. ..相关技术?一 .基于词法分类器度量词间关系..《知网》简介 ..义原相似度计算..概念相似度计算?一 ..词语相似度计算.短文本相似性度量算法? .实验??“ .本章小结及改进设想第章短文本聚类算法洲 .基于频繁词集的聚类算法 . .算法??. .基于频繁词集和.的混合聚类算法 ..构建初始聚簇. ..轮廓系数.. 算法?. .实验? ..实验设置.. 评价指标 ..实验结果及分析??. .本章小结??一第章短消息文本聚类系统应用设计?一 .系统结构?. .各功能单元结构分析??. ..数据访问单元??一 ..文本预处理单元?~ 面向知肖息的文本聚类研究 ..相似性度量单元?.. ..会话合成单元??.. ..聚类单元..检索单元? .本章小结总结?.. 参考文献. 附录攻读硕士学位期间所发表的学术论文?.. 致谢. 硕:学位论文插图索引图. 年~ 年中国网民与即时通讯用户规模发展趋势图. ~年中国手机即时通讯用户规模??. 图.基于的文本聚类过程? 图.一般文本聚类过程示意图? 图. 群中的一段消息?一图.短消息会话聚类系统结构图图.短消息流和会话示意图??. 图.树状义原层次结构一图. .算法次迭代的值图. 主算法结构图. 图.蚂蚁的自聚集行为形成的树结构?. 图.蚂蚁在瞄移动时的邻域状态??. 图.形成的聚类树结构图图.使用最大频繁词集得到初始划分??一图.使用.频繁词集得到初始划分. 图. 混合聚类算法图.数据库文档表结构. 图.不同值时聚类结果的平均值?. 图.短文本挖掘系统总体结构?. 图.数据访问单元功能结构??. 图.聚类单元功能结构??. 图.检索单元功能结构??. 面向如消息的义奉聚类研究附表索引表.使用.度量短消息文本的相似度表.《知网》中义原分类关系? 表.两种相似度计算的.聚类质量比较表. 和.算法平均值比较?. 硕上学位论文第章绪论 .研究背景和意义随着网络通信技术不断发展,网络文本资源在不断增长和充实,面对海量的信息资源,要从中获取有价值的信息资源,仅仅使用人工判断己完全不能胜任, 必须借助于机器进行文本挖掘,才能找到对自己有用的信息。文本挖掘是数据挖掘的重要研究方向。文本挖掘可通过文本分类和聚类进行, 分类需要事先确定分类目录,但互联网信息是动态变化的,难以用现有的分类模型来刻画主题。这时无监督的文本聚类就显得很重要。文本聚类是文本挖掘重要的手段之一,也是当前研究的热点。目前,国内对中文文本聚类的研究主要包括利用概率统计的方法、基于训练学习的方法来生成概念空间,或通过自定义模糊概念图描述概念空间、采用潜在语义分析技术、聚类技术的融合等方面。随着文本聚类理论的研究和发展,实际应用将更广泛,处理对象也在不断扩大。文本聚类是挖掘信息资源的一种有效手段,能够判断文本的相似性从而划分成不同类别,而且是一种无监督的机器学习方法,能够进行自动化处理。人们在互联网的通信活动中,产生了大量的短文本信息资源,包括论坛, 新闻组,,微博,即时通信软件产生的聊天信息。其中,微博、即时通信已经成为一种比较流行的通讯方式。短文本信息与我们生活密切相关,蕴藏着大量有价值的信息资源,使用聚类技术对这些短文本信息进行分析和组织,能够发掘有用信息,对信息进行有效管理,提供各种服务,给我们生产生活带来便利。即时通讯方式便利实用,受到了人们的欢迎,被广泛应用于日常生活、办公和企业商务中。随着即时通讯产业近年的发展,即时通讯软件不断涌现,用户规模不断增大。据艾瑞咨询《.年中国即时通讯行业发展报告》公布的数据,年中国即时通讯用户规模已达.亿人,在整个互联网网民中占比 .%。年,即时通讯用户规模将达到.亿人,届时在全体网民中的占比将升至.%。另外年中国移动即时通讯用户规模也达到.亿人,同比增长.%,保持飞速增长态势。如图.、图.所示。网民通过、阿里旺旺、、和等通信工具进行交流,产生了海量的短消息数据,存储量已经非常巨大,而且数据每日都在不断增长。据腾讯公司致信感谢广大网友《同时在线过亿》,作为中国第一个即时通信软件,在中国即时通讯市场份额上一直稳居第一。可想而知,同时在线过亿的用户每日产生的数据量是相当可观的。描?猫煳。 ? 忽盔盟中落网曼鼓量亿人匕中罾鄹通甩户数量亿人昂通用户蝠长率% 弱是培长率% 图. 年~年中国网民与即时通讯用户规模发展趋势【】弱 ? ? ? ,舶 ,? ; ? ? 刃猢硒四田? 圆手机鄹时通讯用户规模“孀长率% 注:手机鄹时通讯用户篾摸是指一年闪每个季赛至少爱甩过?次手钒即对通讯魄用户人数. 图. ~年中国手机即时通讯用户规模‘】通过以上分析可以看出,从全球到中国,即时通信已经得到了广泛的普及和应用。等即时通信工具使用广泛,同事、朋友、亲戚之间都在使用它,用户可以以对话方式进行交流、沟通,方便、快捷,交互性强。而且用户交互越紧密,消息文本越短小。通过这种高交互性的活动产生了大量用语不规范、长度短小的文硕士学位论文本,在此称为短消息文本。相比电子邮件与新闻组,它交互性更强,长度更短。除了传递交流信息外,短消息还携带了一些个人信息,蕴藏着较大价值的用户信息。对于此类数据对象的分析和挖掘需求亦凸现出来。对此类信息挖掘应用较广, 主要有以下一些方面: 、社会舆情发现。随着社会民主的需要,人民地位的提高,人民参与政治的热情在增加。同时随着互联网技术的普及,人们通过网络表达观点、看法的积极性不断增强,即时通信等网络通信和传播工具在人们参政议政方面扮演着重要角色。作为公众领导者和决策者,在制定新政策或政策实施后,必须要了解社会的舆论情况,才能正确把握实际情况,反映人们的意愿。而许多公众的个人看法往往只通过微博、聊天工具等来表达。因此,对短消息传播的内容进行聚类研究, 发现社会焦点话题,了解民情民意,将为决策者提供决策支持。而且通过这些通信传播工具,为大众舆论监督提供了一种新途径。、信息的有效管理。为专门的政府机构、事业单位和社会团体设立通信组、聊天群,用于内部文件精神的传达、会议通知的发布、个人信息的交互。但目前的即时通信工具对消息基本不能完好保存,更缺乏有效管理的途径,不会对消息记录区分重要程度,更不会将只言片语的短消息合成一段有意义的会话。通过聚类技术,实现对信息的有效管理,维护消息记录间的次序关系,分类存储重要信息,发掘和呈送有价值的信息。譬如,教师在教学过程中,就可以针对某门课程建立聊天组,要求学生相互交流、讨论,教师可以并查看消息记录发现学生关心的问题和存在的疑惑,提供实时指导和在线答疑,对消息记录进行系统的归类存档,并可整理出教辅材料,对改进教学方法、充实教学资料大有裨益。、改善和优化企业产品服务。随着电子商务发展,很早就有企业在自己网站中创建了网上客服系统,据相关统计,即时通信工具将成为企业进行电子贸易活动的首选工具,大有取代电子邮件的趋势。现在的企业越来越重视建立自己的客服系统,包括在线咨询、售后维修服务等系统。譬如,联想公司的网上客服系统就比较完善。有在线互动咨询、联想机器人、联想问吧、电脑故障报修等方面的服务,而在线互动咨询实时交互性强,是解决用户问题的最主要途径,为企业售前咨询和售后服务提供了保障。通过对在线咨询服务系统中的对话记录进行组织分析,可以发现用户的需求,发现产品的缺陷,同时通过聚类挖掘技术,可有效组织问答记录,建立较完善的用户帮助手册,为改善和优化企业产品服务提供持续保障,也是企业竞争的重要机制。、不良信息的过滤和屏蔽。手机垃圾信息的问题日益突出,据《年手机短信息状况调查报告第二次》统计,用户平均每周收到垃圾短信息. 条,用户平均每月在垃圾短信息拦截产品的预算费用为.元,.%的用户认为垃圾短信息产生的原因是运营商从中获得利益,相对应,.%的用户认为运面向短消息的文本聚类研究营商应该承担主要责任。另外,的复杂性使得网上垃圾信息不断增多,一些聊天室充斥着大量广告信息、色情信息。如何解决垃圾信息、屏蔽不良信息, 将是电信运营商、聊天网站运营商要解决的重要问题。运营商可利用文本聚类技术,分析垃圾信息特征词,对垃圾信息进行屏蔽,避免传播。同时,可使用监控技术,对经常发布有害信息的聊天室进行关闭。这将对整治网络环境、预防违法犯罪行为提供有力手段。、相似用户发现。通过对聊天消息记录进行聚类分析,用于发现与某一用户性情相近、兴趣相似的用户,发现与该用户接触最紧密、通信频繁的用户。通过聚类技术,不但可以提取出用户的性情、兴趣,还可以找到与其关系最紧密地一类用户。这一技术可以应用到侦查方面。当要搜查出与某一犯罪分子有关的人物时,就可从他的即时通信记录方面着手,进行深入发掘。、提供搜索引擎数据源。通过采集短消息记录得到的大量文本信息,可作为数据源提供搜索引擎对象使用。并可对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。综上可见,短消息通信已经在人民的生产和生活中得到广泛使用,短消息中携带了大量有价值的信息资源,这些信息可以帮助人们更好地组织和管理生产、改善生活质量。企业对消息数据进行分析和管理,挖掘有用信息,提高产品质量, 改善售后服务,提升企业竞争力,赢取更大市场;政府和组织攫取具有共性的、重复突出的有用信息,可以了解人们关注的问题,不断提高服务质量。通过聚类技术对通信中产生的消息记录采集、存储、分析、生成聚簇类别, 再进行有效管理、组织,可以胜任上述各种实际应用需求。 .研究的主要问题和挑战短消息蕴藏巨大的信息资源,很有必要进行挖掘。传统的常规文本如纯文本、静态网页文本,书写规范,内容较多,具有较强的逻辑性。与常规文本不同,短消息文本具有动态性、错综复杂性、非规范性等特点,下面分别进行阐述: 、动态性。聊天是一个实时动态的过程,当然也有离线的消息在服务器中存储转发。单个用户产生的数据量可能比较少,但从整体在线的来看,将会动态产生大规模的消息文本,尽管并不是所有信息都是有意义或有用的。如何有效接受和处理动态数据、采集会话消息并归档将成为聚类技术的一个关键点。、大规模特征。当前使用即时通讯软件的用户越来越多,大有替代电子邮件的趋势。譬如据腾讯官方发布目前注册用户达到了亿以上,同时在线用户达到了一亿。、群通信所产生的消息记录应该是海量的,况且,其它即时通讯工具还很多,它们所产生的数据量规模之大就可想而知了。如何对这些大规模的数据进行存储将面临新的挑战。硕:学位论文、不完整性。聊天过程中的消息记录可能是一些只言片语,仅看一条消息, 可能毫无意义,而且它们书写很不规范,消息中可能央杂着大量错别字、拼音、符号、表情。如果脱离聊天会话的上下环境,将不知所言,反映不出会话的主题内容。、错综复杂性。网页和电子邮件文本具有很好的条理性,论坛数据也具有一定的组织线索。但是一段聊天会话,却没有明显的条理或次序。聊天室中的一段会话可能包含不同入围绕不同的主题展开的对话,这些聊天记录错杂在一起,前几条记录可能与后一条记录毫无关系,一个人可能针对不同的话题都发表了看法, 各种会话难以直观辨认,从而使得一段聊天会话的关系变得很复杂。当前,文本挖掘特别是文本聚类技术已经比较成熟,研究成果颇多,近几年来提出了不少新算法,取得了不少新进展。在分析了短消息文本的特征后,可以有针对性将这些聚类技术引入并加以改进,设计出适合短消息文本特征的聚类方法,充分挖掘短消息中的信息资源,进行实际应用并为用户带来便利。最近,针对短消息文本,已经有一些研究者提出了新的算法,文献】提出基于语义概念的海量短信文本聚类,文献【】提出了基于频繁词集的海量短语信息文本聚类算法, 文献【】提出了将汉字转化为拼音串的变异短文本的快速聚类算法。不过大部分是在已有文本聚类算法基础上,提出一些改进方法。主要集中在会话抽取技术、特征提取技术、基于语义的相似度计算等方面的研究。由于大规模短消息数据具有交互性、动态性和非正规性等特征,现有的文本聚类技术面临多方面挑战,并不能完全照搬应用于短消息聚类,还需要进一步研究和改进,使其能够真正处理好动态性、大规模性、交错性等问题。本文也是针对这些问题展开研究的。对于短消息文本的处理离不开现有的聚类技术,但又不能照搬,必须符合短消息文本的特征,设计出符合自身规律的体系结构,使用聚类方法充分挖掘短消息中所蕴含的有用信息。相对于传统文本,短消息文本在聚类方面面对的主要挑战如下。第一,针对短消息的动态性、交互性等特征如何采集归档成会话文本。由前面特征分析可知,短消息动态产生,具有错综复杂性,一次会话包含若干条消息记录,各种会话杂糅在一起,会话之间没有明显的特征和线索。所以,要提取会话,需要发现和分析短消息记录的自身规律,综合考虑时间顺序、语义内容等方面的特点进行。抽取成会话后,可以更方便地为文本相似度计算、聚类等进一步处理提供便利。第二,对于变异短文本的处理问题。短消息文本语法很不规范,关键词稀疏。由于即时通信在较短时间内进行交流,交互性强,口语多,俗语多,拼音输入容易导致错误同音字,以及汉语表达的多样性和复杂性,文字表达极不规范。可能面向短消息的文奉聚类研究会有很多错别字、拼音,如“恰饭”表示“吃饭”,“’’表示“你好”;可能会有不少特殊符号,如“”可能不是数字含义,而表示“我爱你”的谐音,“” 表示“牛逼意思;也可能会有不少表情,如“,,表示笑脸的含义,等等。这些不正规的表达给文本相似度计算带来了挑战,传统的.等相似性度量方法已经不能胜任。第三,如何解决短消息文本的大规模性问题。当前即时通信工具应用广泛, 信息、阿里旺旺信息、聊天室信息、在线咨询信息、微博信息、手机短信息等等,各种通信工具应用到了各行各业,相应快速产生了大量的动态消息序列, 所积累的数据集将是空前的、大规模的,对它们进行处理,将消息记录合成会话, 将会话文本输出聚簇,既要解决准确性问题,又要解决时间性问题。因此,如何对大规模的短文本集进行聚类,使其具有较好的质量,同时具有较高的效率,是需要解决的核心问题。当然,针对短消息文本挖掘,在应用方面肯定还存在一些具体的问题。但毕竟同样是文本,本质并没有改变。因此可以在现有文本聚类技术基础上设计合理的处理技术和聚类方法。基于上述要求,本课题主要设计适合短消息特点的文本聚类模型,改进现有的文本相似度计算方法,设计合适的文本聚类算法。这些工作将有利于丰富文本聚类算法理论,有利于促进数据挖掘等学科的发展。一旦被加以开发实际利用,对于社会舆论调查、企业改善服务、机构管理信息等方面具有重要意义。且作为一种新的检索资源,通过聚类结果能为普通用户带来实实在在的好处。 .本文的研究内容本文利用已有文本聚类的研究成果,针对短消息文本的特征进行分析研究, 并进行合理的改进,提出短消息文本聚类模型,改进相似度计算,设计适合短消息特征的聚类算法。力求该聚类系统能够在可伸缩性、聚类结果准确度方面有一定突破。当前的文本数据规模正在从级跃升为级甚至级,而且数据是动态增加的。要提高聚类系统的可伸缩性,使其满足短消息文本的数据规模。而且用户要求挖掘算法的运行时间必须是可预计的和可接受的。传统的数据结构, 如向量空间模型,在随着数据规模的增大也变得复杂和难以处理。如何改进是首要研究的问题。另外,较高的准确度是各种文本聚类算法追求的目标,虽然有些文本挖掘算法达到了比较高的准确度,但可能由于实验数据规模很小且经过了精细的预处理。总之,现有技术在精度上和效率上不尽人满意,所以如何提高准确度和降低运行时间都是需要深入考虑的问题。本文研究内容主要分为四方面,其中主要集中在聚类节点部分的研究。这四个方面的主要内容如下。硕:学位论文、提出短消息文本聚类场景系统。整个聚类系统由数据接收采集、归档消息数据库、聚类节点、输出节点四部分组成。各部分有机统一,共同实现短消息文本的处理。采集节点对实时动态产生的短消息流进行接收、处理,处理包括分词、提取特征词、合成会话等,并将处理的数据保存到归档消息数据库;聚类节点利用文本聚类技术,调用相似度计算方法,得到内容相关的聚簇;输出节点控制输出,实现具体的应用。通过提出该场景系统模型,描述系统的结构和过程,分析各个部分的功能。另外,本部分主要提出接收采集部分需要处理的问题:如何采集,能否按时间段划分消息记录,如何合成会话,如何进行会话抽取等。对于接收采集部分技术方面的研究不是本文的重点,在此只侧重于提出问题和分析问题。、短文本表示和相似性度量方法。短消息会话间的文本相似度计算是短消息聚类中的一个重要操作,是聚类算法提高准确度的关键。然而,短消息会话是一种不规范的短文本,使得处理后提取的关键词较少;另一方面,短消息数据的大规模性使得处理时受到高维瓶颈制约。这些矛盾使得传统的文本相似性度量方法失效。因此,设计合适的度量方法显得尤为重要,决定了聚类的准确度问题。本文在基于模型基础上,研究改进文本相似度的计算方法,设计基于语义的中文短消息文本相似度计算。、设计针对短消息的文本聚类算法,提出基于频繁词集和.【的混合聚类方法。本算法基于频繁词集并对.聚类算法改进设计得到的。 .算法是基于蚂蚁自我聚集行为的聚类算法,该算法得到的聚簇更接近于数据的真实分类,且算法基于树结构,执行效率较高。但是算法的初始化很重要,它影响整个算法的质量。一些文本聚类算法对于小规模的数据处理效率可能很高,但对于大规模的短消息数据集,会受到高维瓶颈制约,不能在有限的时间内得到聚类结果,更满足不了实时性要求。基于频繁词集的文本聚类算法具有很高的处理效率。该方法选择包含某一频繁出现的词语集的文档生成簇集,由于数据库查询语句的快捷性, 即使数据规模很大,也能高效地将它们归到相应划分,形成初始聚簇。但该方法存在这样的问题,一篇文档可能被划分到多个聚簇中,因此如何消除重叠的文档显得很重要。本文使用轮廓系数来消重,以期获得较高的聚类质量。基于频繁词集和.的混合聚类方法,利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇;计算轮廓系数来消除初始聚簇中的重叠, 并利用.算法的优势,在去重基础上再通过.算法继续精化,最终得到高质量的结果输出。这也是本文的研究重点和主要创新。、将本文提出的聚类模型以及算法应用于聊天软件中,建立原型系统, 设计系统如何进行提取舆情信息,阐述主要结构与意义。面向知消息的文本聚类研究 .本文的组织结构本文的结构如下: 第一章介绍了面向短消息文本聚类研究的背景意义、主要问题和研究内容, 并给出了论文的结构安排。第二章系统地介绍了文本模型、相似度计算方法、聚类方法及其应用,着重介绍文本表示模型和基于模型的文本聚类算法与方法,分析了基于模型的文本聚类方法中存在的问题和相似度计算在短消息文本聚类中存在的不足。第三章提出短消息文本聚类场景系统。分析聚类系统各部分的功能,另外重点分析了短消息的采集、会话合成的过程和方法。第四章主要分析和研究短文本表示和相似性度量方法。提出基于语义的中文短消息文本相似度计算方法。第五章针对短文本大规模性特点,提出基于频繁词集和.【】的混合聚类方法。该方法利用频繁词集获得初始聚簇,并利用.得到精化结果。第六章使用本文提的聚类方法对等及时聊天软件中的短消息文本聚类系统进行设计,分析系统结构及意义。最后是对本文的总结及对今后工作的展望。硕士学位:文第章文本模型及聚类方法分析文本聚类将一个文档集分成若干称为集簇的子集,聚类没有预先定义好主题类别标记,需要由聚类学习算法来自动确定。它主要是依据著名的聚类假设: 同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、。摘要和导航的重要手段,为越来越多的研究人员所关注【文本聚类的实现需要建立文本模型,将文本转化为相应数据格式。文本模型首先要反映数据的语义关系,并在此基础上建立文本相似度计算方法,最后通过文本聚类方法生成聚簇,实现具体应用。下面分别对文本模型、相似度计算方法、聚类方法进行分析。 .文本表示模型目前常用的文本表示模型主要有布尔模型、向量空间模型和概率模型。其中, 向量空间模型表示方法由于效率和效果较佳,成为广泛使用的方法。 ..布尔模型布尔模型是基于集合论和布尔代数的一种简单检索模型【,该模型提供了一个信息检索系统用户容易掌握的框架。该模型通过布尔值标识文本,检索条件与文档判断一致返回真,否则返回假。该方法虽然简单,但存在着许多不足。其仅考虑文本中是否出现特征词,不管语义是否相关,也不考虑词语表达方式的不同。它的检索策略是基于二元判定标准,缺乏文档分级的概念,限制了检索功能。虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔值时并不是那么容易。尽管存在不足,但该模型仍然是文档数据库系统中的主要模型。 ..向量空间模型向量空间模型是由美国教授等人提出的文本表示模型【】,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依面向矩消息的文本聚类研究次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。此模型中对所有的文档类和未知文档表示为 ,,,,...,。,,其中为关键字,为该关键字在文档中的权重,一般使用. . 方式计算权重, 两个文档之间的相似度的计算可采用余弦方法。模型将文本内容表示成数学上可分析处理的形式,然后在此基础上,使用聚类算法对文本进行处理。基于的文本聚类过程如图.所示: 图.基于的文本聚类过程通过向量表示文本,易于计算机处理,并引入了特征项权重,使得文档相似度计算与文档内容更紧密结合,改善了布尔模型的二值逻辑缺陷。但的特征项没有考虑词语之间语义依赖关系,使得文本相似度计算存在一定偏差。当然,有不少针对的改进模型,如潜在语义索引和基于本地的语义模型等。 ..概率模型概率模型是信息检索领域中一个比较成熟的模型,在很多系统中取得不错的应用效果。概率模型是一系列模型的简称,它综合考虑了词频、文档频率和文档长度等因素,在概率测度空间上通过概率来衡量两个文本的语义相似度。经典概率模型主要思想为:根据输入的检索条件,将文档集划分为与条件相关和不相关的子集,并分别计算它们的概率值。概率值的计算与文本集的特征词有关,显然对于较大规模的文本数据,由于特征词过多,计算将变得繁琐和不切实际。可引入一些假设条件得到简化,实际应用中有二元独立概率模型、二元一阶相关概率模型、双泊松分布概率模型等等。概率模型的主要优点在于,文档可以按照他们相关概率递减的顺序来计算秩 ,而且简单直观。但是,它需要猜测一个初始的划分,将信息样本分成相关和无关的两个集合,所有的权重都是二值的;对带有相关性标注的学习文档硕:学位论文具有依赖性,参数难以估计。这些不足是目前需要重点研究和改进的地方。 ..其他模型其他还有基于概率和统计的语言学模型,通过建立数学模型来处理自然语言。另外,还有新型非的文本表示模型,通过树和图的数据结构来表示文本关系,并记录文本中词序结构、词语临近关系以及语义关系,增强计算的准确性, 使得这些模型更加灵活和实用,主要有后缀树模型、频繁词集超图模型和图空间模型等。本文在的基础上,利用其易于处理且支持处理大规模文本数据的特长, 改善其在表达语义方面的不足,达到更有效处理短消息文本的目的。 .相似度计算方法在文本数据挖掘中,相似度计算起着基础性作用,具有较高的地位。而且, 文本相似度计算是聚类技术中的一个关键问题,文本相似度计算的优劣决定了最终聚类结果准确与否。研究和分析现有的文本相似性度量方法,有助于了解它的发展情况,发现它的不足之处,为设计适合短文本相似性计算方法提供理论依据。下面将对目前典型的文本相似性度量方法的思想和适用领域进行介绍,并对其优缺点进行简单分析。 ..基于向量空间模型的.方法 .方法是一种统计方法,在文档集或语料集中,用来评估一个字词在一篇文档中的重要程度。字词的重要性与它在文件中出现的次数成正比,反过来与它在语料库中出现的频率成反比。?方法一般基于模型。在中,令文档由关键词集,,?,组成,通过计算关键词的重要程度,得到权值。于是可以构建维向量空间,,,?,对应的坐标值分别为,,?,。。由此将文档映射成向量空间中一个点,并可以用 ,,,,?,。,来表示文档集中的每篇文档,通过向量空间的转化后,文档的相似性度量问题相应地转变为矢量计算问题。 .中,表示词条在文档中出现的频率,表示反文档频率, 主要基于这样的思想:如果包含词条的文档越少,则越大, 说明词条具有很好的类别区分能力;否则的类别区分能力较差。设,?,。为所有文档关键词集合,任意文档用,,?,。表示。代表权重,计算方法如公式.所示: ,,厂、彬珥×竺 \碍/ .】面向矩消息的文本聚类研究其中,指特征项在文档中出现的次数,表示文档集合中所有文档的数目,表示所有文档集合中出现的次数,称为特征项的文档频率。反映特征项在整个文档集合中的分布情况,在一定程度上体现了该特征项的区分能力;反映特征项在文档内部的分布情况。.算法可以排除那些高频、低区分度的词,因此.是一种有效的权重定义方法。用同样的方法,可以计算目标文本的维向量 , ,?,。’。然后,用向量余弦方法来计算两文本和之间的相似度。公式如.所示: 跏伍‖卜腩 . 向量展开后的余弦系数公式如.所示: 疗 ?%‰ 七 . 跏伍,乃其中,表示文本的特征向量,表示文本的特征向量,;。、,。分别为对应文档第维的权重。以上除了余弦计算方法外,还有内积法、系数法、系数法等。 ?方法基于关键词权重计算,只有当文本关键词数量较多时,这种统计方法才会显示出足够的优势。而对于词语数量较少的短文本,该方法并不太适合。 ‘ ..潜在语义标引法潜在语义标引 ,‘】是一种信息检索技术,可以认为经典向量空间模型的一种改进,性能优于传统技术。是一种建立在统计之上的学习方法:它试图发现对象之间的关联模式及其隐藏的对象间的结构关系。方法最初应用于文本信息检索领域,它可以有效地解决了同义词和多义词的问题,通过识别文本中的同义词,将信息检索精度提高了%至%。原理主要是利用矩阵理论中的“奇异值分解’’ ,技术。分解定理如下:设是秩为的×的实值矩阵, 则存在阶正交矩阵,阶正交矩阵,使得?,其中对角矩阵?为 ?旃昭,仃,?仃,,,?,满足仃?仃,??仃,,,,?,称仃,为矩阵的奇异值,,的列向量分别称为的左、右奇异向量。在向量空间模型中,一篇文档可用中的一个向量来表示,由此,先将文档向量构造词频矩阵,然后将其转化为奇异矩阵,并使用标准化的内积来计算硕:学位论文向量之间的夹角余弦,最后根据计算结果比较文本间的相似度。在一定程度上解决了语义相似问题,但其效果依赖于上下文环境,适用于上下文联系紧密的较长文本,而不适合短文本相似度计算。 ..基于汉明距离的文本相似度计算方法汉明距离又称汉明重量。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。假设两个长码子分别为:?。?‘ 则它们之间的距离计算公式如.所示: . ,?%儿七其中,表示模加运算,靠?,,妖?,。,,表示和在同一位置码符号差异数之和。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。它为比较两字符串的相似度提供了一种依据。例如: 与之间的汉明距离是。同样,文本信息可用这些码字表示,通过计算汉明距离可以定量地表示文本之间的相似程度。设文本对应的码字为,文本对应的码字为,码字用二迸制表示,和分别表示文本对应位置的信息分量是否具有。通过公式. 计算,可得到两文本之间的距离。文献】提出了基于汉明距离的文本相似度计算方法。对于不同文本,或文本与查询之间,先确定它们的码字集,令??,。,那么相似度计算公式如.所示: . 跏,一?稚。儿七其中、分别表示文本对应的码字和查询式对应的码字中第位的分量,要么为要么为,就是模加运算。模运算对于计算机来说非常方便,能达到极快的速度。用上述方法刻画文本相似度是合理的,但由于文本转换为码字及码字之间匹配工作非常耗时,该方法对于较大规模的文本数据聚类时效果并不明显。 ..基于语义理解的文本相似度计算方法文献【】提出了基于语义理解的文本相似度算法。在知网语义相似度的基础上,由词语相似度计算得到句子相似度,并将基于语义理解的相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算。该方法给出了文本包括词语、句子、段落相似度的计算公式及算法,用于计算两文本之间的相面向怎消息的文本聚类研究似度。该方法不需要较长的训练时间,也不需要大规模语料集支持,准确率较高。但这种推广计算方法,需要花费大量时间,效率并不高。除了上述分析的文本相似度计算方法外,还有一些较常用的方法,如基于属性论的文本相似度计算方法【】、基于压缩稀疏矩阵矢量相乘的文本相似度计算方法【等。本文在.的基础上进行改进,基于语义克服短文本关键词少、词频低的问题,改善词间关系和语义表达上的不足,支持大规模短消息聚类。 .主要聚类算法文本聚类系统中最关键的是聚类算法,算法的优劣决定了聚类的最终效果和效率。目前文本聚类算法很多,划分可以基于不同的标准,比如凝聚的还是分裂的、增量的还是非增量的、确定的还是随机的、硬划分还是模糊的等等。聚类算法体系的分类标准并不统一,且难以明确划分分类界限,不少聚类算法可能同时具有其他类别的特征。概括起来,还是可以根据它们的聚类原理、组织方式进行分类,主要有划分聚类、层次聚类、密度聚类、网格聚类以及基于模型的聚类方法等。 ..划分的方法划分聚类算法对包含个文档的文本集合,划分将生成个分组,,每一个分组代表一个聚类。划分方法通常使用迭代优化的方法,反复计算每个分组的类别中心,并将对象分配到与中心具有最大相似度的类别中去,直到划分达到最优,准则函数开始收敛为止,也就是中心点不再改变,文本对象不再重新分配。划分聚类算法的准则函数通常选用平方误差准则,如公式.所示: . ?:.?一一% 典型的划分方法包括.和.方法。.方法用该聚类中所有对象的均值来代表该聚类,而.方法则选用簇中位置最靠近中心的对象作为代表对象中心点,试图找出更好的中心点,消除噪声数据的影响, 以改进聚类结果的质量。 .是一种比较常见的聚类算法,常常在文本聚类中使用,具体步骤如下: 任意选择个对象作为初始的类的中心; ; 根据类中文档的平均值,将每个文档重新赋给最相近的类; 更新类的平均值; 不再发生变化,即没有对象进行被重新分配时过程结束。顶‘学化论文该算法试图找出使平方误差值最小的个划分。当结果簇是密集的,而簇与簇之间区分明显时,它的效果较好。该算法虽然运行时间快,但是存在一些缺点如受初始簇中心影响较大,要预先指定聚类数,容易受孤立点的影响等。 ..层次的方法层次聚类法将文本集合进行层次分解,组成一颗凝聚树。根据层次的形成方式可以分为两类:凝聚的方法,也称自底向上.;分裂的方法,也称自顶向下?。代表性的算法有、、等。凝聚的层次聚类方法采用自底向上的策略,首先将每个文档看作一个类,然后相继合并相近的文本类,直到所有的文档合并为一个类,或者达到某个终止条件,如希望得到的类的个数或者两个相近的类超过了某一个阈值,就结束进行。分裂的层次聚类方法首先将所有的文档看作一个类,然后逐渐细分为越来越小的类,直到每个文档自成一类,或者达到某个终止条件,如希望得到的类的个数或者两个相近的类超过了某一个阈值,就结束进行。层次聚类法对聚类粒度具有较大的灵活性,适合任意形状的簇。不足之处在于一旦一个步骤合并或分裂完成就不能修正,以致划分错误的文档无法更正, 当然,此方面缺陷在、、算法中有一定改善;另外不足在于难以适应动态数据集。 ..基于密度的方法基于密度的方法认为:只要邻近区域的数据密度超过了某个特定值,则继续聚类,直到达到某一阈值。这样能保证在某个类中任意数据点的给定区域范围内, 不能少于多少数目的点,否则还得继续聚类。通过这种方法,一些噪声点数据将会被排除在外,利于对真正有效的数据进行聚类。另外,该方法能够发现任意形状的簇,处理数据灵活性高,比其它聚类算法如划分的方法具有一定的优势。从整个数据空间来看,使用该方法进行聚类后,将形成由低密度区域分隔开的高密度数据区域。基于密度的常用方法有算法、算法和方法。 ..基于网格的方法基于网格的方法利用多维网络数据结构,把对象空间量化为有限数目的单元, 形成一个网格结构。所有的聚类操作都在这个网格结构即量化的空间上进行。该方法处理速度快,其处理速度独立于数据对象的数目,只与量化空间中每一维的单元数目有关。缺点是不适合应用于大规模数据。典型算法有、和。面向短消息的文奉聚类研究利用存储在网格单元中的统计信息进行聚类,利用一种小波变换方法来聚类对象,则是在高维数据空间中综合了基于密度和基于网格的聚类方法。 ..基于模型的方法基于模型的方法对每一个簇设定一个模型,为该模型比对匹配数据。并通过设置反映数据点空间分布的密度函数来定义聚类。它也基于标准的统计数字自动决定聚类的数目,考虑噪声数据或孤立点,从而产生健壮的聚类方法。这样的方法经常基于这样的假设:数据是根据潜在的概率分布生成的。该方法主要有两类: 统计学方法和神经网络方法。著名的自组织特征映射 , 就是一种利用了人工神经网络技术的聚类方法。 ..后缀树聚类算法算法主要思想【】:后缀树聚类算法是一种直观的文本聚类算法,它将文本聚类为一组的依据是文本含有共同的短语。实际上是将文本看成词的序列,充分利用了词与词之间的距离信息,在寻找文本共同的短语的过程中使用了后缀树这种数据结构。首先提出了后缀树聚类算法,并且将这种技术运用到搜索结果的可视化中,取得了很好的效果。搜索引擎中的部分工作也利用了算法实现曲搜索结果的聚类,并且指出了算法的若干不足,但没有对聚类结果的质量进行评价。除了以上的聚类算法外,还有其他应用于文档聚类分析但很难分到上面的体系内的算法,包括基于关联规则与超图划分的聚类算法、蚁群聚类算法以及各种改进算法等。许多文本聚类算法已经相当成熟,但从上亦可看出,不少算法未能解决文本数据集的动态性和大规模性。一个好的聚类算法主要参考以下标准: 有较高的可伸缩性。不仅用于实验,还能用于实际处理大规模文本数据集。能处理高维数据。对表示的高维数据能够适时降维。能发现任意形状的聚类。输入参数与领域知识的依赖性低。对数据的输入顺序不敏感。如在中,把词汇当作特征项单位,对应值为词汇的权重,这些键值对的输入顺序应不能影响聚类的结果。能够处理和解决噪声数据的干扰。文本聚类算法是与文本表示模型密切相关的,在文本聚类过程中,文本聚类算法需要根据模型数据建立相适应的处理方式。本文提出了基于频繁词集和 .的混合算法,通过频繁词集挖掘算法生成初始聚簇,计算轮廓系数去重,调用基于语义的相似性计算方法,使用.算法输出聚簇,实现具硕学位论文体应用。 .本章小结本章主要介绍了种文本聚类的模型,介绍了一些文本相似度计算方法,另外阐述了当前主要的聚类算法。其中重点介绍了基于向量空间模型的.方法以及典型的聚类算法。文本聚类应用很广,近年来在信息检索、多文档自动文摘、信息管理等领域都有广泛的应用,功能大致归纳如下:改善分类和检索的性能;将聚类结果作为分类的输入;利用聚类技术对用户的行为进行分析,用以发现用户的兴趣偏好, 从而实现对用户的主动信息推送。另外,还可用于垃圾邮件甄别、了解用户建议和反馈信息、掌握社会舆情状况、提供决策支持等。文本数据挖掘和相关聚类技术具有较长的发展历程,而对短消息文本相关研究发展较晚,其与以往关注的常规文本也具有较大区别。这里所说的短消息指由即时通信平台产生的持续、快速、大规模的短文本数据。这些数据信息数据量巨大,是一种非正式的、无结构性的短文本,如何对这些数据进行有效的存储、分析、计算和挖掘,这是当前时代环境下面临的极大挑战。下面的章节将针对短消息文本设计相应的文本聚类算法。

                    本文档为【面向短消息的文本聚类研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

面向短消息的文本聚类研究

你可能还喜欢