首页 基于贝叶斯算法的垃圾邮件过滤系统设计与实现

基于贝叶斯算法的垃圾邮件过滤系统设计与实现

举报
开通vip

基于贝叶斯算法的垃圾邮件过滤系统设计与实现南开大学学位论文使用授权书根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内...

基于贝叶斯算法的垃圾邮件过滤系统设计与实现
南开大学学位论文使用授权书根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文摘以及论文全文浏览、下载等免费信息服务;(3)根据教育部有关规定,南开大学向教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国科技信息研究所及其万方数据电子出版社和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。论文电子版提交至校图书馆网站:http://202.113.20.161:8001/index.hun。本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。作者暨授权人签字:扬撞生2012年11月11日南开大学研究生学位论文作者信息论文题目基于贝叶斯算法的垃圾邮件过滤系统设计与实现姓名杨艳生学号2220091495答辩日期2012年11月11日论文类别博士口学历硕士口硕士专业学位团高校教师口同等学力硕士口院/系/所软件学院专业软件 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 联系电话l5069633009EmailYangyanshen966@163.tom通信地址(邮编):寿光市公安局法制案审大队(262700)备注:是否批准为非公开论文否注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写(一式两份)签字后交校图书馆,非公开学位论文须附《南开大学研究生申请非公开学位论文审批表》。南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:扬艳生2012年11月11日非公开学位论文标注说明(本页表中填写内容须打印)根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明为空白。论文题目申请密级口限制(≤2年)口秘密(≤lO年)口机密(≤20年)保密期限20年月日至20年月日审批表编号批准日期20年月日南开大学学位评定委员会办公室盖章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年):机密★20年(可少于20年)摘要摘要随着互联网的迅速发展和应用普及,电子邮件的广泛应用给我们的生产和生活带来了相当大的便利,但是垃圾邮件的出现给我们带来了相当大的烦恼,针对垃圾邮件问题本文以贝叶斯算法为理论基础,将理论应用于工程实际,设计和实现了基于贝叶斯算法的垃圾邮件过滤系统。垃圾邮件的过滤问题实际上就是电子邮件的分类问题,将贝叶斯算法应用于垃圾邮件过滤中,实际上就是用统计的方法来对电子邮件进行分类。利用贝叶斯算法设计的垃圾邮件过滤系统在英文邮件的应用中获得了比较好的过滤效果,本系统中加入了中文分词模块,设计和实现了对中文邮件的过滤功能模块,并取得了比较好的过滤效果。本文首先介绍了本课题的研究背景、意义以及国内外研究现象,然后介绍了电子邮件的相关知识,为设计垃圾邮件过滤系统提供基本的技术知识,其次又介绍了贝叶斯算法以及邮件预处理时用到的算法,为垃圾邮件过滤系统的设计提供理论基础,最后介绍了垃圾邮件过滤系统的 设计方案 关于薪酬设计方案通用技术作品设计方案停车场设计方案多媒体教室设计方案农贸市场设计方案 和过滤系统的实现,并对本文设计的垃圾邮件过滤系统进行了实验测试。关键词:垃圾邮件:贝叶斯算法:中文分词:特征词提取ABSTRACTAbstractAlongwiththerapiddevelopmentandapplicationofInternet,althoughthewideapplicationofemailbringsUSconsiderableconvenience.ButspammailsbringUSconsiderabletrouble.Inviewofspam,thethesiswhichbasedonbaysalgorithmasthetheoretical,appliesthetheorytoengineeringapplication,anddesignsandimplementationsthespamfilteringsystemonthebasisofbaysalgorithm.Spamfilteringproblemisactuallytheclassificationproblemsofemail,baysalgorithmisappliedtospamfilter,actuallyistoclassifytheelectronicmailthroughstatisticalmethods.Onthebaseofbaysalgorithm,thespamfilteringsystemachievesbetterresultsforEnglishemail.ThissystemjoinedtheChinesewordsegmentationmodule,DesignandrealizestheChinesemailfilteringfunctionmodule,andobtainedbetterfilteringeffect.Thispaperfirstlyintroducesresearchbackground,significanceandthedomesticandinternationalresearchphenomenonofthistopic,andthenIntroducestherelatedknowledgeofemail,whichprovidesbasictechnicalknowledgefordesigningspamfilteringsystem.Thirdly,thethesisintroducesthealgorithmofbaysalgorithmandE—mailpretreatment,whichprovidesatheoreticalbasisfordesigningspamfilteringsystem.Finally,thepaperintroducesthedesignschemeofthespamfilteringsystemandtherealizationofthefilteringsystem,andteststhedesignedfilteringsystembyexperiment.KeyWords:SpareMail;BayesAlgorithm;TheChineseWordSegmentation;FeatureWbrdsExtractedII目录目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1第一节课题的研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1第二节国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.2第三节本文的主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5第四节本文组织结构安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..5第二章电子邮件的相关技术介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯7第一节电子邮件的工作原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯7第二节电子邮件的传输 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯8第三节电子邮件的内容格式和编码技术⋯⋯⋯⋯⋯⋯⋯⋯⋯..9第四节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12第三章贝叶斯分类算法及邮件预处理技术⋯⋯⋯⋯⋯⋯.13第一节贝叶斯分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯133.1.1贝叶斯定理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯133.1.2一般贝叶斯分类模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.143.1.3朴素贝叶斯分类模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.15第二节邮件内容解析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..16第三节文本分词技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..17第四节特征词提取技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯18第五节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯20第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计.21第一节系统的需求分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.21第二节系统的总体设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯24第三节系统子功能模块设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..264.3.1黑白名单和规则过滤模块设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..274.3.2邮件预处理模块设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.284.3.3系统训练模块设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯34III目录4.3.4系统分类模块设计⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..35第四节数据库模块设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯36第五节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯37第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试.38第一节邮件采集模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..38第二节黑白名单和规则过滤模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯.42第三节电子邮件预处理模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..435.3.I邮件文本内容提取子模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯435.3.2邮件文本内容解码子模块的实现⋯⋯⋯⋯.⋯⋯⋯⋯.⋯⋯.465.3.3邮件文本分词子模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.475.3.4去停用词模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.475.3.5特征词提取模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..50第四节过滤系统训练模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51第五节过滤系统分类模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.53第六节过滤系统的测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯54第七节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56第六章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..57参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..58致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..61个人简历在学期间发表的学术论文与研究成果⋯.⋯⋯⋯.62IV第一章绪论第一章绪论第一节课题的研究背景及意义随着互联网技术的迅速发展和广泛应用,电子邮件作为一种经济、方便、快捷的通信方式也得到了快速的发展,成为互联网用户一种必备的通信工具,是互联网技术成功应用的典范。现在电子邮件的使用已经相当普及,通过电子邮件我们可以和地球上任何使用互联网的人进行交流沟通,而且其具有操作简单,速度快捷,费用低廉,传递的信息量大等特点,是其他通信方式无法与之相比的。任何事情都有正反两个方面,电子邮件给我们带来便利的同时,其带来的负面影响也日益突出,时常收到一大堆不请自来的垃圾邮件,包括一些推销广告、虚假信息、反动信息、色情信息等不良信息,甚至会有一些包含病毒的电子邮件,因此我们不得不花费大量的时间和精力去清理和删除这些垃圾邮件,给我的工作生活、身心健康带来很大的危害,同时垃圾邮件还占用了大量的网络资源和存储空间,也对社会造成了严重的经济损失。到目前为止,垃圾邮件在国际上还没有统一的定义,这主要是由于不同的团体对垃圾信息的判别标准不同。根据中华人民共和国通信行业标准VD/T1311-2004《防范互联网垃圾电子邮件技术要求》,将垃圾邮件定义为:没有经过收件人的同意或者收件人没有事先提出要求而接收的广告、电子刊物、或者带有宣传性的电子邮件以及隐藏发件人身份、地址或者含有虚假的信息源、发件人、路由等信息的电子邮件。垃圾邮件给我们带来的危害主要有以下五个方面:1.通过占用有限的网络带宽,从而造成用户的邮件服务器拥塞,进而使整个网络的运行效率降低。2.为了处理垃圾邮件,大量的消耗收件人的时间、精力和金钱,并使收件人的隐私权受到侵犯,大量的垃圾邮件侵占收件人信箱的有限空间。有的人通过盗用他人的电子邮件地址来发送垃圾邮件,使他人的信誉受到了严重的损害。3.黑客常常利用垃圾邮件做为作案的工具。第一章绪论4.严重影响ISP的服务形象,降低了用户对电子邮箱的实用兴趣。5.有些人通过发送垃圾邮件来妖言惑众,骗人钱财,甚至传播色情等内容已经严重危害了现实社会。因此垃圾邮件已经成为全球本互联网行业普遍关注研究的一个重要课题。本文以贝叶斯算法为基础,对垃圾邮件过滤技术进行研究,设计垃圾邮件过滤系统,对减少垃圾邮件的危害具有重要的意义。第二节国内外研究现状从垃圾邮件诞生的那一刻起,人们就一直再寻找对付垃圾邮件的有效方法,经过不懈的努力,从多个方面提出了对付垃圾邮件的措施,目前用来对付垃圾邮件的方法主要有三种:法律法规的制定和宣传教育,邮件通信协议的改进和过滤技术的研究n门1。现在很多国家为了对付垃圾邮件进行了相应的立法,通过法律手段来对制造垃圾邮件的人进行惩罚,来减少垃圾邮件的制造H刊。在2000年7月18日《反垃圾邮件法》在美国获得了通过,在2002年欧盟也通过了《反垃圾邮件及保护在线隐私权法》,在2004年中国也出台了自己的反垃圾邮件法《中国互联网协会互联网公共电子邮件服务 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 》。众多的邮件服务企业相互联络成立反垃圾邮件联盟,订立反垃圾邮件的行业自律规范,公布垃圾邮件服务器“黑名单”,封杀发送垃圾邮件的服务器。对垃圾邮件的危害及反垃圾邮件的法律法规进行宣传,提高全社会的垃圾邮件防范意识和反垃圾邮件意识。但是在大量的垃圾邮件面前,这些措施显示出一定的成效,但是效果并不是太明显。通过改进电子邮件的协议来减少垃圾邮件,现在许多人从电子邮件的协议方面提出了许多对付垃圾邮件的方法,如:通过验证垃圾邮件是否来自合法区域,通过密码来识别合法邮件,按照电子邮件的发送量的大小来收取一定的费用,对发送者进行验证等。这些改进的协议基本都提供了比较完整的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 ,但是在对现有的电子邮件的协议进行升级或替换方面受到很大限制,因此很难在广大的电子邮件用户中进行推广应用。从技术曾面解决垃圾邮件问题是最直接有效的方法,垃圾邮件过滤技术是目前对付垃圾邮件的主要技术。现在国内外主常用的反垃圾邮件技术主要在三个方面:基于IP地址的过滤,基于SMTP协议的过滤和基于内容的过滤。2第一章绪论(1)基于IP地址的过滤在整个邮件系统的路由器、邮件传送代理、邮件投递代理、邮件用户代理和到达用户五个层次中可以应用基于IP地址的过滤。基于IP地址的过滤主要包括基于网络的IP地址和基于主机的工P地址两种过滤技术,现在比较容易见到的有路由器访问控制链表技术、黑白名单过滤技术口。81和实时黑名单技术等。路由器访问控制链表技术是指从网络层(IP)和传输层(TCP)控制对网络资源的访问,通过控制发送垃圾邮件IP地址上网络资源的访问来将垃圾邮件过滤掉。现在的邮件服务器基本都具有黑白名单过滤功能,这是最早的垃圾邮件过滤技术。首先要将垃圾邮件发送者确定下来,然后将垃圾邮件发送者ISP的IP地址搜集起来并将其整理成黑名单,在网关处拒绝接收黑名单上的IP发送的邮件,通过这种方法将垃圾邮件过滤掉。这种方法的原理比较简单且容易实现,效果也比较明显,但是对于从新IP地址或者伪造源IP发送的垃圾邮件就没有过滤作用了,在实际的垃圾邮件技术中,这种技术通常跟其他技术组合起来使用阳1。白名单技术与黑名单技术正好相反,将用户允许接收邮件的IP整理成一个白名单,在网关处只接收白名单上IP所发的电子邮件,其余的IP地址发送的电子邮件一律拒收。这种方法可以完全将垃圾邮件过滤掉,但是用户使用起来比较麻烦,用户必须保证接收邮件的地址在白名单中,这就需要对白名单经常修改,否则用户将无法正常接收到邮件。实时黑名单技术是在黑名单技术上扩展起来的,通过一个专门的机构为用户提供一个可查询的IP地址黑名单,每当有新的邮件到来时,通过DNS查询该邮件的IP地址是否在黑名单中,来决定是否接收邮件。这项技术有比较强的实效性,但是能够提供实时黑名单服务的大多数都是国外的组织和机构,使用他们提供的黑名单对国内垃圾邮件的过滤效果不是很理想,现在在国内黑名单服务只有中国反垃圾邮件联盟提供。(2)基于SMTP协议的过滤技术通过SMTP协议过对垃圾邮件进行过滤技术主要分为两个方面:域名反向解析和SMTP交互行为的检测u0|。域名反向解析就是将邮件发送者的IP地址通过DNS逆向查询出其IP域名,然后与其声称的域名进行比较是否一致。如果两者的域名不一样,则将拒绝接收邮件。通过这种方法基本可以将来自动态IP地址的垃圾邮件过滤掉。但是在做3第一章绪论域名的逆向解析时需要做大量的DNS查询,因此这样会耗费大量的网络资源。根据垃圾邮件服务器的特点可以用SMTP交互行为的检测对垃圾邮件进行处理,现在比较常见的检测方法有:无效账号的发送、对发送账号进行限制、特殊命令的使用等n1|。(3)基于内容的过滤技术现在基于内容的过滤技术是垃圾邮件过滤技术的主流,主要有基于规则的过滤技术和基于统计的过滤技术。基于规则的过滤技术常常也被称为启发式的过滤技术,电子邮件具有半结构化的特点,利用电子邮件的这个特点,可以通过人工或自动的方法提前总结出能够区分垃圾邮件和正常邮件的特性,并利用这些特性生成一系列的规则,作为过滤的规则,这些规则一般是信头的分析,群发过滤,关键词匹配以及邮件内容中的其他特征,利用这些规则可以对邮件头和内容进行多重过滤。但是这些规则都是在以前的垃圾邮件的基础上总结出来的规则,一旦这些规则对新出现的垃圾邮件不适用,将影响过滤的精度,这些规则库一般需要用户自己定制,那么用户就需要花费大量的精力去制定这些规则,一旦用户的兴趣发生变化就需要重新制定,而且为了使精度提高,就需要使规则库里的规则尽可能的多,这将对垃圾邮件过滤系统的运行速度产生非常大的影响。2004年,CCERT反垃圾邮件研究小组手中掌握着非常丰富的样本数据,利用这些资源他们推出了第一个基于SpamAssassin的中文垃圾邮件过滤规则集n2】。现在比较常见的基于规则过滤方法有:关键字匹配法、决策树法、粗糙集法、Boosting方法等。基于统计的过滤技术是将统计学的自动分类方法应用到邮件的分类。其首先通过对样本的训练来进行垃圾邮件的特征提取,将提取的特征作为分类特征库中的特征项,当接收到新的邮件后,将邮件的文本进行特征提取,然后依据分类器中的特征库进行分类。整个系统的分类过程都是自动完成的,如果有新的垃圾邮件出现,我们只需要将新的垃圾邮件放到训练样本中,更新训练样本,重新训练出分类器。现在比较常见的基于统计的过滤算法有:KNN算法、贝叶斯算法,SVM算法,Rocchio算法等。基于统计的垃圾邮件过滤技术具有正确率高,速度快的特点,是垃圾邮件过滤技术中最受欢迎的一种。其中基于贝叶斯算法的垃圾邮件过滤技术,对训练样本只进行一次扫描,具有非常高的效率,而且占用的存储空间比较少,基于这些优点,在现在的邮件产品中得到了广泛的应用。4第一章绪论第三节本文的主要研究内容本文介绍了对电子邮件的工作原理、传输协议、内容格式和编解码方法等电子邮件的基本技术,分析了现在垃圾邮件的基本特点,并对贝叶斯算法和中文分词技术进行了研究,设计和实现了一个基于贝叶斯算法的垃圾邮件过滤系统,主要内容如下:电子邮件的工作原理主要介绍了MUA,MTA,MDA三种电子邮件数据传递方式和电子邮件工作的基本原理;电子邮件的传输协议介绍了简单邮件传输协议、邮局协议、多用途网际扩充协议和网际消息访问协议;电子邮件的格式及编解码技术主要介绍了电子邮件的信头和信体以及邮件文本传输的编解码技术。通过对各种电子邮件过滤方的的分析,基于贝叶斯算法的垃圾邮件过滤技术具有过滤精度高、速度快、占用空间比较少等优点,是一种实用性比较强的成熟算法,针对贝叶斯算法对中文电子邮件分类效果不够理想的缺点,加入了中文分词技术,利用这些技术设计和实现了一个比较成功的垃圾邮件过滤系统。第四节本文组织结构安排第一章绪论,首先对本课题的研究背景及研究的意义进行了介绍,然后对垃圾邮件过滤技术的国内外现状进行概要介绍,最后对本文的主要研究内容进行了说明。第二章电子邮件的相关技术介绍,主要介绍了电子邮件的三种传输方式以及电子邮件工作的基本原理,四种传输协议、电子邮件的内容格式以及邮件文本传输的编解码技术。第三章贝叶斯分类算法及邮件预处理技术,对贝叶斯算法的基本原理进行了详细的介绍,并对邮件预处理中的中文分词技术和特征提取技术进行了介绍。第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计,本章首先进行了系统的需求分析,然后介绍了系统的总体设计,最后介绍了系统的主要模块设计。第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现,本章主要对垃圾邮件过滤系统的实现工具进行了介绍,并对垃圾邮件过滤系统的预处理模块、训练模块、分类模块和数据库模块的具体实现进行了详细的介绍。第六章总结与展望,本章首先对本文所做的主要工作进行总结,然后对课5第一章绪论题下一步需要进一步做的工作进行了展望。6第二章电子邮件相关技术介绍第二章电子邮件的相关技术介绍第一节电子邮件的工作原理电子邮件还有电子信箱和电子邮政两个别称,它的通信是通过电子技术进行信息交换来实现的。电子邮件是在上个世纪70年代发明,80年代中期兴起的,到90年代中期,随着互联网浏览器的诞生和电子邮件技术非常广泛的使用,电子邮件已经成为Intemet技术中应用最多的一种服务,电子邮件技术是一种非常便捷的迅速的通信方式,用户可以快速的在网络中找到世界上任意角落里的另一个电子邮件用户,但是这种通信方式仅需要花费用户很少的钱。电子邮件的内容丰富多彩,包括文字、图像、声音等多种方式。电子邮件是由MUA(邮件用户代理)、MTA(邮件传输代理)、MDA(邮件分发代理)三部分构成的【13J,这三部分的详细解释如下。MUA(邮件用户代理),是用户用来读取和发送电子邮件的客户端应用程序,它通过图形、菜单、命令等方式来实现用户和电子邮件系统的交互,用户通过该程序可以实现邮件的书写、发送、查看、管理文件夹等功能。常见的MUA程序有outlook,foxmaik等。MTA(邮件传输代理),这一部分的主要作用是将电子邮件的数据重新编码,使其符合传输电子邮件数据的网络的要求。MTA主要实现从MUA、其他MTA接收邮件,或者将邮件转发给其他MTA或本地MDA的功能。常用的MTA有Sendmail、Qmail、Posttix等。MDA(邮件分发代理),该程序在本地服务器上,只关注本地服务器上的邮件信息,通过MTA接收本地服务器上的电子邮件,然后将邮件分发到相应的用户邮箱中。电子邮件的整个传输过程是:当用户需要发送邮件时,用户先用发信人MUA来编辑邮件,然后将编辑完的邮件通过发信人的MUA发送到发信人的MTA上,发信人的MTA先将邮件存入自己的缓存区,然后根据收信人的邮箱地址利用域名解析服务器获得收信人的MTA的IP地址,再按照接收端服务器的IP地址将邮件投递到收件人的MTA上,收件人的MTA判断是本地邮件,则把邮件转给收信人的MDA,收信人的MDA再把邮件分发到相对应的用户邮箱中,收信人7第二章电子邮件相关技术介绍再通过收信人的MUA就可以查看到邮件的内容了。电子邮件的整个传输过程如图2.1所示。图3.1电子邮件传输原理第二节电子邮件的传输协议邮件的整个传输过程是通过在各个邮件服务器间的通信、传递邮件数据实现的,要实现各个邮件服务器之间的数据传输就必须遵循一定的传输协议,而且不同的传输过程有不同的传输协议,下面介绍五种重要的邮件传输协议【14】【15】。(1)SMTPSMTP(SimpleMailTransferProtoc01)简单邮件传输协议,它属于TCP/IP协议族,提供一种面向连接的可靠的邮件数据传输服务,它控制由源地址到目的地址传送邮件数据的传输和邮件数据的中转方式,SMTP协议规定,如果发送端服务器和接收端服务器在同一个网络中,则直接传输邮件数据,如果不在同一个网络中,则通过一个或几个中间服务器转发来传输邮件数据。SMTP协议的通信模型是一种双工通信,两方的SMTP采用通过交互的方式进行对话,发送方首先提出发送请求,等接收方对方送请求确认后,发送方开始向接收方发送数据,整个邮件数据的发送过程由发送方控制。(2)POP3POP3(PostOfficeProtocol3)表示邮局协议已经发行的第3个版本,本协议详细规定了如何通过使用个人计算机与邮件服务器的连接来实现电子邮件的收发。它是为了实现电子邮件在Internet上的使用而发行的第一个离线协议,使用R第二章电子邮件相关技术介绍这个协议用户可以将电子邮件的数据从邮件服务器拷贝到自己的电脑上,用户也可以利用系统提供的客户端来对电子邮件服务器上的邮件进行删除、保存等各种常用的操作,遵循POP3协议的邮件服务器通常被称为POP3服务器。POP3协议是TCP/IP协议族中的一员,是由RFC1939定义的。通过电子邮件系统提供的客户端来对电子邮件服务器上的电子邮件进行管理是本协议的最大优点。(3)IMAP斯坦福大学在1986年研发了一种邮件获取协议被称为IntemetMailAccessProtocol(交互式邮件存取协议)IMAP。利用这种协议通过邮件客户端(例如Foxmail)从邮件服务器上获取邮件的信息是IMAP协议的主要作用,例如下载电子邮件等。当前的权威定义是RFC3501。IMAP是运行在TCP/IP协议之上的一种协议,这种协议使用计算机的143端口。用户可以不用把所有的邮件全部下载,而通过客户端直接对服务器上的邮件进行操作是它与POP3协议的主要区别。(4)W曲MailWebMail是在网页的基础上发展起来的电子邮件收发系统,起到邮件用户代理的作用,W曲Ma订电子邮件系统可以为用户提供电子邮件的收发、用户在线对电子邮件进行正常使用的服务和对电子系统所提供的服务进行管理等功能。WebMail具有界面看起来非常直观、使用环境比较友好,并且不需要额外的借助其他的客户端来进行正常的使用等优点,避免了用户配置E.mail客户软件所带来的麻烦,只要在有计算机网络的地方就以使用WebMail来进行收发电子邮件,大大方便了用户的使用。WebMail使得E.mail在Internet上的应用广泛。WebMail与Foxmail、Outlook等客户端软件比较,有如下优点:(1)只要有一台能上网的计算机,用户便可以随意的使用电子邮件的功能。(2)WebMail增加了用户自己修改密码的功能,对自动转发进行设置的功能和进行自动回复设置的功能等。(3)用户可以清楚的了解WebMail邮箱己使用容量和剩余的容量,提醒用户及时清理不需要的邮件,避免邮箱爆满的现象发生。(4)邮件发送速度比通过Foxmail、OutlookExpress等软件快捷。第三节电子邮件的内容格式和编码技术9第二章电子邮件相关技术介绍电子邮件的发送和接收都是通过计算机和网络实现的,因此电子邮件的格式必须遵循一定的规则和协议才能实现电子邮件的功能。RFC822定义了电子邮件的标准格式,电子邮件的标准格式由信封、邮件头、邮件体和空行四个部分组成⋯。电子邮件的信封跟传统邮件的功能一样,使用来表明发件人和收件人地址的,在SMTP的传输过程中是由命令“MAILFROM”和“RCPTTO”实现的,其格式如下所示:MAILFROM:<wanger@163.com>RCPTTO:<zhangsan@sina.com.cn>邮件头的功能是记录电子邮件属性的基本信息,主要包括发信人地址、收件人地址、邮件主题、邮件ID、发送时间、邮件中转服务器等信息,每封邮件都有唯一的ID号,通过ID号来确认所收到的邮件数据是否来自同一封邮件。邮件头的基本格式为:字段名字段值。常用的字段以及字段含义如下表所示:【17】表2.1邮件头常用字段与相应含义表字段含义创建人From发件人的电子邮箱地址写邮件人To收件人的电子邮箱地址写邮件人Reply-To回复人的电子邮箱地址写邮件人Cc抄送地址写邮件人BCC密送人的电子邮箱地址写邮件人Date日期和时间写邮件人Subject主题写邮件人Message-ID消息ID写邮件人MIME.VersionMIME版本写邮件人Content—Transfer-Encoding内容的传输编码格式写邮件人Received电子邮件的传输路径各级电子邮件服务器Return.Path回复人的电子邮箱地址目标电子邮件服务器Delivered.To发送人的电子邮件地址目标电子邮件服务器10第二章电子邮件相关技术介绍邮件体就是邮件所要传输的主要内容信息,邮件体主要由段头和段体信息两部分组成的,段体信息就是邮件的正文,段头部分主要描述了正文中用到的文字格式和所用到的编码技术,常见的字段及字段含义如下表所示【18】:表2.2邮件体常用字段与相应含义表字段含义Content-Type段体的类型Content—Transfer-Encoding段体的传输编码方式Content-Disposition段体的安排方式Content.m段体的IDContent.Location段体的位置(路径)Content.Base段体的基本位置电子邮件系统只能对ASCII码格式的文字信息进行传送,因此非ASCII码格式的电子邮件需要进行编码才能在网络上进行传输,现在通常采用MIME(MultipurposeIntemetMailExtensions)进行编码【19】,MIME解决了原来电子邮件只有一种编码格式的缺陷,使得电子邮件的内容可以包含图片、音频、视频等格式的二进制数据,现在MIME编码格式不仅广泛应用在电子邮件上,而且已经成为了超文本传输协议的组成部分。MIME主要定义了Base64和QP(Quote.Printable)两种编码方法,Base64编码的操作简单,易于理解,是在网络上使用最广泛的一种编码规则,已经成为电子邮件编码中的主流方向,QP编码是一种基本应用于电子邮件中的编码格式,虽然该编码格式实现起来比较简单,但是编码的效率比较低。Base64的编码原理是:先从字符流中依次3个8位字节段,然后平均分成四段,将每个段的前两位加两个0,形成新的8位字段,将这四个8位字段转换成十进制,最后在Base64编码表中查找对应的字符,并用该字符表示,这就是Base64的编码就是这样实现的。QP编码一般用在文本量比较少的地方,而且只能对8位的字符进行编码。QP编码非常简单,但是编码效率也非常低,它的编码率是1:3。QP编码的编码原理是:先将每个8位的字符用两个十六进制的数表示,然后在这两个十六进制数的前面加“=”,这就是QP编码过程。第二章电子邮件相关技术介绍第四节本章小结本章主要介绍了电子邮件的相关技术,包括电子邮件的基本传输原理,并详细介绍了邮件传输的三个部分MUA、MTA、MDA;然后介绍了电子邮件传输过程中所用的相关协议,主要包括SMTP协议、POP3协议、IMAP等重要的协议;最后介绍了电子邮件的基本内容格式和电子邮件的编码格式12第三章贝叶斯分类算法及邮件预处理技术第三章贝叶斯分类算法及邮件预处理技术贝叶斯分类算法是基于贝叶斯算法垃圾邮件过滤系统的理论基础,贝叶斯算法来源于概率论、基本被用在处理统计学中比较随机性的问题,基于贝叶斯理论的垃圾邮件过滤技术是目前最有效的技术之一。由于中文文本的词语之间是相连的,不能像英文那样通过标点符号和空格就能实现分词,因此中文文本分词需要专门的技术来实现,邮件经过分词处理后,如果将每个单词都表示成特征项的话,特征词的数量将会十分庞大,因此需要对分词进行提取处理,提取出那些对邮件分类能够起到作用的分词作为特征项,将那些对邮件分类没有作用的分词去掉,来提高邮件分类的效率,文本分词和特征提取的结果对整个过滤系统的性能和效率有着很大的影响。第一节贝叶斯分类算法贝叶斯定理最初是由牧师托马斯贝叶斯于1763年提出的,贝叶斯公式是贝叶斯理论中的一个重要的公式。贝叶斯分类算法是将垃圾邮件的过滤当做不确定知识数据的分类来处理,对不确定数据进行分类是概率论最经典的应用,分类原理是通过对已知现象的概率运算来推测未知现象发生的概率来进行分类。3.1.1贝叶斯定理贝叶斯分类算法的基本原理是n9。28|:首先假定所研究的对象在进行抽样之前已经有了一定的认知,并通过先验概率分布来描述这种认知,然后通过对现有数据进行统计,得到概率分布,最后利用贝叶斯公式通过已实验事件的概率来对未实验事件出现的概率进行推理预测。基于贝叶斯理论的垃圾邮件分类就是通过计算已经被分好类的邮件的属性的概率来对新接收到的电子邮件进行分类。下面首先介绍概率论中的几个基本定义:定义3.1:将一个实验的所有可能的结果放在一块,形成一个集合,这个集合被称为这个实验的样本空间,记为S。组成样本空间S的每个元素,即这个实验的每个结果,被称为样本点。属于样本空间S的每一个子集被称为这个实验的随机事件,简称事件。13第三章贝叶斯分类算法及邮件预处理技术定义3.2:设S是一个随机实验的样本空间,E是这个随机实验的随机事件,对于其中的任意一个随机事件A都赋予一个实数,记为P(A),称为这个随机事件A发生的概率。定义3.3:设A、B是随机实验中的两个随机事件,且事件A发生的概率P(A)>0,则称朋㈤=篙(3.1)为事件A在事件B发生的条件下的条件概率。我们把式(3.1)称为条件概率公式。通过对条件概率公式进行进一步的推导便可以得出贝叶斯公式。定理:设一个随机实验的样本空间为S,A为这个随机实验的一个事件,B1,B2,B3,⋯为样本空间S的一种划分,且P(A)>0,P(B:)>0(i=1,2,..,n),则有P(Bi[A):善螋i=1,2,⋯,n(3.2)∑只彳I色)鹏)j=l我们称式(3.2)为贝叶斯公式。其中,我们称P(Bi)为先验概率,P(B;fA)为后验概率,尸(彳)=∑P(ABj)P(Bj)j=l,2,⋯,n(3.3)j=l为全概率公式。3.1.2一般贝叶斯分类模型基于贝叶斯理论的垃圾邮件过滤器的基本思想是:通过对邮件内容的词语进行特征提取,提取一个特征库,通过特征库中的特征词在垃圾邮件和合法邮件里出现的频率不同来对邮件进行分类。贝叶斯定理是通过利用概率识别的方法来区分垃圾邮件,它的优点是不只是通过某一封邮件,也不只是通过某个或某几个特征来判断是否为垃圾邮件,而是通过计算整个邮件集中每个特征是垃圾邮件的概率,并通过贝叶斯定理计算这些特征组合在一块使该邮件是垃圾邮件的概率来判断该邮件是否为垃圾邮件。下面详细介绍一下具体的贝叶斯分类模型。14第三章贝叶斯分类算法及邮件预处理技术设两种邮件的类型空间为{C,,C:),邮件文本的特征空间为{w。,则对于给定的邮件类型C,或者C。好,则根据贝叶斯公式有:p(c阶卑铲其中:P(W)=尸(C1)P(wC1)+P(C2)P(wC2)P(WIC)=尸(%,%,...,%IC)判断邮件为垃圾邮件或合法邮件概率的公式为:(3.4)(3.5)(3.6)P(CW)=Max{P(ClI形),P(C2I∥))(3.7)在式(3.4)中分母P(W)和邮件的类别C无关,因此通过式(3.7)判断邮件是否为垃圾邮件是可以忽略,因此只需要计算P(C)和P(矽IC)的概率即可判断邮件的类别。贝叶斯分类器的基本结构模型如图3.1所示。图3.1贝叶斯分类器的结构模型3.1.3朴素贝叶斯分类模型由一般贝叶斯分类模型中可知,通过式(3.4)来判断邮件是否为垃圾邮件,需要计算P(C)和P(矽IC),其中P(C)为先验概率,一般比较容易计算,但是尸(∥Ic)在特征比较多且相互之间相关性比较大时,其计算量非常大,例如一篇由500个特征词组成的文章,大约有一千多字,这需要计算2500.1个概率值,如果每次都是这么大的计算量是不可能的,因此必须要进行简化计算处理【29】。为了简化计算量,我们假设各特征之间的关系是相互独立的,这就大大简化了计算15第三章贝叶斯分类算法及邮件预处理技术量,这种模型被称为朴素贝叶斯模型,而且通过实验证明朴素贝叶斯模型具有较好的过滤性能。假设M是邮件样本集中属于第G类邮件的总数,N表示邮件样本集的总数,则P(C)的计算公式为:尸(G)=丝N(3.8)假设给定类别的样本邮件集G有n个特征词,分别为w。,W:,⋯,W。,并且这些特征词之间是相互独立的,则有:P(WG)=P(彬,%,...,呢IG)=兀尸(彬lG)(3.9)i=1朴素贝叶斯分类器的结构模型如图3.2所示。图3.2朴素贝叶斯分类器的结构模型第二节邮件内容解析因为电子邮件只能传输7位ASCII的数据,要对邮件的内容进行处理之前就需要先对原来进行编码的数据进行解码处理,第二章第三节中讲到了电子邮件的编码技术和原理,解码就是编码的逆过程,还需要对解码后的数据进行进一步处理,最后得到我们需要的文本。整个电子邮件数据的解码过程分为两个过程:(1)MIME解码,主要处理MIME格式的编码数据,即对Base64和OP(Quote.Printable)编码格式的数据进行解码处理。(2)对采用具体字符集的文本进行解码处理,常用的字符集有16第三章贝叶斯分类算法及邮件预处理技术GB2321(2Byte)、GBK(2Byte)、UTF-8(3Byte)、Bi95(2Byte)等。第三节文本分词技术文本分词是垃圾邮件过滤系统中比较重要的一个环节,对系统的性能和效率有着很大的影响。分类方法一般分为两类:英文分词和中文分词。英文分词通过标点符号和空格等非字母字符作为分词依据就能实现,分词方法比较简单。在中文文本中词语之间是相互连在一块的,不像英文字符那样有比较明显的分词依据,而且中文通常还具有词性、语义和上下文语境等特征,所以中文分词相对来说要比英文分词复杂的多。现在常用的分词方法有:最大匹配法、N.最短路径法、全切分法和基于词频分词法。下面分别对这四种中文分词方法的原理和特点进行介绍。1.正向最大匹配法【30】。正向最大匹配法的基本原理是:设Q是查词词典,M是词典中最长的词所含的汉字的个数,STR是待分词的文本字串,先从文本STR中从左到右依次取长度为M的字串作为要匹配的字串,拿这个字串去查词典,如果词典中有这个词,则把这个字串放入词库,并将指针后移M个汉字继续进行匹配,如果词典中没有,则将匹配的字串去掉最后一个字,组成新的字串,继续查找词典进行匹配,这样一直匹配下去,直到匹配到只有一个汉字为止,完成一个匹配过程,按照这个步骤再进行下一轮匹配,直到把整个文本匹配完,找出所以的词为止。逆向最大匹配法和正向最大匹配法的原理基本一样,不同的是正向匹配法是从左到右取字串,逆向最大匹配法是从右到左取字串。正向最大匹配法的特点是简单易懂,易于实现,分词基本上不涉及词性、语义和上下文的因素。由于汉语有单字成词的特点,所以这种方法一般不经常用。2.全切分法。全切分法的基本思想是:将一个句子所有可能的切分结果全都列举出来,然后进行词库匹配,这种方法真正实现起来难度非常大,特别是文本比较长时,切分的所有结果数量将变得非常大,因此分词的速度也变得很慢,而且由此产生的分词结果包含很多的无用信息,因此,本方法没有使用价值。17第三章贝叶斯分类算法及邮件预处理技术3.基于词频分词法。词频分词法的基本思想是:通过统计的方法计算相邻字出现的频率来表示他们的互信息,当他们的频率超过某个阈值时,就把这两个字当成一个词,然后把这些词的词频相乘从而得到最后结果。这种方法复杂度比较高,而且低频词的错误难以克服,迄今为止尚未有成功的应用报道。4.N.最短路径法。N.最短路径法的基本原理是:首先在待分文本中找出含有正确结果的M个粗分词,接着根据这些粗分词结果的性能和准确度,从这M个结果中找出最佳的分词结果,根据这个思想最终得到包含所有分词结果的最小分词结果集。也就是在包含所有分词结果的基础上使切分出来的词的数量最少。该方法相较于全切分法改进了分词速度慢、查找空间的缺陷,同时又避免了丢弃很多正确结果的缺点。第四节特征词提取技术将邮件文本内容经过分词处理后,提取出来的词的数量比较大,如果将这些词全部用作特征,特征向量的维数仍然比较大,可以通过对特征项作进一步的选择和提取,得到贡献比较大的特征集,来提高过滤系统的运行速度和程序效率。文本特征的提取和选择就是通过概率的方法构造一个特征函数,通过这个函数把这些词投影到另外一个空间,在这个空间中根据这些特征的值进行选择,提取出新的词集组成特征空间。现在我们常用的特征提取方法有以下五种:1.TF.IDF(词频.倒排词频)法。该方法的基本原理是:TF(词频).根据某词在文本中出现的次数,来表示这个词对于这个文本的重要程度,出现的次数越多表明该词越重要;IDF(倒排词频)根据某个词在一个文本集中出现的频繁程度作为添加指标,如果包含这个特征词的文本数越多,则表明该特征越不重要【3¨。这种方法的特征函数为:丁Frr、TFIDF(T)扎g(盖茜)(3.10)其中:TF(T):被用来表示特征T在文本D中出现的数量,IDF(T):被用来表示文本总数中包含特征T的文本数量。这表示这个词对文本特征的贡献率与TF成正比,与IDF成反比,从这里可以看出在一定程度上降低了常用词的影响,18第三章贝叶斯分类算法及邮件预处理技术突出了某些比较重要的特征词。2.互信息TF.IDF方法只是对分词特征和文档之间的关系进行了描述,并没有反映出分词特征与邮件类别之间的关系,互信息则描述了分词特征与邮件类别之间的关系,互信,皂,(MumalInformation),简称MI,其定义如下:MI(T)=善2P(Cf)1。g篙(3.⋯其中:尸(G)表示在第i类文本在训练文本总数中出现的概率,P(T)表示分词特征T在训练文本集中出现的概率,P(Tf)表示分词特征T在第i类文本总特征分词中出现的概率。MI越大,则分词特征和邮件类别共同出现的可能性也越大【321。3.信息增益信息增益是根据样本特征信息增益的大小来反映其信息量的大小,样本特征的信息增益越大,则其包含的信息量也就越大。信息增益的公式定义如下:IG(T)=-Zp(c,)+P(丁)∑P(c,Ir)+P(亍)∑P(c,IT)logP(C,IT)(3.12)其中:P(T)表示特征词T不出现的概率,JP(Cl丁)表示在特征词T发生的条件下文本属于类G的概率,P(C;I,)表示在特征词T不发生的条件下文本属于类e的概率4.基于文档频度的特征选择算法基于文档频度的特征选择算法的基本原理是:将文档中出现的所以词语作为待选特征词,通过计算特征词在所以文档中出现的次数来判断是否取作特征词,设定一个阈值,当词语出现的次数大于这个阈值时取作特征词,反之不用作特征词。这种选择方法是最简单的一种选择算法,比较简单且易于实现,但是该算法只考虑了词在文档集中出现的频率,没有考虑其对文档分类的作用。5.基于z2分布的特征词选择算法基于z2分布的特征词选择算法的基本原理是:假设特征词T和文档类别C之间符合一阶z2,通过计算特征词T和文档类别C之间的相关程度来进行特征词的选择。特征词和文档类别之间的相关性的z2分布定义为:矿(置c):————j塑坚型堡塑型坠丝竖垡二—一⋯’”(Ⅳ(C;,D+Ⅳ(兀G))宰(Ⅳ(Le)+Ⅳ(G,D)聋(Ⅳ(C;,D+Ⅳ(瓦G))木(Ⅳ(L(;)+Ⅳ(C;,D)19第三章贝叶斯分类算法及邮件预处理技术(3.13)其中:N代表所有文档,Ⅳ(G,丁)代表属于类别G且包含特征词T的文档数,Ⅳ(G,丁)表示即不包含特征词T,也不属于类别ci的文档,N(T,e)表示包含特征T,但不属于类别Ci的文档,N(T,Cf)表示不包含特征T,但属于类别Ci的文档。z2统计量的缺点是【33】:没有考虑到特征词在文本中出现的频率,对低频词的分词效果不是太理想。上面介绍了五种分类方法,各有各的特点,但是这些方法在实际的分类中效果差别并不是很大。虽然对特征词不进行特征提取也可以进行分类,但是过滤系统的运行效率和分类效果会有比较明显的下降,因此进行特征词提取是非常有必要的。第五节本章小结本章主要对整个贝叶斯过滤系统中所用到的一些理论和技术进行了介绍,主要介绍了贝叶斯定理和贝叶斯分类模型,这是贝叶斯过滤系统的核心,介绍了邮件内容的解析技术,这是过滤系统的准备环节,介绍了文本分词技术和特征词提取技术,这是整个过滤系统非常重要的一个环节,对整个系统的效果和效率有比较大的影响。20第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计前面三章主要介绍了电子邮件系统的一些基本知识、贝叶斯算法的基本原理和垃圾邮件过滤系统中用到的一些基本技术,本章将进入本论文的主题,基于贝叶斯垃圾邮件过滤系统的设计阶段。本文的目标是设计一个基于贝叶斯算法过滤并加入黑白名单过滤和规则过滤的垃圾邮件过滤系统,将此系统放在用户邮件接收服务器上,对用户接收到的邮件进行过滤,将垃圾邮件拦截掉后发给邮件用户客户端。下面具体介绍整个过滤系统的设计方案。第一节系统的需求分析软件系统的开发最难办的是要非常准确的知道我们要开发一个什么样的软件。最为困难的概念性工作是编写详细的技术需求,这一部分一旦出问题,将会对最终的系统带来很大的危害,并且对以后的修改也带来很大的麻烦。因此对于本文的整个垃圾邮件过滤系统来说需求分析也是非常重要的一部分,本节将从垃圾邮件过滤系统的必要性、系统要实现的功能和整个系统的性能三个方面来介绍本系统的需求分析。现在电子邮件已经非常普及,给我们的工作和生活带来了很大的便利,但是也有很大人为了一些不正当的目的,大量的散发垃圾邮件,给我们使用电子邮件带来了比较大的负面影响。例如,大量的散发电子邮件占用网络宽带,使邮件服务器造成拥堵,并且还使整个网络的运用效率大大的被降低;大量的电子邮件在邮箱服务器上,占用了收件人得信箱空间,使信箱空间的有效利用率大大降低;有些黑客制作网络病毒,通过电子邮件进行散发,给我们带来很大的麻烦;有些人还通过电子邮件传播垃圾信息、骗人钱财、传播色情等,给现实社会造成了比较大的危害。因此设计一款高效、方便、实用的垃圾邮件过滤系统是非常有必要的,将大大降低垃圾邮件带来的危害,使用户更充分的享用电子邮件带来的便利。本文所要讲解的垃圾邮件过滤系统安装在用户接收邮件服务器上,实现对用户收到的所有电子邮件进行过滤,对发给用户的垃圾邮件进行有效拦截的目的,这是本垃圾邮件过滤系统的最终目标。垃圾邮件过滤系统在整个电子邮件系统21第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计中的安装位置如图4.1所示。MUMMTAlMTA2发件方4.1电子邮件系统示意图垃圾邮件过滤系统的最终使用者最关注的垃圾邮件过滤系统的性能,也就是垃圾邮件过滤系统的质量,评价垃圾邮件过滤系统性能的指标是垃圾邮件过滤系统的有效性和垃圾邮件过滤系统的过滤效率。垃圾邮件性能的判断过程是一个比较复杂的过程,整个评判过程包括评判指标的确定过程,评判数据的选择过程和评判环境的构建过程等。垃圾邮件过滤系统有效性的判断所依据的指标常用的有两个:1.正常邮件的误过滤率(hammisclassificationpercentage,简写hm%),即被误识别为垃圾邮件的正常邮件占所有正常邮件的比例;2.垃圾邮件的误过滤率(spammisclassificationpercentage,简写sm%),即被误识别为正常邮件的垃圾邮件占所有垃圾邮件的比例。垃圾邮件过滤系统想要具有非常好的过滤能力,就需要使这两个值尽可能的小。垃圾邮件过滤系统的易用性也
本文档为【基于贝叶斯算法的垃圾邮件过滤系统设计与实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
绘画的问号
暂无简介~
格式:pdf
大小:2MB
软件:PDF阅读器
页数:0
分类:高中语文
上传时间:2019-11-23
浏览量:0