首页 P2P流量实时监测技术分析

P2P流量实时监测技术分析

举报
开通vip

P2P流量实时监测技术分析P2P流量实时监测技术分析 P2P 流量实时监测技术分析 徐慧,刘聪 (中国矿业大学(北京)机电与信息工程学院,北京 100083) 摘要:P2P 流量在网络流量中所占的比重越来越大,如何能准确且实时的检测出 P2P 流量成 5 为一个新的研究热点,本文提出了实时属性集的概念。通过属性约简算法得到实时属性集合, 该属性集合作为支持向量机的特征向量,通过训练样本,学习机器做出较为理想的分类器。 通过测试样本,得到实时属性集的测试结果,确定其有效性。该方法在不影响检 P2P 流量检 测精度的前提下,缩短了检测时...

P2P流量实时监测技术分析
P2P流量实时监测技术分析 P2P 流量实时监测技术分析 徐慧,刘聪 (中国矿业大学(北京)机电与信息工程学院,北京 100083) 摘要:P2P 流量在网络流量中所占的比重越来越大,如何能准确且实时的检测出 P2P 流量成 5 为一个新的研究热点,本文提出了实时属性集的概念。通过属性约简算法得到实时属性集合, 该属性集合作为支持向量机的特征向量,通过训练样本,学习机器做出较为理想的分类器。 通过测试样本,得到实时属性集的测试结果,确定其有效性。该方法在不影响检 P2P 流量检 测精度的前提下,缩短了检测时间。 关键词:P2P 网络 ;属性约简;支持向量机;实时属性集 10 Technical analysis of real-time monitoring of P2P traffic Xu Hui, Liu Cong (1. Chain University of Mining and Technology(Bei Jing)School of Mechanical Electroinc & Information Engineering, Beijing 100083; 15 2. China University of Mining and Technology (Beijing) School of Mechanical Eletronic&Information Engineering, Beijing 100083) Abstract: Peer to Peer traffic is taking a more and more proportion in net traffic. How to detect P2P flow accurately and in the same time is becoming a hot issue. The paper proposed a concept called real_time Attributions Set. The Set is a result of attribute reduction algorithm. And It was 20 taken the feature vector of SVM. The studying machine gets the classifier thought the training data. The Test data inspects the set and make clear its validity. This method shorted the time without affecting the test accuracy. Keywords: P2P; Attribute Reduction; SVM; Real_time Attributions Set 25 0 引言 自各种 P2P[1]软件在互联网时代大行其道,给用户带来速度体验的同时,各种版权问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 、 网络安全问题和带宽消耗问题等随之而来。如何迅速、准确的检测出 P2P 流量,提供较为 精确的参数给网络工作人员,以便其做出相应的网络策略调整是当前网络工程的一个研究热 30 点。本文以 P2P 流量特征为切入点,简要介绍当前较为流行的 P2P 检测方法,并阐述其优 [2]结合数据挖 缺点。本课题主要侧重于流量检测的实时性,因此在机器学习中的支持向量机 掘的相关理论的基础上,提出了网络流量的实时属性集的概念。 1 P2P 流量检测技术简述 1.1 基于端口的 P2P 流量检测技术 端口是指 TCP/IP 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 中传输层端口,早期的 P2P 软件采用固定的端口,和 C/S 模式应 35 用特点相同,为了避免通讯失败,基本不会改变监听端口。利用 P2P 软件的这个特性,采 用端口识别法[3]是最简单、有效的检测方法。只需要提取数据包头,与端口进行匹配就能达 到应用级别的检测效果。以下是几个简单的 P2P 软件端口展示表。如表 1 40 作者简介:徐慧,女,副教授,数据库与数据挖掘。E-mail: xuh@cumtb.edu.cn -1- 表 1 P2P 应用软件端口对应表 Tab. 1 P2P SoftWare Port 45 P2P 软件名称 端口号 协议 MP2P 41170 TCP/IP TCP/IP Direct Connect 411-414 TCP/IP fastTrack 1214 TCP/IP eDonkey 4662 该检测方法的优点是:准确率高、实时性好。缺点是:随着端口跳变、HTTP 隧道技术 的产生,P2P 通讯伪装技术的发展对基于端口的检测方法是一个不可逾越的障碍。 1.2 基于流量统计特征的 P2P 流量检测技术 P2P 网络结构中,每个节点既是客户端,又充当服务器。因此其上行流量和下行流量在 50 [4]的这个特征,可以检测出是否是 P2P 流量数量上应该是大致相当的。利用 P2P 流量统计 流量。 图 2 展示了 PPLIVE 的流量特征。 图 1 P2P 流量统计特征图 55 Fig. 1 P2PFlow statistics feature 该检测方法的优点是:计算开销小,能较为准确地检测出 P2P 流。缺点是:但随着缓 冲技术的不断发展,这种检测方式的时效性不是很高,并且一些协议如 FTP 协议等也支持 上传功能。所以 P2P 流量的误报率较高。 60 1.3 基于行为特征的 P2P 流量检测技术 据统计,网络中大约 80%的 P2P 软件同时使用 TCP/IP 协议,因此可以观察单位时间内 源 IP 和目的 IP 是否同时使用 TCP/IP 协议来判断该流量是否是 P2P 流量。另外,源 IP /源端 口号与目的 IP/目的端口号的比值相差不会很大。根据这个行为特征可以进一步筛选 P2P 流 量。 65 该检测方法的优点是:计算开销小,时效性较高。缺点是:检测准确率低、误报、漏报 率较高。 1.4 基于深层数据包扫描技术的 P2P 流量检测技术 深层数据包扫描技术又称作 DPI 技术[5]。是利用协议的特征字、网关识别等技术实现的。 每种不同的协议有其不用的特征字,P2P 流量使用的协议也不例外。根据这个特性,可以识 70 别出 P2P 流量。表 2 展示了几种 P2P 协议的特征字。 -2- 表 2 P2P 协议特征字表 Tab. 1 P2P Protocal Feature P2P 软件名称 特征字 协议 MP2P “Go”、”SIZ” TCP Direct Connect TCP/IP “Dir”、 “$SR” TCP/IP FastTrack “GIVE” TCP/IP eDonkey Oxe3、OXe5 该检测方法检测优点是:准确率高、升级维护简单。缺点是:侵犯用户数据隐私、滞后 75 性及计算开销大等。 2 基于 SVM 的 P2P 流量实时检测技术 相对其他 P2P 流量检测方法来讲,基于网络流量特征的检测方法是较为有研究和实用 价值的检测方法。该方法需要寻找 P2P 流量特征。由于不对称路由、丢包和重传等原因, 无法准确定位 P2P 流量特征。较为一般的解决方法是:采用大量已知类型数据来判定特征 80 属性的选取是否合适、尝试不同的属性组合、寻找区分度最高的组合,提高检测的准确度。 该方法不仅效率低下,而且扩展性不高。基于以上原因考虑,本课题采用了支持向量机算法 和 P2P 检测技术相结合的思路。其优点在于:1、支持向量机针对有限样本,这样避免了大量 数据检测机制带来的消耗负担。2、算法最终将转化成二次寻优问题,从理论上见,是全局 最优解。3、将实际问题从非线性变换转换到高维的特征空间,保证了较高的推广能力。 85 2.1 理论思想简述 1、对 P2P 网络流量特征进行分析,选择有针对性的特征作为区分 P2P 流量和非 P2P 流 量的特征。 2、采取的流量做数据筛选及归一化处理,选取的流量特征作为 SVM 的特征向量。 3、历史数据形成训练及测试样本。用训练数据集对支持向量机进行训练,求解并选出 90 最优解。测试数据对其测试,验证分类器的准确率。 2.2 实验步骤及其理论支持 流量特征选择 2.2.1 P2P 流量使用 TCP 协议,因此采用了语义完成的 TCP 双向流作为样品流。一个完整的 95 TCP 协议流包含 249 个属性。如何有效的在这些属性中选择出 P2P 流量特征,在此引入基 于 pawlak 的粗集属性约简方法[6]。其理论支持如公式 1 所示 Card ( POSC ( D)) , (C, D , )公式 1 Card (U ) 其中, (C,D)代表属性 D 对属性集 C 的依赖关系。card(U)代表集合的基数。POSc(D) 代表属性集 C 在 U/IND(P)中的正区域。 , ,,Ci , C j , Ck , Cm , , 1则称 Cm 为可约简属性 如果100 , 通过属性约简方法得到时间相关属性集合如表 3 所示: 105 -3- 表 2 P2P 时间相关属性表 Tab. 1 P2P Time Attibute 属性名 描述 MIN_IAT 包最小间隔时间 AVG_IAT 包平均间隔时间 MAX_IAT 包最大间隔时间 AVG_DATA_IAT 包平均大小 Effective_Bandwidth 有效带宽 数据筛选及归一化处理 110 2.2.2 网络数据源提供的网络流量数据需要进行筛选及归一化处理,以便 SVM 特定格式的要 求。这里简单的将网络数据分为 P2P 数据和非 P2P 数据,分别用 1 和 0 来代表。 分类器的形成 2.2.3 支持向量机在解决非线性分类问题时,利用核函数将输入的数据映射到高维特征空间, 转化为仅涉及到内积的线性运算。因此,核函数的选择是关键,只有选择适合的核函数,才 115 能将输入数据最大限度的映射成线性可分。 由于径向基函数核函数可以将样本数据映射到更高维中,可以处理类标签和特征之间的 关系是非线性时的情况,所以选择径向基函数核函数(RBF 核)。其表达式如公式 2 | x xi |2 K ,X, X i , , exp 公式 2 根据风险最小化原则,考虑到函数的复杂度和误差拟合问题,回归函数可以表示为约束 120 优化问题。如公式 3 所示 1 1 t MINJ ,w, e, , w w , 公式 3 1 2 2, ei i,1 其中径向基尺度参数 和核参数 在很大程度上决定了支持向量机的学习能力和泛化能 力。 2 参数经试验证明, 125 处于[4,8]范围时,误差率最低。 参数经试验证明, 处于[10-1,10-7]范围时,变化越稳定。 采用组合交叉法,最后确定 2=6, =0.0007 时,核函数具有实效性和实用性。 在开始训练 SVM 分类器的时候,我们投入少量数据,以保证快速建立起决策函数,随 着迭代次数的增加,投入的样本量增大,包含的特征向量越来越多,由于反馈次数的增多, 该学习机器的先验知识不断增强,最终达到理想效果。 130 最后通过已知的测试样本对分类器进行效果检验,本文以流量检测率,漏警率及时间延 迟作为判断 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 。相对 DPI 检测方法,得到结果如图 2 所示。 图 2 检测效果图 Fig. 2 test effect 135 可见相对 DPI 检测方法来讲,实时属性集的提出,在检测率及漏警率上的该进度不是 -4- 很大,但是时间延迟这一判断标准上有极大的提高,特别是随着流量的增大,其提高效果越 明显。 140 3 结论 本文结合 SVM 技术的基础上,提出了实时属性集的概念,因为具有了实时相关属性的 增加,所以在 P2P 流量检测过程中,极大的缩短了检测过程时间长度。不过,由于各种 P2P 流量具有不同的特征,因此,在实时属性集中的实时属性不一定能适合所有的 P2P 流量识 别。如何完善实时属性集使其能检测出各种网络流将在以后的工作中得到进一步研究。 致谢 145 在论文的撰写过程中,得到了胡鹏飞同学的大力支持,在试验和论文的构思方面给予大 量的帮助。在此,对胡鹏飞表示极大地感谢~同时也感谢其他许多帮助我的同学和朋友。 [参考文献] (References) [1] 吴国庆.对等网络技术研究[J].计算机技术与发展,2008,18(7):100-104. 150 [2] BOSER BE , GUYON IM , VAPNIK VN ( A Training Algorithm for Optimal Margin Classifiers[C](Proceedings of the 5th Annual ACM Workshop on Computational,NY,1992:144-152( [3] KRISHNA P GUMMADI,RICHARD J.DUNN,STEFAN S,STEVEN DGRIBBLE,HENRY M LEVY, ZAHORJAN JOHN ( Measurement,Modeling,and Analysis of A Peer-to-Peer File-Sharing Workload[C](Proceedings of Multimedia Computing and Networking 2003,New York,2003:314-329( 155 [4] 柳斌,李之棠,李佳.一种基于流特征的 P2P 流量实时识别方法[J].厦门大学学报,2007,46(2):132-135 [5] Kang H J,Kim M S,Hong J.A method on multimedia service traffic monitoring and analysis.In:Pro of the 14th IEEE international workshop on DSOM 2003.Heidelberg,Germany,2003,93-105 [6] Paw lak Z. Ro ug h Set Theo ry and Its Applications to Data Analysis[ J] . Cybernetics and System, 1998, 29( 7) : 661 688. 160 -5-
本文档为【P2P流量实时监测技术分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_995397
暂无简介~
格式:doc
大小:49KB
软件:Word
页数:9
分类:生活休闲
上传时间:2018-04-29
浏览量:12