首页 离群点分析

离群点分析

离群点分析离群点分析一数据处理方法1离群点的简介2离群点的检测方法2.1基于统计分布的离群点检测2.3基于密度的离群点的检测2.2基于距离的离群点的检测2.4基于偏差的离群点的检测目录第1节离群点的简介1.1离群点的含义在数据库中包含着少数的数据对象，它们与数据的一般行为或特征不一致，这些数据对象叫做离群点。1.2离群点的来源一、测量或执行误差所导致的。比如：某人的年龄-999岁，这就是明显由误操作所导致的离群点；二、数据本身的可变性或弹性所致，比如：一个公司中CEO的工资肯定是明显高于其他普通员工的工资，于是C...

离群点分析一数据处理方法 1离群点的简介2离群点的检测方法2.1基于统计分布的离群点检测2.3基于密度的离群点的检测2.2基于距离的离群点的检测2.4基于偏差的离群点的检测目录第1节离群点的简介1.1离群点的含义在数据库中包含着少数的数据对象，它们与数据的一般行为或特征不一致，这些数据对象叫做离群点。1.2离群点的来源一、测量或执行误差所导致的。比如：某人的年龄-999岁，这就是明显由误操作所导致的离群点；二、数据本身的可变性或弹性所致，比如：一个公司中CEO的工资肯定是明显高于其他普通员工的工资，于是CEO变成为了由于数据本身可变性所导致的离群点。1.3离群点检测的原因一个人的噪声也许是其他的信号”。换句话说，这些离群点本身也可能是用户感兴趣的，比如在欺诈检测领域，那些与正常数据行为不一致的离群点，往往预示着欺诈行为，因此成为执法者所关注的。此外，在销售中确定极高和极低收入的客户的销售行为，或者在医疗分析中发现对各种医疗处置的不寻常的反应。1.4离群点检测遇到的困难第一，在时间序列样本中发现离群点一般比较困难，因为这些离群点可能会隐藏在趋势、季节性或者其他变化中；第二，对于维度为非数值型的样本，在检测过程中需要多加考虑，比如对维度进行预处理等；第三，针对多维数据，离群点的异常特征可能是多维度的组合，而不是单一维度就能体现的。第2节离群点的检测方法2.1基于统计分布的离群点检测基于统计分布的检测方法是为数据集构建一个概率统计模型（例如正态、泊松、二项式分布等，其中的参数由数据求得），然后根据模型采用不和谐检验识别离群点。不和谐校验过程中需要样本空间数据集的参数知识（例如假设的数据分布），分布的参数知识（例如期望和方差）以及期望的离群点数目。2.1.1不和谐检验不和谐检验需要检查两个假设：工作假设和备择假设。工作假设H，假设n个对象的整个数据集来自一个初始的分布模型F，即：不和谐检验就是检查对象关于分布F是否显著地大（或小）。如果某样本点的某个统计量相对于数据分布的是显著性概率充分小，那么我们则认为该样本点是不和谐的，工作假设被拒绝，此时备用假设被采用，它声明该样本点来自于另一个分布模型。如果某个样本点不符合工作假设，那么我们认为它是离群点。如果它符合某个备择假设，那么它就是符合这一备择假设分布的离群点。例1假如我们设儿童上学的具体年龄总体服从正态分布，所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下:年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12}那么.相应的统计参数是:均值=9.1; 标准差=2.3如果选择数据分布的阈值为：阈值=均值±2×标准差则在[4.5,13.7]区间以外的数据都是潜在的离群点，将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知，此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。2.1.2基于统计分布的离群点检测的优缺点优点建立在非常标准的统计学原理之上，当数据和检验的类型十分充分时，检验十分有效。缺点第一，绝大多数检验是针对单个属性的，不适合多维度空间，这也是一个主要的缺点；第二，需要预先知道样本空间中数据集的分布特征，而这部分知识很可能是在检测前无法获得的，就不能确保所有的离群点被发现。2.2基于距离的离群点检测2.2.1基于距离的离群点含义基于距离的离群点检测，也叫基于近邻的离群点检测。此时离群点就是远离大部分对象的点，即与数据集中的大多数对象的距离都大于某个阈值的点。即：如果数据集合D中，对象至少有pct部分与对象o的距离大于dmin，则称对象o是以pct和dmin为参数的基于距离的离群点。即DB（pct，dmin）离群点。2.2.2基于距离的离群点的算法（1）基于索引的算法搜索每个对象o在半径dmin范围内的近邻。设M是一个离群点的 dmin邻域内的最大对象数目。如果对象 o的 M+l 个近邻被发现，则对象 o就不是离群点。这个算法在最坏情况下的复杂度为 O(k*n *n ) ， k 为维数， n 为数据集合中对象的数目。当 k 增加时，基于索引的算法具有良好的扩展性。（2）嵌套—循环算法嵌套一循环算法和基于索引的算法有相同的计算复杂度，但是它避免了索引结构的构建，它把内存的缓冲空间分为两半，把数据集合分为若干个逻辑块。通过精心选择逻辑块装入每个缓冲区域的顺序，能够提高效率。（3）基于单元的算法基于单元的算法中，数据空间被划为边长等于 dmin /( )的单元。每个单元有两个层围绕着它。第一层的厚度是一个单元，而第二层的厚度是。该算法逐个单元地对离群点计数，而不是逐个对象地进行计数。2.2.3基于距离的离群点检测的优缺点基于距离的方法与基于统计的方法相比，不需要用户拥有任何领域知识，与序列异常相比，在概念上更加直观。三种类型的基于距离的离群检测算法中，都要求用户设置参数pct和dmin，寻找这些参数的合适设置可能涉及多次的试凑，复杂度高。2.2.4基于距离和(DS)检测算法:与DB(p,d)离群点一样，DS离群点使用同样的距离公式，如绝对距离或欧式距离，但不根据pct和dmin来判定孤立点，而是先计算数据对象两两之间的距离，再计算每个对象与其他对象的距离之和。设M为用户期望的孤立点个数，则距离之和最大的前M个对象即为要挖掘的孤立点，这样可消除用户设置参数pct和dmin的需要。2.3基于密度的离群点检测基于密度的离群点检测能够检测出基于距离的异常算法所不能识别的一类异常数据——局部离群点。2.3.1局部离群点局部离群点，是指一个对象相对于它的局部邻域，特别是关于邻域密度，它是远离的。图1是二维数据集，图中包含两个簇C1，C2和两个离群点o1,o2，其中C2稠密，C1稀疏。o2是全局离群点，根据上述定义及挖掘算法，o2离群点易于挖掘，但o1却难以挖掘，如果为了挖掘出o1，而调整参数dmin，假如使dmin小于C2与O1之间的最小距离，那么C1中的大多数数据点都将被标识为离群点。此时，o1是一个局部离群点。图1基于密度的局部离群点检测的必要性2.3.2局部离群点因子（LOF）图1中，O1相当于C2的密度来说是一个局部离群点，这就形成了基于密度的局部离群点检测的基础。此时，评估的是一个对象是离群点的程度，这种“离群”程度就是作为对象的局部离群点因子（LOF），然后计算。为了定义局部离群点因子，需要引入以下几个概念：（1）对象p的k距离对于正整数k,对象p的第k距离可记作k-distance(p)。在样本空间中，存在对象o，它与对象p之间的距离记作d(p,o)。如果满足以下两个条件，我们则认为k-distance(p)=d(p,o)：1）在样本空间中，至少存在k个对象q，使得d(p,q)<=d(p,o)；2）在样本空间中，至多存在k-1个对象q，使得d(p,q)<d(p,o)。显而易见，如果使用k-distance(p)来量化对象p的局部空间区域范围，那么对于对象密度较大的区域，k-distance(p)值较小，而对象密度较小的区域，k-distance(p)值较大。（2）对象p的第k距离邻域已知对象p的第k距离，那么，与对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离领域，记作：该领域其实是以p为中心，k-distance(p)为半径的区域内所有对象的集合（不包括P本身）。由于可能同时存在多个第k距离的数据，因此该集合至少包括k个对象。可以想象，离群度较大的对象范围往往比较大，而离群度小的对象范围往往比较小。（3）对象p相对于对象o的可达距离公式：也就是说，如果对象p远离对象o，则两者之间的可达距离就是它们之间的实际距离，但是如果它们足够近（即p在o的k距离邻域内），则实际距离用o的k距离代替。（4）局部可达密度对象p的局部可达密度定义为p的k最近邻点的平均可达密度的倒数（5）局部离群点因子表征了称p是离群点的程度，定义如下：结论如果对象p不是局部离群点，则LOF(p)接近于1。即p是局部离群点的程度较小，对象o的局部可达密度和对象p的局部可达密度相似，最后所得的LOF(p)值应该接近1。相反，p是局部离群点的程度越大，最后所得的LOF(p)值越高。优点通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。2.4基于偏差的离群点检测基于偏差的离群点检测，它通过检查一组对象的主要特征来识别离群点，“偏差”这种特征的点我们认为是离群点。通常有两种技术：第一，顺序异常技术第二，采用OLAP数据立方体技术（参见数据挖掘概念与技术第三章和第四章）Thankyou！一个“离群点”引发的研究一个常规操作的临床数据分析，一位年轻工程师在此过程中偶然发现的一个特殊“离群点”，在经过后续若干环节的研究和论证后，最终成就了一台五分类血液细胞分析仪的关键价值。这个梗概性的故事发生在去年6月份深圳迈瑞生物医疗电子股份有限公司总部，讲这个真实故事的人就是迈瑞公司北京研究院总经理李为公博士。他说，这台五分类血液细胞分析仪BC-6800填补了我国在血液细胞临床检测上的多项空白，为多种疾病的筛查与诊断提供了先进方法。追踪“离群点”2011年6月，在深圳迈瑞生物医疗电子股份有限公司总部的研发大楼中，新型BC-6800血液细胞分析仪的研发已经进入冲刺阶段。一位年轻工程师像往常一样对全国五家合作医院收集回来的临床数据进行分析，突然，一个特殊的“离群点”映入他的眼帘。这究竟是血球分析仪故障，还是镜检误读？这位工程师打开了这个“离群点”的原始数据，随即发现在二维散点图上，中性粒细胞的区域与嗜酸性粒细胞的区域中间出现了一团异常粒子。现有开发版本的算法将这团异常粒子识别成中性粒细胞进行计数。此前，从来没有在其他样本中见到过这样的异常粒子群。他带着疑问打开了三维散点图，目不转睛地查看各个角度的三维散点图效果。突然，这位工程师的眼睛一亮，所有的动作都停了下来。在一个特定的角度上，该团粒子与中性粒细胞、嗜酸性粒细胞以及其他所有的细胞群都分离开了。这下，工程师兴奋了，一个有着如此好区分度的粒子群，无论最终确定为某种特殊的中性粒细胞，还是别的特殊粒子，都将会是一个重要发现。不久，镜检组的复查结果回来了。资深细胞形态学分析师在备注栏中写着几个清晰的大字“部分红细胞中含有疟原虫裂殖体”，并从临床资料中确认该病例为疟原虫感染病例。随后，迈瑞公司的工程师打开数据库，在研发过程中收集的一万余例异常样本中搜索还有没有其他的疟疾病例。在几个小时的搜寻之后，终于找到了另外3例，并在其中两例的散点图中发现了类似的特征。这些类似特征的发现是排除偶然事件影响的有力证据。通过检索发现，血液细胞分析仪用于疟疾诊断在国内国外都有不少报道，但大部分停留在研究阶段，能够给出一个明确的参数或报警用于疟原虫感染提示的很少。与此同时，迈瑞印度分公司传来消息，他们也在疟疾样本中看到过类似的异常粒子群。随即，公司派人员赶赴印度采集疟疾样本。2011年7月，几位迈瑞工程师在印度孟买安装了一台BC-6800工程样机。在之后的两个月中，他们与当地实验人员密切合作，每天筛选样本、测试、推片、镜检、记录、整理数据并定期发回深圳总部。随着样本采集的进行，大家发现异常粒子不仅从定性上与疟疾样本相符，而且在数量上也和镜检的发现高度相关。这个发现极大增强了研究人员对BC-6800检测疟原虫感染的信心。在经过几个月复杂的盲测之后，研究团队认为，在BC-6800中提供相应的报警提示可以给特定用户带来一定的使用价值。今年3月份，深圳迈瑞公司在北京宣布这台目前国内最先进的五分类血液细胞分析仪BC-6800问世，印证了这一价值。助力中国疟疾筛查目前，全世界每年有1.5亿人感染疟疾，200万人丧生。我国疟疾的发病人数虽然已经从新中国成立初期的每年3000万例下降至2010年的7433例，但近年来由于外出务工、经商、旅游等人口流动频繁，输入性疟疾病例呈上升趋势，恶性疟死亡病例明显增多。据有关报道，2011年我国累计报告疟疾病例2077例，部分省份输入性疟疾病例明显增加，疟疾死亡病例19例，较去年同期上升了137.5%。也正因如此，疟疾的筛查和诊断就尤为重要。“BC-6800血液细胞分析仪除可开展传统的白细胞五分类检测外，还实现了对网织红细胞、有核红细胞、未成熟血细胞、异型细胞等多达56项血液细胞参数的检测与提示，可为疟疾等多种疾病的筛查和诊断提供有力支持。”李为公告诉记者。李为公还表示，对疟原虫的检测研究远远没有结束，他们将在已经采集到的印度疟原虫感染的病例基础上增加种类和数量，下一步将在国内与寄生虫病防治所和疟疾研究中心等单位合作，希望能在“血液细胞分析仪在疟原虫感染中的筛查作用和意义”、“疟原虫感染在血细胞分析仪上的检测机理”等方面取得实质性进展。记者还了解到，迈瑞公司在国外正在与非洲的疟疾高发区合作，争取采集到更多的各型各期的病例。出口产品质量异常检测的思路和算法分析检疫检疫局监管出口企业生产批质量数据的过程是：首先检验检疫局下发给企业产品出口标准和参数，企业的质量控制人员可以参考此标准和参数组织生产活动，同时将出口产品的某一批次定位生产批，在产品的生产过程，将生产批的质量监控数据上报到检疫检疫局。此生产批将与后期在检验检验局出口报检产品建立对应关系，这样如果出口产品出现问题，检疫检疫执法机构可以通过此种模式的回溯机制定位到此产品生产过程的质量参数。目前企业上报的生产批数据主要是企业自身的质量控制人员手工录入的，数据录入过程中人为因素很大。出口电子监管系统中建立了一套复杂的基于规则标准的监管体系，检疫检疫局认可通过出口电子监管系统综合评定的企业上报的生产批数据，但是对于一些有意钻漏洞的企业，如果其一旦掌握了电子监管系统的评定规则，将对出口产品的质量安全带来新的危险。出口产品质量的异常检测就是在此问题的背景下，借助文中阐述的 OLAM 模型，通过时间序列的相似度查询，找到异常序列。企业在生产过程中是存在某些时间序列的，其时间序列可能存在一些规律性的变换，例如季节变化产生的植物类食品的周期性变换，企业的生产工艺加工方法造成的周期性变化等等。有些异常点检测的研究主要集中于数据集内单数据点，这一方法在进行欺诈检测、金融监管、可疑交易监控等实际应用过程中出现了误报率高、真正的异常行为模式被掩盖的问题，产生问题的原因是现实生活中各种波动周期的存在 [19 ] 。例如，一个账户连续 11 个月每月存入 5 千元，到第 12 月突然存入 5 万元，基于单数据点比较的离群判别模式将认为该月数据显著异常而报告为离群点，而这 5 万元实际可能是一笔正常的年终奖金。基于时间序列相似度分析的方法则将多个数据点通过时间轴连接成曲线，由点扩展到线，对线与线之间的相似度或差异度进行分析，由此可将孤立事件串联而成有规律的行为模式理解，更能够反映出人们在现实生活中的活动规律。由此可见，电子监管中的出口企业也同样存在这个规律，尤其食品的出口跟时间有着密切的联系。论文中的通过研究不同的异常点检测算法，找到了一种基于时间序列相似度的离群点检测模式。《自动化与仪器仪表》2012年第1期（总第159期）81收稿日期:2011-10-20作者简介:张书晔(1965-),男,甘肃榆中人,工程师,主要研究方向为科研管理、数据挖掘。*基金项目:教育部科技统计研究课题(kjtj-2010-09);甘肃省建设科技计划项目(JK2011-25)孤立点挖掘在高等学校科技统计数据分析中的应用*张书晔1，邬开俊2（1兰州理工大学科技处甘肃兰州，730050）（2兰州交通大学电子与信息工程学院甘肃兰州，730070）摘要：孤立点挖掘是一项有价值的、重要的知识发现，研究孤立点的异常行为能发现隐藏在数据中有价值的信息。本文在介绍孤立点及其挖掘算法的基础上，讨论了基于距离和的孤立点挖掘算法，并将该算法创新地应用于高等学校科技统计数据分析中。结果表明，该算法可以有效地挖掘出高等学校科技统计数据中的异常现象，对数据的真实性的核对起到非常重要的作用。关键词：孤立点；数据挖掘；科技统计；数据分析Abstract:Outlierminingisameaningfulandimportantknowledgediscoverytask,valuableinformationhiddenindataisfoundbyresearchingtheabnormalbehaviorsoftheoutliers.Inthepaper,theknowledgeofoutlierandthealgorithmsfordetectingoutliersareintroduced;analgorithmbasedondistancesumisdiscussedtosolvescienceandtechnologystatisticsdataanalysisofcollegesanduniversities.Theresultsofexampleindicatethatthealgorithmcaneffectivelydigouttheabnormalphenomenonanditisveryimportantforthecheckofdata.Keywords:outlier;datamining;scienceandtechnologystatistics;dataanalysis中图分类号：TP301文献标识码：B文章编号：1001-9227(2012)01-0081-030引言教育部高等学校科技统计工作自1985年开始上报以来，已有了20多年的历史，每年的科技统计上报工作中，数据量大、数据繁琐，虽然各个学校开发了一些软件，给统计人员减轻了一些工作量，但由于统计人员缺乏一些信息意识和技术，只能够通过简单的排序和统计功能获得一些表面的信息，对一些隐藏在大量数据中的信息一直没有得到应用。在教育部高等学校科技统计上报过程中，经常会出现“异常数据”，如一个本科院校年龄在50岁以上的教师职称在中级以下，一个非科研编制的教师非全时工作量在1以上，一个获得国家级项目的教师发表科研论文0篇。出现这些“异常数据”的原因可能有多方面的，一种情况是：统计人员在录入数据时出现了错误；例如把副高的代码录成初级的代码。二是可能这些“异常数据”确实存在，例如某教师因为个人原因年龄超过50岁职称仍然在中级，一个获得国家级项目的教师2009年发表科研论文很多，而10年发表科研论文确实为0篇。我们把这些“异常数据”统称为孤立点。我们为了保证数据的真实性，尽可能找到这些孤立点，从而来确定是否是录入错误。可是，一旦将数据录完，统计人员很难用人工的方式发现这些错误，如何用计算机来找出这些孤立点，对提高数据的真实性具有非常重要的意义。1基于距离和的孤立点检测算法1.1孤立点挖掘孤立点挖掘又称为孤立点检测、异常检测、偏差检测、例外挖掘、小事件挖掘、挖掘极小类。孤立点是数据集中与众不同的数据，它们不符合惯常的数据模式，其产生机制不同于一般数据。孤立点挖掘是数据挖掘技术中一种非常重要的研究方向，它是从大量复杂的数据中挖掘出存在于小部分异常数据中与常规数据显著不同的数据对象。孤立点也叫做异常数据，而异常数据往往会包含着重要信息或者会带来非常严重的后果。孤立点挖掘研究大多集中解决两个问题[1]，即对孤立点的定义和有效挖掘孤立点的方法。孤立点挖掘可以定义为：给定一个含有n个数据点或对象的集合，及预期的孤立点的数目k，发现与剩余的数据相比是相异的、不一致的，或异常的k个对象。孤立点检测算法主要可以分为基于统计的算法、基于距离的算法、基于偏离的算法[2]、基于密度的算法[3]。本文在基于距离的算法的基础上给出了基于距离和的算法，并将该算法应用于高等学校科技统计数据分析。1.2距离的量度在基于距离的孤立点算法中，一个很关键的问题是对象间的距离如何定义。在数据集中，每个数据对象用多个属性值来描述，属性的类型主要包括分类属性、连续属性、时间属性等。不同的属性类型用不同的量度方法来表述。基于距离的算法一般讨论的是连续类型数据的距离的量度。其中最常用的距离是绝对距离和欧式距离。绝对距离又称曼哈顿距离，定义[4]如式(1)所示：82(1)其中，n是指数据对象或数据点的个数，xij表示第i个数据对象第j个属性的值。而欧式距离定义[4]如式(2)所示：(2)至于具体使用哪种距离量度，要看具体的应用情况，而不同的距离量度方法可能会对结果产生影响。1.3基于距离的孤立点检测算法Knorr和Ng提出了基于距离的孤立点定义[5]：在数据集S中，对象O是一个孤立点，仅当S中至少应有p部分对象与O的距离大于d。也就是说，如果O在d范围内有不多于M个邻居，则称O是一个带参数p和d的基于距离（DB）的孤立点（n为数据对象的个数，M=n*(1-p)），即DB(p,d)。Rastogi和Ramaswamy给出了另一个孤立点定义[6]：孤立点是数据集中n个与其k个最近邻居的平均距离最大的数据对象，称为Dnk孤立点。1.4基于距离和的孤立点检测算法针对基于距离的孤立点检测算法存在的输入参数多，不容易确定，并且对参数比较敏感等缺点，在高等数学科技统计数据分析过程中，使用基于距离和(distancesum-based，DS)检测算法[7]。与DB(p,d)孤立点一样，DS孤立点挖掘算法使用同样的距离公式，如绝对距离或欧式距离，但不根据p和d来判定孤立点，而是先计算数据对象两两之间的距离，再计算每个对象与其他对象的距离之和。设M为用户期望的孤立点个数，则距离之和最大的前M个对象即为要挖掘的孤立点，这样可消除用户设置参数p和d的需要。基于距离和的孤立点检测算法如下：procedureFind0utlier(db，M，O)//输入：数据集db；//输出：M个孤立点fori=1todb.sizereadnextRecord(db，O)；//将数据第i条记录读到O中//计算O与数据集所有对象间的距离forj=1todb.sizereadnextRecord(db，q)；//将数据集db第j条记录读到q中dis=dis+distance(O,q)；//计算O与其它对象的距离和nextnextgetOutlier(O，M)；//取得dis最大的M个对象returnOend本算法距离的计算使用的是绝对距离，如式(1)所示。2高校科技信息系统中的孤立点分析高校科技信息系统中的数据挖掘大多利用关联分析或者分类分析，以发现一些大的模式。如获得国家级资助的项目一般发表的论文多，学历越高职称也越高。但关联规则在发现大的规则的同时也会忽略那些不经常出现的情况，有时这些例外情况往往是统计人员录入的错误。孤立点挖掘就是专门为发现例外对象而开发。本文的主要思想是利用孤立点检测方法，找出高校科技信息系统中的例外对象，这些对象往往容易被关联规则挖掘和分类所忽高校科技信息系统中，可以将检测的数据类型分为相关性数据、随机性数和时间序列数据。（1）相关性数据相关性数据是指在数据对象中，各个属性之间存在着某种联系。如对年龄、学历和职称这个对象中，如年龄越大、学历越高，职称相应的偏高。在高校科技信息系统中，相关性数据的孤立点检测可用于以下分析：在人员库中，可以通过年龄、学历来检测职称的合理性，来找出职称的孤立点，来核实是否是输入错误。可以抽取教师的年龄、学历、学位、职称等字段，利用孤立点检测出异常的教师。还可以找出学历和学位不一样的教师，来判断这些教师的学历和学位输入的准确性。在项目库中，可以抽取项目经费特别大的项目或者特别小的项目，用以判断是否是统计人员小数点点错了位置。还可以找出工作量超过1的教师。在项目-论文数据仓库中，用以检查有项目立项而无成果的教师，判断是否将该教师的成果忘记统计。（2）随机性数据随机性数据是指在数据对象中，对象的各个属性之间不存在联系，或者其联系可以忽略。如一个教师拿到横向课题和发表多少篇论文并无必然联系。（3）时间序列数据时间序列数据指在数据对象中，对象的各个属性之间存在着时间上的联系。如某篇论文获奖，必须先发表才能获奖。3应用实例与分析3.1数据选取实验数据源选自全国普通高等学校科技统计数据上报基表中的数据，选用甘肃省2010年科技统计上报数据中的一所高校数据作为实验数据。对其中基表1，如选取科技人员职称和学历作为最终测试对象，因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称，而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称，职称和学历跨度小，检测出来的孤立点孤立程度相对较低，故选取跨度较大的出生年月作为测试对象。选取三个指标：出生年月、学位和职称作为检测属性。3.2实验及结果分析用DS算法时，取M=20，算法返回距离的值最大的20个教师信息如表1所示。通过分析，可以发现孤立点数据中存在两种典型的孤立点类别。（1）孤立点数据远远偏离于正常值的范围，这类数据明显不合理，如表1中的序号1-4的4个数据，这类数据是真正的“噪声”，是由于录入错误导致的垃圾数据，对于这类数据，应该重新核实并修正错误。略。孤立点挖掘在高等学校科技统计数据分析中的应用张书晔，等（下转第85页）《自动化与仪器仪表》2012年第1期（总第159期）85随时随地满足接入需求，各种现场数据也能更高效、实时、安全传输到数据（调度）中心。以安阳华润燃气有限公司SCADA系统为例，公司数据（调度）中心和十个终端场站分布在三市六县区。其中五个较重要终端场站和一个抢险车设有视频监控数据，根据它们与数据中心地理位置，选择其中三个使用光纤链路，三个使用联通3G链路，接入采用公网与PPTP结合模式，系统结构图如图4所示。经过一段时间成功运行，不仅数据传输稳定，视频流畅，而且保证了移动抢险的实时性。图4某公司SCADA系统结构图5结束语VPN技术与3G通信技术相结合，能够使燃气终端场站（包括移动设备）随时随地接入，保证数据安全高效传输，在工业控制网络中展现出的极大应用价值，可为各类业务系统提供了良好的网络支撑。3G移动通信技术为工业监控领域开辟了新的思路，随着其在该领域的深入发展，必将展现出广阔的应用空间。参考文献[1]吴志盛,刘枫,张渝.3G工业适配器节点的设计 [J].工矿自动化,2010(10):60-63刘翔,吕兰,罗菊.3G技术在视频监控中的应用研究[J].视频应用于工程,2010,24(10):103-104.吴为刚,傅海.HSUPA打造3G信息高速公路[J].电信技术,2009,21(7):42-44.徐益强.基于3G的无线VPDN业务网的设计与实现[J].环境监控与预警,2010,2(5):27-30史翔.基于3G的SCADA系统虚拟专用监控网络[J].计算机工程与设计,2011,32(5):1558-1562.金涛,朱月珍,付向东.远程数字坐标导航和监控的警务报警系统实现[J].自动化与仪器仪表,2011(3):150-152.[2][3][4][5][6]（上接第82页）（2）孤立点数据偏离于正常值的范围，这类数据有可能是录入错误所致，有可能是真实的数据。需要用户重新核实，如是输入错误所致，应该修正错误。如果是真实的数据，这类数据往往是最重要的数据，如序号9和序号10的教师信息，不到30岁就已经是副教授，表明这两位教师在科研方面非常突出，我们应重点关注这一类教师的成长。综上所述，基于距离和的挖掘算法很容易挖掘出最大的M个对象。实际上，在计算完所有的孤立点后，用户可以任意指定M值，很方便的观察每个对象的孤立程度。这恰是我们对孤立点的定义的关键，因为检测的结果只是提供给用户一个参考，只有用户才能确定真正的孤立点。表1M=20时DS算法的检测结果4结束语孤立点检测在我国还没有引起足够的重视，相关的研究文献还很少，孤立点通常包含着重要的信息，因此研究孤立点的用户意义，帮助用户更好地理解孤立点具有非常重要的意义。本文将孤立点挖掘应用于高等学校科技统计数据分析中，结果表明该算法的有效性和合理性。算法只需要用户给出期望的孤立点个数，就能输出用户需要的结果，减少了参数的设置，易用性较强。不仅能为统计人员降低工作量、减少出错率，而且也能为科研管理部门提供很好的决策作用。参考文献[1]黄宏宇,林家祥,陈崇成等.离群数据挖掘综述[J].计算机应用研究，2006,23(8):8-13.Hanjiawei,MichelineKamber.数据挖掘：概念与技术[M].范明译.北京：机械工业出版社,2001.张卫旭,尉宇.基于密度的局部离群点检测算法[J].计算机与数字工程，2010,38(10):11-14焦誉,傅为忠.基于距离的孤立点挖掘在CRM上的应用[J].华东经济管理，2007，21(6):67-69.KnorrEM,NgRTucakovV．Distance-Basedoutliers：algorithmsandapplications．VLDBJournalVeryLargeDatabases，2000,237-253.RamaswamyS,RastogiR，ShimK．Efficientalgorithmsforminingoutliersfromlargedatasets．ProceedingsoftheACMSIGMODConference,2000,473-438．黄万华,陆声链,林士敏.孤立点挖掘在教务管理中的应用研究[J].广西科学院学报,2004,20(3):155-158.[2][3][4][5][6][7]

                    本文档为【离群点分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

离群点分析

你可能还喜欢