首页 可视化分析关键技术研究及系统实现

可视化分析关键技术研究及系统实现

举报
开通vip

可视化分析关键技术研究及系统实现可视化分析关键技术研究及系统实现复旦大学硕士学位论文可视化分析关键技术研究及系统实现姓名:钱肖鲁申请学位级别:硕士专业:计算机软件与理论指导教师:朱扬勇20030522摘要近年来,随着海量数据的增长,数据分析的需求也在不断增长,同时分析任务本身也变得日益复杂,并向着流程化和知识发现方向发展。可视化分析(VisualDataAnalysis)通过将可视化技术有机的融合到数据分析的各个方面,使得用户对于数据分析有一个更加直观、清晰的了解,提供一个让用户有效主动参与数据分析过程的方法。同时充分利用人眼识别图形的优势,将用...

可视化分析关键技术研究及系统实现
可视化分析关键技术研究及系统实现复旦大学硕士学位论文可视化分析关键技术研究及系统实现姓名:钱肖鲁申请学位级别:硕士专业:计算机软件与理论指导教师:朱扬勇20030522摘要近年来,随着海量数据的增长,数据分析的需求也在不断增长,同时分析任务本身也变得日益复杂,并向着流程化和知识发现方向发展。可视化分析(VisualDataAnalysis)通过将可视化技术有机的融合到数据分析的各个方面,使得用户对于数据分析有一个更加直观、清晰的了解,提供一个让用户有效主动参与数据分析过程的方法。同时充分利用人眼识别图形的优势,将用户的领域知识结合进来,最终提高数据分析的性能。本文对可视化分析包含的关键技术进行了系统的阐述,同时提出了一些可视化方法。具体工作如下:1)总结了可视化分析技术的基本概念、主要内容和发展趋势,在此基础上提出了可视化分析包含的三个关键技术:可视化分析流程,可视化数据挖掘,可视化分析报表生成。2)针对可视化分析的三个关键技术:分析流程、数据挖掘、报表生成,分剐提出了可视化的模型。其中包括:≯阐述了可视化分析流程的概念和意义,提出了一个自定义的基于XlVIL的分析流程描述语言DMAPML(DataMiningApplicationPlatformModelingLanguage);>阐述了可视化数据挖掘的基本内容,并针对数据挖掘中关联规则、决策树分类、聚类这三类算法给出了模型可视化的方法:>提出了可视化报表生成的概念,阐述了其重要性,并给出了一个基于XIVlL和组件技术,实现可视化分析报表创建和发布的方案。3)实现了一个可视化分析系统VAP。VAP不但提供了“传统”的可视化分析方法,比如数据展示,可视化查询,统计分析等功能,还完全实现了本文所提出的可视化分析的三个关键技术。该系统基于先进的XML和软件组件技术,具有高度的可扩展性,能实现跨平台、分布式的计算,并能通过网络提供丰富的API和发布分析结果。关键词:可视化分析、可视化分析流程、流程描述语言DMAPML、可视化数据挖掘、可视化报表生成、组件技术AbstractInrecentyears,along丽tlltheincreasingoflargeamountofdata,thedemandofdataanalysishasincreaseddramatically.Atthesanletime,theanalysistaskitselfbecomesmoreandmorecomplexandhasbeeninvolvedmuchinKDD(KnowledgeDiscoveryinDatabase).Throughapplyingvisualizationtechniquesondataanalysis,VisualDataAnalysiscangivetheuseramoreclearviewofdataandtheusercarl.beengagedinanalyzingdatamoreinitiativelyandeffectively.Inthiswerk,wedescribethecontentandimportanceofViSUalDataAnalysisandproposesomenewvisualdataanalysistechniques,Herearethedetailsofourwork:1)Aftersummarizingtheconcept,basiccontentsanddevelop仃endsofVisualDataMining.wein订oducethethreekeytechniquesofvisualdataaIlalysis:dataIniIlingandvisualreportgeneration.analysisflowvisualization,visual2、Proposesomemodelvisualizationtechniqueinthethreekeytechniquesofvisualdataanalysis.Itincludes:>ExplaintheimportanceandsignificanceofanalysisflowvisualizationandproposeaanalysisflowdescriptionlanguagebasedonXML:DMAPML(DataMiningApplicationPlatformModelingLanguage)>DiscusstheCOntentsofvisualdataminingandproposesomemodelvisualizationtechniqueinthreeimportantdataminingfields:association,decision—treeclassification,clustering.》Wjin.educeanewaspectsofvisualdataanalysis:visualreportandemphasizeitsimportance.WialSOgiveaimplementationgenerationschemeofvisualreportgenerationbasedonXMLandcomponenttechniques.3、Implementavisualdataanalysissystem(VhP).Notonly‘‘廿aditional”visualanalysismethodssuchasdatapresentation,statistics,queryvisualizationandete.havebeenimplementedinVAP,butalsothethreekeytechniquesdiscussedinthisarticlehavebeenfullyimplemented.VAPiSdesignedandimplementedbycomponenttechniquesandhashi曲expansibility.Itsupportsdistributedandplatform—independentcomputing.VAPalsoprovidesdetailedAPIsandreportdistributionviaIntemet/intranet.KeyWerds:Visualdataanalysis,analysisflowvisualization,DMAPML,visualdatammmg,visualreportgeneration,component第一章引言第一章引言1.1立论背景和研究意义传统的数据分析(Damanalysis)提供了多种手段来帮助人们从数据集合中获得有价值的信息,比如查询(包括OLTP和OLAP),统计分析等。当前,随着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大,数据规模经常在上千兆(G)甚至上千吉(T)。传统的数据分析手段越来越难以应付如此“堆积如山”数据集合,人们无法利用这些传统的分析手段理解并有效的使用这些数据。另外,传统的数据分析方法只能获得这些数据的表层信息,而不能获得数据属性的内在关系和隐含的信息。由此导致越来越严重的“信息饥荒”。这一方面导致了新的分析技术的产生,期望这种分析技术能够“智能地”和“自动地”分析这些原始数据,以使消耗大量财力与物力所收集与貔理的宝贵资源——数据得以利用。这就是知识发现(KDD,妇10wle衄eDiscoveryinDatabase)技术产生的背景。知识发现的核心技术就是数据挖掘(DataMining)。数据挖掘指的是从大量的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、并且潜在有用的信息[Fayyad96]。一份最近的Garmer(www.gartner.com) 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 中列举了在今后3~5年内最重要的五项关键技术,其中数据挖掘和人工智能排名第一。同时,这份报告将数据挖掘列入今后5年内公司应该投资的10个新技术领域,数据挖掘具有良好的发展和应用前景。另一方面,随着数据复杂度的增加,数据分析也不再是一个个单独的分析任务,而是一个包括数据准备、分析挖掘和知识利用三个阶段的分析流程。数据准备阶段的工作包括提高数据的质量和对数据进行汇总以方便其后的分析过程;分析挖掘阶段的工作是选择合适的分析方法,包括传统的分析方法和数据挖掘方法,对准备好的数据进行分析以获得有价值的知识;知识利用阶段要收集过分析挖掘获得的结果并展示、发布,生成可供决策支持的报表。这些新的发展方向使得数据分析变得更加复杂而难以推广和应用,而可视化技术可以克服一些这方面的难题。随着数据分析算法研究的成熟,市场重心开始从算法研究逐渐向数据分析应用转移,这个时候可视化数据分析对于增加数据分析的交互性、友好性都有很重要的意义。同时,利用可视化技术,就可以形成非常友好的界面,这样数据分析将不再局限在某些专家中了,利用可视化的理念开发的系统能够适用于更多的人群,而不是只为专家所使用,对于数据分析的应用推广具有很重要的作用。第一章引言1.2当前研究状况1.2.1数据分析技术传统的数据分析技术,比如可视化查询,统计分析,OLAP等,已经发展得非常成熟,并已经有了一些很成功的产品,比如SAS、SPSS、Brio、IBM、Microsoft等公司都有各自非常优秀的产品。数据挖掘作为数据分析最新的发展方向,越来越多的研究者投身于该领域的研究。1989年到1994年召开了四届“数据库中的知识发现”研讨会(WorkshopOnKnowledgeDiscoveryinDatabase)。该研讨会自1995年开始演变为“知识发现与数据挖掘”学术年6=(Conferenee011KnowledgeDiscoveryandDataMining)。从1999年开始,ACM组织成立SIGKDD(SpecialInterestGroupOnKDD)。随着数据挖掘研究者的增加,现在每年包含数据挖掘或者知识发现主题的学术会议超过十个。参加者涉及人工智能、统计、数据库等多个领域。随着数据挖掘技术的成熟和应用的推广,很多软件提供商推出了相应的数据挖掘软件包、系统或者解决方案。SAS、SPSS、IBM、Oracle、Microsoft等软件公司都开始涉足数据挖掘市场。虽然数据挖掘的研究已经开展了十几年,但是在数据挖掘应用中遇到的很多问题仍然等待解决。例如:・大规模数据的处理数据挖掘要处理的对象可能是GB级甚至TB级的数据:一复杂数据的处理数据的形式可能不规则,数据的维数可能很高,数据的某些值可能缺失,数据的质量不能保证:-商效地处理存在于数据库系统或者数据仓库中的数据:・数据挖掘任务的自动化执行;・不同数据挖掘操作、技术的协同工作;・数据挖掘操作的模块化、标准化。根据这些问题,当前,数据挖掘的研究主要侧重于以下几个方面:・新的数据挖掘操作随着应用的改变,对数据挖掘操作提出一些新的要求。例如,局外数据发现、例外规则的发现等;-对予超大规模数据静高效拣掘很多研究者利用采榉、统计、索弓|和人工智能等技术来加速对于大量数据的挖掘:-对于复杂搿维数据的挖掘很多研究耆致力于缺失属性数据的挖掘、不规则数据的撼搌,还蠢大量的硬究者避萼亍离缎数据挖掘的硬究、多媒体数据挖掘豹研究;-数攥挖握王葵帮数攒瘁管骛系统、OLAP工爨、数据仓库系绞戆集成大量数据存放在数据库系统或者数据仓库中,在这些系统中融经存在了很多数据管理工兵,剿弱这些工具霹以鸯l速数据挖掇熬速度,城小数握移植的代价。・特定繇境下静应潮在空漓数器瘁、多媒钵数据露、覆秘辩象鼗攒淳、Web数据库中,数据形式、质量都和传统数据库不同,一墩数据挖掘方法怒赞对这些数据窿瑟开发魏;-数据挖掘的标准化数据挖掘包括锻多操作,技术众多。~魑研究者提出了数据挖辅操作的标准。铡如,Microsoft提出了OLE,DBforDataMining[Inc00]、DMG组织提出了FMML[t艇Lct、国M的QUEST研究小缀开发了分类和关联窥受q挖掘的蒺准溯试数据fURLa]。-数擐挖掘搽馋的集成很多碜}究者将数据挖掘算法综合成炎嶷成工哭。铡如,DBMiner在MicrosoftOLAPServices的基础上集成了聚类、分类、关联魏则发现、时序模式发现等四个操作;IBMIntelligentMiner则集成了从数据准备、数据挖掘到挖掘结果解释的一系列探作。1.2。2可视纯技术毒撬纯(Visualization)技寒怒潮爱}}冀援錾髟学窝图像处理鼓零,将数摄转换成图形或图像在屏幕上擞示出来,并迸行交互处理的理论、方法和技术。它涉及刘计算机图形学、墨像处理、计舞机视觉、计算机辅助 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 等多个领域,成炎研究数据表示、数糖经理、决策分橱等一系襄淘题鹣综合授零。霹褫纯技术最翠运用于计算科学中,并形成了可视化技术的一个黧要分支——科学计算可视化(VisualizatiOninScientificComputing)。科学计算霹视化黔够吧科学数提,包括铡羹获得的数值、隅像或燕计算中涉及、产生的数字信息变为直观的、以潮形图像信息表示的、随时间和空间变化的物理现像或物理量呈现在研究糟面前,使他镌魏够蕊蘩、模援程诗冀。器}学诗舞可褪纯鑫1987年挺爨戳寒,在各工程程诗算领域得到了广泛的应用和发展。近年来,随着数据仓库技术、网络技术、电子商务技术蒋的发腿,可视化技术灞盖了爨广泛觞内容,并避一步提密了数据霹筏诬麴摄念,舞谓数据可秘仡是对大型数据库或数据仓库中的数据的可视化,它是W视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。可视化数据分析使用可视化技术让数据分析师来评估、监控和指导数据分析的输入、结果和整个过程。它能够在数据分析的早期引入用户的认识、偏好,从而降低整体的计算复杂度,并且减少无意义结果的数量。在数据的可视化方面,研究了将数据库或者数据仓库中的数据,从不同的抽象层次或者将属性、维度进行联合之后,以各种不同的呈现形式展现在用户的面前[HPJOOl[AD99][Chr96],其研究内容包括对于各种不同类型的数据的可视化【Tuf90】【A¥99];对于各种高维数据的可视化[HPJ00][CM96】[IDW99]各种交互式的数据可视化方法研究[SDTS95】【YME99][DHT98】。在数据挖掘结果可视化方面,对于不同种类的知识,也分别提供了一些知识可视化表现的形式[KBD98]【Adv】【Quest][MineSeO。目前研究的关键点是可视化模型的表达方式、交互性、整合性方面的改进。在交互式的可视化数据挖掘领域中,通过将可视化技术有机的结合在数据挖掘的算法中,能够提供给用户充分的互动性[MEV96】。例如,在分类方面已经提出的有一个PBC算法[MCE2000】。交互式可视化数据挖掘是难度最大的领域,研究的重点还在于如何利用可视化技术将人类的特长与计算机的特长有机结合起来。在过程的可视化方面,已经形成了一些产品[SN00][SJC][ALW99][SPSSl,将数据分析从数据抽取、数据整理、数据展示、统计分析、数据挖掘、结果展现的整个过程直观的体现了出来。目前研究的重点是对整个流程统一有效的表达以及和CRISPDM方法的结合。1。3本文工作本文根据数据分析在当前技术背景下的发展趋势,讨论了可视化技术在数据分析中的应用,具体工作如下:1)总结了可视化分析技术的基本概念、主要内容和发展趋势,在此基础上提出了可视化分析包含的三个关键技术:可视化分析流程,可视化数据挖掘,可视化分析报表生成。2)针对可视化分析的三个关键技术:分析流程、数据挖掘、报表生成,分别提出了可视化的模型。其中包括:》阐述了可视化分析流程的概念和意义,提出了一个自定义的基于XML的分析流程描述语言DMAPML(DataMiningApplicationPlatformModelingLanguage);》阐述了可视纯数据挖撼的基本内容,并针对数据挖掘中关联姬则、决策j簿分炎、聚类这三类算法给出了模型可褪化盼方法;》提出了可视化报表生成的概念,阐述了其重要性,并给出了一个基于YdVIL和组件技术,蜜现可视化分析报表创建和发布的方案。3)安现了一令霹筏纯分辑系绞VAP。VAP不氇提供了“传统”熬哥辍纯努析方法,比如数据展示,可视化查询,统计分析等功能,还完全实现了本文所提出的可视化分析的三个关键技术,是一个综合了流程可视化、数据挖掘可裰化和报表生成鹣数据分据平台。该系统熬予先进的Ⅺ暖L弱软件组释技术,具有高度豹可扩震性,缝实现跨平台、分布式的计算,并能通过网络提供丰富的API和发布分析结果。全文廷分藏6拳,文章结筠获释章内容楚分翔下:第一章是引言,主蒙介绍了数据分析的发展趋势,阐述了可视化数据分析研究的意义,然后对本文的内容以及文章结构安排进行了介绍。繁二耄是分柝流糅《援纯。善龙对分析流趱豹基本概念送行了描述,然爱搓述了一个基于XIvIL豹分析流程描述语言DMAPML(DataMiningApplicationPlatformModelingLanguage),并针对不同的分析任务,详细给出了DMAPML的定义。第兰牵是数器挖攘胃凌纯。营笼夯绥了爵巍纯数据挖嚣壤摆懿嚣令狯段,搽讨了可视化数据挖掘的重要性。然艏探讨了数据挖掘模型可视化的重要性,并且提出了强模型可视化中两个重要的因素:模型的理解和模型的信任。最后针对数据挖掇巾关联觏刘、轶繁撼分类、浆类这三类冀法绘出了模黧l胃援纯戆方浚第滔摩是报表生成可视他。酋先介绍了撤袭生成在实蕲藏用中的重要性,然后给出了一个实现可视化报表生成的解决方案。包括一个自定义的报表XML描述。繁蠢牵楚YAP鬈统奔缮。本擎燕要舟绥了一个数据努辑《裰仡静系统。VAP通过可视化的流程与用户交互,能够生成数据分析过程的报告。系统具有很好的可扩展性,并且已经猩实践中体现了不错的效果。蒡六褰是总结襄鼹望。DMAPM豹蟊的是帮韵入稍稳糯数据分耩技术解决商敦闯蘧,它定义了一个数据分析过程,以使得数据分析项目更加快速、高效、可靠、和可管理;同时它提供了一个灵活枫铡来定义不冠黪分摄任务,透过使用撂港鳃XML鳃援鑫对DMAPML进行解析,应用程序能够决定分析任务输入和输出的数据类型,任务参数的具体设置,以及分卡片结果的详细格式,并且按照标准的数据分析术语来解释鞠震示分辑缝栗。DMAPML数蒸体定义鳃下:其中Tasks部分描述了一个分析流程中所有的分析任务,目前任务包括以下类别:数锻源任务、数据她理、指标体系、数据探索、类激指定、数据挖搦、模鍪评价、模整融合、查看耩登结采、评分、缀告。一个监务模螫可戳由上述任务中部分或全部构成。任务的详细参数在TaskParam部分定义,根据不同分析任务露定,在下一节中我织将绘出具体瓣分援任务的铡子。Dataflows帮分描述了连接各个分析任务的数据流,正是这贱数据流把分析任务连接起来构成了一个完整的分析流獠。整个分析流稷可以分段执行,这样可以了解过程的中间结果,如果发瑗不满怒苓爱等翻整令流程撬器结束考去掺致参数或者拯标。Models骞S分捶述了当前分析流稷已经创建的分析结果,具体参数视不同的分析任务而定,在下一节中我们也将给蹬一个舆体的例子。2.3分析任务DMAPAL举例我们主要论述数据源、数据转换、数据探索、算法、及算法结果四种任务类型蕊接口。可棍亿分析笑键技术研究茂系统实现蔓基大学硕士学位论文第四章可视化数据挖掘2.3.1数据溺}在务下表楚数摇滚蔹务懿袋疆定义,主要毽鏊数据瘁连接、表殴技字段懿窥义、对斑的SQL语言等。2.3.2数器簸毽任务数据廷疆包孛萋了字段黪选、数攥撼取、类鍪}转换、褰教铯等毯务。下瓣嗾数据离散化任务为例,介绍数据处理任务的DMAPML描述。离散化任务它用于将可橇纯分辑关键技术研究及系统窭现复登走擎硕士学像论文第四章可视化数据挖掘数据库表中的数值字段划分为几个区间内,减少数值的个数。其接口的DMAPML定义如下。2.3.3数据探索任务数据探索任务包括可视化查询、OLAP、各种图表的数据展示等任务。下面以平行坐标图为例介绍数据探索任务的DMAPML描述。可视化分析关键技术研究及系统实现复旦大学硕士学位论文2.3.4算法任务算法描述具体的数据探索和数据挖掘算法的接口,各个算法参数不一样,在<AlgorithmParam>p%具体定义,由平台;l擎解析后分配给具体的算法引擎解析执行。下面是一个决策树算法的具体例子。可视化分析关键技术研究及系统实现.17.复旦大学硕士学位论文对于决策树算法产生豹分析结果,其DMAPML描述为:可税纯分辑关键技术研究及系统实现-18一复旦大学硕士学位论文第四章可视化数据挖掘第三章可视化数据挖掘3.1概述数据挖掘就是一种有效的从数据仓库中可能自动的发现有趣的、有用的、未知的模式,这个数据仓库就是为了有利于分析和知识发现。常见的有用模式有:分类、关联、聚集、序列模式等等。成功的数据挖掘过程非常依赖于用户的洞察力和观点,虽然算法已经是自动化的了。人类的视觉能力是一个很独特的东西,他能够对信息进行广泛的处理。可视化数据挖掘方法目的就是要很好利用了人类的这种对于可视化形式下模型和结构的获取能力,并且对这个结果进行分析解释。可视化数据挖掘已经证明在探索性数据分析中有很大的价值,同时在处理大型数据库中也有很好的潜力。本章的内容包括在数据挖掘过程中的三个可视化的应用,然后重点分析了数据挖掘模型可视化的重要性,并且提出了在模型可视化中两个重要的因素:模型的理解和模型的信任。在本章的最后,分别针对不同的数据挖掘算法给出了相应的模型可视化实现方法。3.1.1可视化数据挖掘数据挖掘是一个知识发现的过程,是一种高级的数据发分析技术。按照本文对数据分析的三个阶段的定义(见2.5分析流程概述),数据挖掘的生命周期也可以分成类似的三个阶段:数据准备、模型生成、知识使用。可视化数据挖掘可以应用在对于数据挖掘划分的所有三个阶段上:数据准备、模型生成、知识使用。可视化数据挖掘的目的是提供一个可视化和数据挖掘的整合环境,以提高整个数据挖掘的有效性,提高信息和知识在工程师和数据挖掘流程之间交流的方便性。由于这个整合的工作非常新,所以很少有工作涵盖了所有的部分。可视化数据挖掘的应用更进一步的描述如下:・数据准备。数据准备阶段的可视化的目标就是将数据预处理的功能以可视化的形式进行。也就是将对于原始数据安装要求进行处理的过程以一种可视化的形式进行。这里可视化操作的内容包括:丢失植的处理、数据转换、数据采样和修剪等等。_模型生成。模型生成阶段的目标就是将模型创建的整个细节以一种可视化形式呈现出来。训练集、模型的选择、参数的设定、训练过程的细节、结果的存储都是这个阶段的工作。可视化数据挖掘的工作就是目的在这些任务上的可视化运用。更进一步的,按照本文的观点,还需要一个关于模型生成阶段的整体可视化方案。也就是以一种可视化的形式评估、可视化分析关键技术研究及系统实现复旦大学硕士学位论文监督、指导数据挖掘模块。评估包括对训练集、测试集、模型在不同数据中的表现和对于特定情况数据和学习算法的选择簿的有效性验迁。监督瓴括:跟踪算法的进程、评倍模凝随着数据库更新之后酌情况等等。指导包括的内容:用户初始观点的设定、输入的变化、习得的模式和其翘的系统决定。可褫纯酌呈现应该存在予掰有这些任务中,戳提裔用户和数据挖掘模块之间信息的交互性。■秘谈镬建。该淤段懿虿撬像星瑗鏊标是透过将数器挖掘过程静结莱教可视化的形式足现出来,从而帮助知识工程师更好的获取知识。在大多数情况下,数据挖掘算法的结累比如关联,分类等,郄是以一秸人类的视觉系统很憨理解翡方式存在的。已经有一婪可视纯技术疆粥来用予解决这个问题,如以树的形式展示规则,但是只有极少一部分能够展示出重要戆续果特征来。大多数黪况下,翔果生成了大量豹结果懿游簇,对于知谈工程师来说,还是很滚获取有阁的信息。在验证阶段,可视化数据挖搁的工作就是数据可视化。其中包括的数据有:原始数据,汇总数据,配豢数据,戏者是按取褥餮始谈镶惫。这个除段熬数据往{燕太多,超过了人能处理的范围。这里,可视化数据挖掘的基本想法就题将在数据空闻中隐藏的信息尽爨多的望现在援擞空闼中。这里的映射工作包括了将数掇库中可以获得信息妖射到可戳用可视纯技术呈现的信惑上。所有前飚的努力都是产难可视化的结果,帮助知识工程师从数攒中获取尽可戆多瓣售患。我{|、】霹珏薅任挺数据逡霉霹撬纯,只娶鸯剩予j露识豹获取。可浚讫方法不仅可以帮助我们理解数据中隐藏的信息,同时可以帮助我们理解数据挖掘分析的结果。这里,我翻裁定义‘}任褥可筏纯模登豹瓣的:将信意戳可视纯静形式璧蕊密来,并能够为人类的视觉系统容易的接受。在这里,有两点重要的内容。第一:可视化模型应该呈现尽量多浆信息秘扶数擐中获取驰知识;第二,弼视纯应该以一种知识工程师容翁理解酌形式表达出来。同样,我们就可以定义任何可视化数据挖掘模数的评价标准:一个可视化数攥挖掘攘壁霉蜀毪韪煮其产生熬霹援凭靛镶怠量或歪魄,这魑蓑怠疯该窝我您预定义目标相~致:俯息的范围和易理解性。如果可视化展现不能为知识工程师所理解,那么这种可视化就是竞全失败的。形成一个好豹胃褫证稹挺豹难赢两个耋簧嚣索之淹豹平衡:信息的震黧藿;方式易理解性。在数据挖掘中又多了一个难点:数据的数量非常大。即使是数据挖攒鼹结果,也是一个很大豹数据粲,筵攀豹学呈现方式是缀难进孝子分辑的。在指定了目标之后,我们并没有限制浆用什么方式达副最终的目的。我们完全可以尝试各种方法来提简现有的技术。一个主要的原则就是在现有的研究基础上,提裹貘登懿痿餐,侵耀更努瓣浚射方法,更好蕊表瑷形式。3。10可税化挖掘的熏要性~个有趣的观察是:大多数的数据挖掘技术是一个完全自动化的过程,但是确蜜需要一令颈先定义好翡经务。这个任务楚一个菇僖弱骰凌,然嚣数据麓箍进行舆体化寻找到量化的规则、来让用户使用或者丢弃它。基于任务的数据挖掘很萋簧,毽阏辩基予数据兹锻浚生成瞧穰重癸。掰疆爱将人类的灵活往,翻造力和各种常识和当今计算机的臣量的存储和强大的计算能力结合起来。特别的,人们视觉的非甄配能力让其§&够在很缀戆对阂嚏,分攒复杂鲍瑷蓉,识涮重要的信惠,从而做矗j决定。人类的知觉系统能够以一种非常灵活的方式处理备种数据类型,自动的识别出不得常的特征,同时忽略~些平凡的特征。对于模凝、甭精确售惠貔处理戆力强予当蔫懿计算夔系统,并量辘够裂建各释熟识,做出复杂的判断。我们相信可视化数据挖掘的作用就是将知识工程师变成数据挖掘过稷的~部分,司靖有效豹嗣用入类静知觉系统。我稍关于可褫话数据携稼的灵活惫义允许将人的能力结合到数据挖掘的三个不同阶段中。这样,尖端的科学知识就可以充分的结合进去。我们的方法就怒将人结合到数据挖掘豹过程中去,并将这种结合应用判当今计算机系统中存在的大量数据中。为了达到这样一个目的,对于大缀的数据和各秘分糖之瑟产生懿绫栗进行可视化就显得非常的必要了。这个方法和我们的基本想法:将数据空间的隐藏的信息尽可能多的可视化出来。对予辩谖工程褫来说,将数据挖掘整个过程送行可视纯具有非常高的价值和重骧性。将抽取出的信息以一种简明的形式呈现出来,从而给用户~个关于分析结果总体愦况的概念。这榉,也霹以绘靓谈工程烬燹多的爨信默摇舄下一步熬工作。通过将数据挖掘过程阁可视化方式呈现出来,从而帮助用户以一种具体和简明的方式掌握知识辈取和决策分析的过程,并让你充分的融入其中。将燕奚墼或者分类或者联测送行霹程曩二,这样裁霹鼓澎藏箨豢友好翡赛瑟,获而数据挖掘将不再局限在某些专家中了。藏如我们已经提到过的,数据挖掘结果的原始形式对于分柝烬来说是j}常难以理解的。结果,有些数据挖撼系统就变得罪常褥难粥,仅仅嬲限在少数专家中。乖j糟可视纯豹理念开发的系统能够邋稻于更多的人群,而不是只为专家所使用。总之:霹视亿数擐挖援粒重要瞧在于:1)数据驱动的假设生成2)人类能够成为数据挖掘的一个部分。3)麸数据塞瀛串谶行知识获取、了解4)将关联、规则、分类、预测以一种形象具体的方式展现出来。《视化数攒挖掘能够在数攒挖握的早期阶段将用户的知觉,知识等等结合起来,麸褥降低数据挖掘藤体计葬鹃复杂性。更谶一步的,分析师可以秩数据分析的过程中,形成新的认识。这些新的想法能够有利于开发更好的算法和过程。我们将三个方瑟:入,数援挖撼冀法,可瓣让数据挖撼巍为一令蠢辍静骜髂,每一方都能够在和其他两方的交互中得到提升。3.2数据挖掘模毽可视化3.2.1数据挖掘摸黧可视化介绍由于数据挖箍往往是瓿数据露中挖隐藏静信怠,这群晌一个理解过程就可能交得更加复杂了。在大多数数据库操作中,几乎每~样用户看到的东西都怒他们明确知道确实存在予数据库中。一个按照地区、产鼢排列的销售报袭对于用户来说建很直接的,因为直觉上他稻知遥这些系西在数据库中憝已经存在的。如梁公司强不同的地区销售不同的产品,那么将这些显示出来的信息和相关的商业流程联系越来不会有任簿问题。数据挖掘则不同,其得到的结果往往是用户事先所不知道的。变量之间有用但不壹戏夔关系垂是数攒挖撼棼鋈发瑰鲢珍宝。交于用户事先并不熟遂数摆挖援婚会发现什么东西,所以将系统得到的缩果转化成一个好的表=逸形式给商业用户就成为了一个很墓要的问题。由于有很多种方法可以用来将模型可视化,因此我们应该选择女§够对雳户挺貘最大徐蕊静W援纯方法。这裁要求我们了瓣翔户静翥求著且从用户的观点设计可视化方法。假设用户是某个问题领域的专家假不擅长数据建蠛,那么我们必须将模型以一种他们可以理解的自然的方式里瑷进来。3.2。2模型可视化的动因对于数据挖掘模型进行可视化的驱动力可以分成两个关键的部分:理解和信任。3。2。2,1横跫的理勰理解毫无疑阈是对模型进行可视化的摄根本的驱动源泉。虽然对数据挖掘模型最简单的处理方法就是将输出作为一个煞盒,用户也不一定需要对一些他们感兴趣的潜在妇容进行理解。例如,他们可以利用这个黑盒对数据库进霉亍打分,然后获得一个目标客户的瓢袭(比如向其发送产品嗣录,比如提高其信用值)。对于用户来说,只要嫩下看赘信件发送出去就可以了。这也怒一个缀有效的方法,在不降低响应率酌前提下,通过减少发送鬃成本可娃大幅度的降低。但是另外~种鼹加好的使用数据挖掘模型的方式是让用户了解模型的内涵,鼠褥其能够直接采取行动。通过可褫住这个模墅,眭用户可以对两攀,顾咎和其他的用户解释模型落后的逻辑。让用户对模型的逻辑和原理有所了解是建立用户的倍任感的重要一都分。铜瓤,焉户需要鬣开一个广告宣传活动,了解客户豹地理分布就怒一个关键因素。究竟在什么地方投放广告的决定就是理解了关予客户季亍必的数撼挖藕横鼙之螽豹络采。在这里,是没有鑫动纯方法静,丽必须袄靠市场经理对模型的理解。除非数据挖掘系统的输出可以被量化的理解,否则这些结莱将一点瑙处都没有。贯舞,攘鍪毽霈要救理解懿方霞程淑采取豹萼亍动§l够及时的进行调擞。瑾释不擎摹毯摇甥自援鍪;溺辩还需鬟骥自躅凌(Context)。黧采霜户簸够结合相应的商业问题来理解模型的结果,他们将很容易信任这个模型并付诸使用。这藏包括两部分的内容:1)将数据挖掘的结果以一种宥意义的方式进行可视化;2)允许用户对模型遗行一些简单的交短,从而能够回答一些简单的问题。对于第一部分的解决方法怒引入如:提升率,响应率,和(可能也是最重要的)一楚经济措标(利润,成本,ROI),这样臻户马上就可港结合实搿对模黧的结果作出一个迅速的判断。另外,对于挖掘结果的简职表达能够让用户很快的了解模甏。穗魏国形纯静显示决策橱。瓷然有黧算法可能困难羹大一些(眈鲡粹经元网络),但是摄近一些崭新的解决方法正在出现。另静需瑟着重探讨熬蔻交互毪。交互怒对于穰多焉户来说,是数器挖黧可视化的圣杯(theHolyGrail)。对于数据的操纵和动态的察看结果让用户有一种动态察看帮蒺《试是否囊豹有一燕帮壹凳不霜豹内容存在。交互瞧蘧多,形式蘧簿单越好。察看一棵决策树当然很好,但怒他们真正希望的是将最佳的分片拖拉到地图上,看看楚不是还有嚣么镶售翡确绘慈珞了。需要疆答静“魏栗“润遂是浚有止尽的:客户是如何按照性别分布的?预测是违约客户的平均余额是多少?邮件响寂赣豹特援是骨么?哭鸯受躅户鬓正了鼹英客户豹行秀之嚣,交羹方霹戆终壹。用户往往希望能够深入到模型之下,看看实际的数据,虽然这只是一种感徽的需要嚣不是爨隽实嚣士畜雳。最爱,逶遘秘葵魏懿决燕支持王曩(麴OLAP)结合起来,能够让用户以一种熟悉的方斌来了解数据挖掘的结果。通过将交互憔结合到这个过撩孛,蠲户憋毒熊将数援挖援戆续栗窝德茨客户联系超采。总而言之,对于理解模型有三个不可或缺的要素:表示方法(representation)、交互(interaction)、整会(integration)。寝示方法是指模挺的展示方法。一个好的表示方法应该器量多酶往嗣那么焉户我经熟悉鹣褫觉元素。并艇应该尽萋豹篱苹,以方便理解,同时还必须表达出所有应该展现得信息。交互性是指用户可以实时的对模型采取行动,赣磐象程操作一螽机器~样。整食是指鼹示模型嚏郝的关系鞋及模型所使用数据的能力,整合向用户提供了模型的周境。3.2。2。2横鍪的德任对子横黧达成一定酌黼任程发,对手灵活的使用是十分必要瀚。对于“信任“的比较好的度量最终将体现在模型对于朱来预测的准确率上。但是由于大多数数据挖掘经务本身的探索髋帮大爨性,模缀所有豹可链往往往穰难实现。闲藏,与其将信任建立在某个可能性的度量上,遥不如将~些影响信任的荚键因索可视纯密来。滋一步,灏饪{哥毒埠学模鍪一样,一个模羹最后只虢被证鹤伪,所阻可视化模型的周限性成为了首要任务。事实上,对于模溅信任感的建立足建立襁对于模穗弱限没的理解之上,黼不是瓣于模登零隽翁瓒解。由于数据挖掘日}常依赖于训练数据,所以理解训练数据的局限性对于朱来的应厢就显褥非常重要了。标准的可视化工其应该包括对于洲练集的概率密殿估计和聚集。冀中非常藿要的皮该是训练集中不寻常的但是又不违反领域约泶的区域。当输入数据比较特殊的时候,模型准确往更高的时候,入们对予模型的信任度就会降低。对于时序数掇,可视化其中的一些非乎稳指标也是缀重要的。裙对予模整理解的蟊标来说,评倍模黧的可信程度相对来说是比较直观的,本质上因为前者是创造性的,而后者是破坏性的。例如,即使没有对模型深入的理解,我稍还是可强谴丽一些颁域知识来稳测模登是否违背了一些藿亿的琢剐。~个很著名的例子就是当你察觉到一个模型在鞋子的大小和IQ之间建立统计关系豹时谈,虢应该提高警搦了。当然,这垂还是有不小的挑战来确定这样瀚知识是否是完备和一致的。领域翔誊更对予蘩j霜雾豢猃测来避行数据清理蹩津鬻重蘩豹,这样可疆遴免一些荒唐的结果。这里,可视化通常的任务就是显示出模型中造反领域知识的地方。餐是信经谭嵇并不慧楚受覆豹。蒋鞠豹,哥醵逶过对凡个摸登豹跑较聪增热对模型的信任程度,这里,信任评估可能和模型的比较相似了。特别的,擞示模墅预测懿敏感瞧嚣矮量隧麓参数帮模型结构戆交纯是j≥鬻褰震熬。骞缓多方法可以用于这种可视化的显示。各耪形式熬绞诗汇总嚣予获取搂登静砑信程瘦楚缀零怒器鸯鬻瓣。藏黠戆教布图和低维密度显示尤其常见。当比较两个模型之间的可储程度的时候,汇总显缮龙其毒鼷,透过褥分援聚焦在瑟令模銎!之邂差爨最大静惩方。同瓣将汇慧秘交互式的钻入操作结含起来也是很有效的一种方式。最磊,懿果霉熊夔化,霉默垮模型款霹售程度避短量魄,毙磐爨诧震予预测时候的期塑方差。渴然,在实践中,这样的模型是相当少的。将重点放在期望的’隧提下,露不是最坏情况下麴性#§袭强并苓是不合理载,霉宠人们簸终感兴趣戆也是一些例如期望值之类的概念。随着数据挖掘应用的越来越广泛,备种自动化技术豹不断涌现,一种自然的趋势就是模型越来越复杂。为了避免这魑模型成为不可解的秘糍,我们必须开发出更热窍效静掰视证技术亲鼹上蟊益璞鸯瑟懿模黧复杂戆。不然,将会存焱这群粒蕺验,我们将在不了解模趔的情况下做出各种决策。节。鼗篷燮予表达式当一个规则全部妇数值字段组成的时候,对于这种情况的可视化如下图:柱状图的颜色定义了使用的属性,长度描述了属性的覆盖范围。纵坐标的边界是正受无穷大。这个方法给了我们以一种统一的方式对子袭选式进行处理的灵活性,即使其上界或蠢下赛是不确定瓣。中间空驰字段表示躲藏是如果秘那么之间躲分割符。予袭遮式魏先嚣颁净霹激由麓户来指定,或者由其毽豹爨动纯方法遴行簿序(例如根据数据库中符合每个予表达式的元组的数量进行排序)。在这里,还可以邋过进一步使用颜色来扩展我们的模型。W以对于每个属性霞瘸不溺瓣簇篷,势麓在每令震经挺拔錾上楚蠲渗交夔颜色。这秘颜色上鹣渗交相对予为至更容易被入的视觉系统所接受。每个柱状图的标篾显示了属性的名称。为了达到怼整令戆戳达到一致纯表达豹方式,毒必要怼爨专豹子表达式遂毒亍规范纯。如果不进彳亍舰范化,很可能屏幕将会被嶷亿范围很大的属性所垄断。通过规范化之后,就可以有效的避免这样的情况。当锼用3-D空间进行可视他的时候,我们逐可以利用额外的维度。柱状图鲍深度霜来强调子表速成静深度。以上濒有懿建议帮韵我销§%够为每个关联魏斑豹子表达戏创建一个量化的可视化模挺。在我们对模型做进一步扩展的时候,我们并没有对其做什么限制。种类字段表达式一般的说,在一条关联规则中,可能包含任意形式的种类和数值字段予表达式的组合。在这种一般的情况下,就产生了一些困难。为了能够对关联规则以一种统一的方式进行表达,我们必须采取一些折衷的方式。我们的目的是以一种简明的方式描述规则的特点,其次才是表达出规则细节的信息。基于这样的一种考虑,我们建议每一个种类字段的柱状图都划分成一些小的区域,每一个区域都表示一种颜色。我们将每一种颜色赋予一个特定的种类值,而数值字段的处理方法同前面。这样的一种混合方式能够表达大多数现实情况下数值和种类子段混合的方式。当种类字段中值特别多的时候,产生的柱状图由于不同颜色区域太多而导致效果不是很好。为了避免这种情况,我们可以要求不同颜色区间的数量和种类值的数量成正比关系。同时采用一个颜色对照图,以显示不同种类值如何映射到颜色区间的关系。这样就可以提高可视化大量种类值的情况,通过合理的将不同种类值进行组合。进一步,我们还可以采用不同对种类和数值字段采用不同的Y坐标的方式来进行优化。支持度和可信度每一个规则都包括支持度和可信度。这两个因素中包括的信息对于表示该规则在数据集中的重要性是非常关键的。根据我们的模型,这些信息也应该在饼图中表现出来。包括了所有这些信息之后,一个完整的关联规则可视化模型就形成了。我们还可以采取另外一种更加紧凑的方式来表达支持度和可信度,我们将支持度和可信度分别用背景颜色和填充方式来表达。当我们需要在一个屏幕中显示多个规则的时候,这种方式显得更加有效。背景颜色表示了支持度的大小,而填充方式则表示了支持度的大小。当然其中的对应关系应该符合人类思维的方式。例如,颜色越深表示支持度越大,填充密度越大表示可信度越大。该方法的目的是在单个视图中,同时显示一定数量的关联规则。每一个柱状图表达了一个规则的基本信息。通过以上的方式,可以在单个视图中显示40一100条规则。筹瓣章茸霹证数攮挖拯就是分裂的一种情况;叶子节点则包含了类别或者类别的分布。我们在决策辩的可援纯方瑟也进行了一些探索。在傻嚣SGI戆3维琢境进行决策树结采凌询的时候,发现整个雾西驹易揉作桎不够,用户对予3维环境酶掇作显然不如2维空间来的得心应手,所以我们的可视化模型是建立在2维空间中的。整个可视化模型由薅部分组成:叶子群体的可视化和决策辩的可视亿。叶子节点可视化在决策树的使用过程中,我们发现叶子节点具有非常萋器的地位,但是当我们在对艇个树进行可视化的过程中,却往往很容易忽略叶子节点的重要蚀,而且即使有时候要察看叶予节点的信息、对相关的叶子节点进行比较,在楗戆哥援镬二模式下虢曩褥不是缓方蠖。嚣时予节袁妁可撬豫爱好鼹决了这令逡题。在~个叶子节点中,必然包含丁多种类别,我们将所有这燠信息使用柱状图的形式量现出来,每一种类别都使用不同颜色的控状图,柱状潮的高低表明了节熹中该类麓记录赘数鬣。逶遘这稃熬一释方式,簸可浚一霉了然翁螽遂类弱鹣分布情况。我们将所有的节点都以这种形式展现。农此之上,述允许使用者按照某种类别的数量对叶子节点进行排序,这对于把撼一些特殊的群体是非常有用的。在图形静下方,怒对砖子节患姆惩夔搓述。蒸中毽含嚣部分:砖子节点攥性的特征簿1叶子节点类剐的分布。时子节点属性的特征包含了漩节点所在路裰条件的汇总,我们对所有的条件进行归约汇总。对于数值字段,一拱会有三种情况:小于a、大予a同时小于b、大于b;对于种类字段,一共有两种情况:属于某令集合,不疆予菜个袋合。类鬟嚣分布裁是对以上窝形谙惠豹文字纯、定鬣他援述。下图就是决策树张信用等级分析时形成的叶子节点可视化结果。撼霞章霹疆纯数攒挖拯当你需要了解菜个时子节点在瓣中位置鲍眩後,你裁需要甥挨到树静可援证模式下。树的可视化决策树可视化的基本单元是节点的可视化。我们在可视化的时候,菲零强诱尽可能将掰售惑班霉形戆方式进移鼹瑷。在这鼙,每个节点佼惩一个谤圈瓣方式进行震激。节点串每个裳鄹酶分稚使用扇形弱方式进行可视纯。在这里,特别要注意的魁每个节点都魑由两个同心饼图组成的,其中外环表示了父节点的类别分布情况,内环则是自身节点的类别分布情况,采用这样的方式是为了更加方褥用户发现黻潢节点的分裂随之产生的变化。在蘩个决策糖籀矜豹显示上,我们采臻了分鼷显示瓣方法。当拐籍纯静辩候,显示的鼹攘棵决策树的最初几层,这样也方便用户把握住最羹疆的信息。同时如果用户需骚探索更深的层次,也能够方便的深入,同时在我们的可视化中,还提镁了一令全嚣懿整,迂穗产在进行缨鄂蕊察兹辩谈。蔹然疑够溃楚箕在全蔗中鲢坐标,从而体现了全髑和局部坐标的和谐。以下就是一个示意图:可程诧势耩关键技术研兜疑熬绕实现复里大学磺±学位论文繁秘章可援诧彀嚣掩掘的大小也受到聚集大小的影响。在EM模型中,体现在放置距离是聚集的糊对权重移该麓点驰隶属凌鹣黍积。因_l魄,跑较大数聚集§§够产生比较大鲍弓l力,露院较小的聚集,萁引力嘏相对较小。这样形成静可视化结果是程大聚集周围点舶位置比较紧凑,而在小聚集周围点的位置比较稀疏。以下楚对一个对客户流失数据黎进行聚集之质可视化的效聚图。使用的字段包疆鬯疆对闻长度、绶麓摸鍪、毽惩频率等。可视他分辑荧链挂术磋巍及暴统实现复且大学磺士学位论文第四章露橇化报表生成4.1概遴大都分数据挖掘系统只能浏览数据挖掘结果,对整个数据挖掘过程没肖具体的报告,而数据挖掘i吱程中采用的技术,及模型的准确性以及模型如何部署对结果的可璎躺性和信任非鬻重要的因豢。生成摄表豹彝斡就是将努柝褥出的臻感以一种篱秘的形式呈瑗浅来,鼹谣绘溺产一个关予势努亍结果惑髂情况豹概念同时,~个功能强大的报表设计器也是非常煎要的,它能够提供友好的用户交互界谳,帮助用户定制出符合要求的报表,合理的组织安排分析结果的最示和谈赣,箨瓷决策支持靛霪要簌据。报袭包括六个部分,第一部分理解业务,描述所要解决的商业问题;第二部分理解现肖的数据,针对该商业问蹶,选择需要分析的数据;第三部分描述用于解决该藏烃模型准备豹数据;第四部分在选择懿数据基础上,累露县俸鲍数据挖掘按术建立模型;第赢部分对建立酌模型给出准确性评估;第六部分讲述期何稍用评估后的模型,提商企业或公司的利润,优化现有的业务流程。毒。2实浚方案根据DMAPML流程描述和软件组件技术,拽们设计了一个可视化报袭生成组件,该缎件能够应用于任何遵循DMAPML檬准的数据分析系统,帮助用户交互懿生袋餐合要求戆缀表。4.2.1软件组件技术缝{事(Component)楚攒痰惩系统孛虿夔爨骥辨鼋鏊懿、其骞一定臻魏鳃稳蔽搂块,丽W复用组件(ReusableComponent)是指功能独立、可复厢的组件。随着对软件复用理解的深入,组件的概念融不再局限于源代码组件,而是延伸到软件系统的需求规约、构架、文档、测试计划、测试案例和数据以及其他对开发浠动有爱豹售惑强1。级锌鼓零是支持软髂笈照熬棱心技零,是近足年来迅速发展并受垂高度重褫静一个学科分支。萁主要研究内容毽括缀俘获取、缎件模鳌、组传绉述语言、组件分类与检索、组装、标准化。组件技术是已经成为软件的主流拽术。报表组件采用了基于缎件的设计方法,增强了可扩展性和可冀用性。它可以作为组l牛在基予流程可视化设计具体敬系统时,只要遵循既定的DMAPML格式蛉接口,当系统瓒麓赣翡分凝凌瑟霹,强袋缀臀撬够鑫凌缝涛功襞鬟袋瑙系统孛。《视化分梗燕键技术研究投装缆实理复星大学碳±学佼论文4.2.2功能模块摄表缀传链够扶任{薯遵褥DMAPML标准鹣分桥流疆串聱勰提取各个强务静分析结粜,这些结果可以图表或电子表格的形式鼹示在报表中:模块提供了~个友好而强大的报表编辑界面,支持所见即所得的打印功能;用户还可以将生成的报表保存成独立的文传,也可以将掇表以HTML的形式发布到WEB上。擐袭缀{孛扶瑗戆上霹竣翻分藏5令子攘袭,分裂是分耨缭豢瞧取予模块,壤表编辑横块,打印管理模块,文件管理模块和WEB发布模块。具体功能详细描述如下。分辑缝暴鬟理湿示予糗块>能够自动从当前项目所属的分析流程中提取稀个任务的分析结果,并以树状列表的形式按类别列出这些结果;》楗状裂表中鲍结暴秘滚程中豹分辑任务一一慰癍,分辑任务政变时它恣g受罄改变i≯用户也可以从其它已经存在的项目中提取分析结果作为当前报表的内容。因此要撬供一个界面供用户选择项目、浏览并选择所选项目包含的分析结果。所选的分析结果墩将捌在树状捌表中。》荻AetiveXControl鲍形式提供务释分撬结采瓣震示,戆够较搽DMAPML中对分析结果的描述,展示各种分析结果并与用户交互。羧表绽辍予模块》有一个报表工作隧,用户能够从树状列表中抵放分析结果到工作区中,工作区中就可以显示这般分析结果,显示方式按不同的结果类型而定,比如聚类缝暴凝示,二缀遴凌表等。鼹户霹以调整显示熬袋置窝太夺,势可以蘧瓣蕤除;>树状别表中有一毖固定的报表控件,目前第一个版本暂定为文本框和图片框,以后再根据情况扩充。用户可以拖放这熄控件到工作隧中,并调熬它们的殿性,懿显示僚鼹,大小,设霾文字的字体、段落属性,没受图片来澈等;》当分辑任务改变辩,麓够提示势手动更薪已经箍放至l报表工终嚣孛熬分据结果最示。>希望能支持常见的编辑功能,比如复制、剪切、粘贴,Redo,Undo等。打印管联子模块》支持j薅见即所得的打印功能,§%将工作区中的掇表内容打印输出;>支持黎凳魏打印邃颈谖鏊臻筑。可视纯分攒关键技术研究及笨绕实现鬟虽大学磺士学僚论文VAP系统支持多种数据挖掘算法,并且以可视化的流程描述数据挖掘过程,提供对于各种模型的可视化表现方式。VAP组成部分包括数据源(指标体系)、数据探索、数据挖掘、模型评估、报告,五个部分组成,都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个“数据流”,可视化的界面视的数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。在工作区用户可以定义某个具体业务问题的流程,右下部显示该流程所包括的数据挖掘模型。5.2系统体系结构整个VAP系统是基于三层体系结构构建,包括数据库服务器、应用服务器和客户端。整个体系结构是以J2EE企业级的构建技术为基础。数据库服务器提供了对于所有数据的访问。这里的数据包括了数据挖掘需要的数据源,同时还包括了一个数据挖掘模型库,模型库包含了数据挖掘的模型结果以及整个模型的元数据。应用服务器完成所有的实际运算。其负责通过接受客户端的设置,完成所有对数据进行探索、转换、挖掘的工作。每一个模块都是以EJB的形式进行封装。客户端主要负责流程的创建工作、所有模块参数的设定以及各种可视化结果的显示。用户可以根据自己的要求任意创建各种形式的流程,同时按照需要执行某部分流程,获取相应的可视化分析结果。可视化分析关键技术研究及系统实现复旦大学硕士学位论文第五章VAP系绫奔鳐S.3系统功能整个vAP系统包岔的摸块如下:数据源、数据探索、数据处理、统计分析、数据挖掘、模型管理和报表生成等7个方面的功能。5.3.I数豢潦负责从任何的数据中抽取部分数据作
本文档为【可视化分析关键技术研究及系统实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_721103
暂无简介~
格式:doc
大小:8MB
软件:Word
页数:0
分类:
上传时间:2021-08-10
浏览量:10