首页 第3章 探索数据

第3章 探索数据

举报
开通vip

第3章 探索数据null数据挖掘: 探索数据数据挖掘: 探索数据第3章 探索数据 什么是数据探索?什么是数据探索?数据探索的主要目的 有助于选择合适的数据预处理和数据分析技术 可以通过对数据进行直观检查来发现模式 数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。 对数据进行初步研究,以便更好地理解它的特殊性质.鸢尾花(Iris)鸢尾花(Iris)本章用到的数据集鸢尾花. 150种鸢尾花的信息,每50种取自三个鸢尾花种之一 三种花类型 (classes): Setosa(带刺的) Virginic...

第3章 探索数据
null数据挖掘: 探索数据数据挖掘: 探索数据第3章 探索数据 什么是数据探索?什么是数据探索?数据探索的主要目的 有助于选择合适的数据预处理和数据分析技术 可以通过对数据进行直观检查来发现模式 数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。 对数据进行初步研究,以便更好地理解它的特殊性质.鸢尾花(Iris)鸢尾花(Iris)本章用到的数据集鸢尾花. 150种鸢尾花的信息,每50种取自三个鸢尾花种之一 三种花类型 (classes): Setosa(带刺的) Virginica (杂色的) Versicolour(处女花) 四个属性描述 萼片长度和宽度(厘米) 花瓣长度和宽度(厘米)null汇总统计(Summary Statistics)汇总统计(Summary Statistics)汇总统计是量化的(如均值和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差),用单个数或数的小集合捕获可能很大的值集的各种特性 例子:家庭平均收入 大部分汇总统计只需要简单的计算就可得到结果 频率和众数(Frequency and Mode)频率和众数(Frequency and Mode)频率定义为 众数定义:具有最高频率的值 百分位数(Percentiles)百分位数(Percentiles)对于有序数据,考虑值集的百分位数更有意义. 给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。null例3.2  从1到10的整数的百分位数x0%, x10%,..., x90%, x100%依次为:1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0。按照惯例,min(x) = x0%,而max(x) = x100%。                            位置度量:均值和中位数( Mean and Median)位置度量:均值和中位数( Mean and Median)对于连续数据,两个使用最广泛的汇总统计是均值(mean)和中位数(median),它们是值集位置的度量。 均值和中位数定义 位置度量:均值和中位数( Mean and Median)位置度量:均值和中位数( Mean and Median)均值对于离群值很敏感;对于包含离群值的数据,中位数又一次提供值集中间的一个更稳健的估计。 截断均值(trimmed mean):指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。位置度量:均值和中位数( Mean and Median)位置度量:均值和中位数( Mean and Median) 中位数是p = 100%时的截断均值,而标准均值是对应于p = 0%的截断均值。 例3.3  考虑值集{1, 2, 3, 4, 5, 90}。这些值的均值是17.5,而中位数是3.5,p = 40%时的截断均值也是3.5。 散布度量: 极差和方差(Range and Variance)散布度量: 极差和方差(Range and Variance)连续数据的另一组常用的汇总统计是值集的弥散或散布度量。这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。 最简单的散布度量是极差(range)。 x的极差定义为:给定一个属性x,它具有m个值{x1,..., xm}   range(x) = max(x) - min(x) = x(m) - x(1)  散布度量: 极差和方差(Range and Variance)散布度量: 极差和方差(Range and Variance)极差:最大值和最小值的差 方差: 均值和方差对离群值很敏感,这样常常需要使用值集散布更稳健的估计. 绝对平均偏差、中位数绝对偏差、四分位数极差多元汇总统计多元汇总统计包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。 对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix)S表示 两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。可视化可视化 动机1:是人们能够快速吸取大量可视化信息,并发现其中的模式 动机2:解释模式 可视化可视化 数据可视化是指以图形或表格的形式显示信息. 成功的可视化需要将数据转化成可视的形式,使得能够借此分析或 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 数据的特征和属性之间的关系。 可视化的目标是可视化信息的人工解释和信息的意境模型的形成 例子:海洋表面温度 例子:海洋表面温度 以摄氏度为单位显示1982年7月的海洋表面温度 (SST) 这张图汇总大约250000格数据,容易看出,海洋温度在赤道最高,而在两极最低。 表示表示表示:将数据映射到图形元素(如:用点表示对象) 可视化是将信息映射成可视形式,即将信息中的对象、属性和联系映射成可视的对象、属性和联系。就是说,数据对象、它们的属性,以及数据对象之间的联系要转换成诸如点、线、形状和颜色等图形元素。选择选择 选择:删除或不突出某些对象和属性(如:PCA) 当数据点的个数很多(例如超过数百个)或者数据的极差很大时,显示每个对象的足够信息是困难的,有些数据点可能遮掩其他数据点,或者数据对象可能占据不了足够多的像素来清楚地显示其特征。 安排安排重新安排表中数据的重要性 例3.5:左图为具有6个二元属性的9个数据对象,对象和属性之间看起来没有明显的联系,但经重新安排后,右图显示出了数据的特点 null例3.6  考虑图3-3a,该图显示一个图的可视化如果将连通子图分开,如图3-3b所示,结点和图之间的联系就变得更加简单易懂                                                                                                                                                          可视化技术: 直方图(Histograms)可视化技术: 直方图(Histograms)直方图 通常显示单个变量值的分布 通过将可能的值分散到箱中,并显示落入每个箱中的对象数. 高度表示对象数 可视化技术: 直方图(Histograms)可视化技术: 直方图(Histograms)例子: 花瓣宽度 (10 和 20 个箱) null二维直方图二维直方图每个属性划分成区间,而两个区间集定义值的二维长方体 例子: 花瓣宽度和花瓣长度 从这个二维直方图,我们能看出什么特点? 可视化技术: 盒状图(Box Plots)可视化技术: 盒状图(Box Plots)盒状图: 它是另一种显示一维数值属性分布的方法 盒状图的例子 盒状图的例子 盒状图相对紧凑,因此可以将许多盒状图放在一个图中。 null饼图 饼图 饼图(pie chart)类似于直方图,但通常用于具有相对较少的值的分类属性。饼图使用圆的相对面积显示不同值的相对频率,而不是像直方图那样使用条形的面积或高度。 经验累计分布函数和百分位数图经验累计分布函数和百分位数图一个累计分布函数(cumulative distribution function,CDF)显示点小于该值的概率。 nullnull可视化技术: 散布图(Scatter Plots)可视化技术: 散布图(Scatter Plots)散布图 二维散布图,使用数据对象两个属性的值作为x和y坐标值,每个数据对象都都作为平面上的一个点绘制 一般附加的属性可用如大小、颜色、形状等来表示 散布图矩阵可同时考察许多散布图 散布图矩阵例子:鸢尾花散布图矩阵例子:鸢尾花可视化技术: 等高线图(Contour Plots)可视化技术: 等高线图(Contour Plots)等高线图 对于某些三维数据,两个属性指定平面上的位置,而第三个属性具有连续值,如温度或海拔高度。 对于这样的数据,一种有用的可视化工具是等高线图 可视化技术: 矩阵(Matrix Plots)可视化技术: 矩阵(Matrix Plots)矩阵 主要用于数据矩阵可视化,将数据矩阵的每个元素与图像中的一个像素相关联 这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。 如果不同的属性具有不同的值域,则可以对属性标准化,使其均值为0,标准差为1鸢尾花数据矩阵的可视化鸢尾花数据矩阵的可视化鸢尾花相关矩阵的可视化鸢尾花相关矩阵的可视化可视化技术: 平行坐标系可视化技术: 平行坐标系平行坐标系 每个属性一个坐标轴 与传统的坐标轴不同,平行坐标系不同的坐标轴平行 ,而不是正交的。对象用线而不是用点来表示。 当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有可能揭示有趣的模式。 平行坐标系显示结果可能依赖于坐标轴的序 鸢尾花的平行坐标系鸢尾花的平行坐标系nullnull其他可视化技术其他可视化技术星形坐标(Star Plots) 与平行坐标系相似,但坐标轴从一中心点向四周发散 所有的属性值都映射到[0,1]区间 每个对象映射成一个多边形 Chernoff 脸(Chernoff Faces)nullStar Plots for Iris DataStar Plots for Iris DataSetosa Versicolour Virginica Chernoff Faces for Iris DataChernoff Faces for Iris DataSetosa Versicolour Virginica OLAP和多维数据分析OLAP和多维数据分析联机分析处理On-Line Analytical Processing (OLAP) 由关系数据库之父 E. F. Codd提出. OLAP一般用多维数组表示数据 如何将数据转化成多维数组? 属性值需要离散化 目标值可以是计数或连续值等 例子: 鸢尾花多维数组例子: 鸢尾花多维数组离散花瓣长度、宽度为低、中、高 我们得到下面的表 – 注意计数属性 例子: 鸢尾花多维数组例子: 鸢尾花多维数组例子: 鸢尾花多维数组例子: 鸢尾花多维数组二维表切片 这些表告诉我们什么? 分析多维数据: 数据立方体分析多维数据: 数据立方体数据的多维表示,连同所有可能的总和(聚集)称为数据立方体分析多维数据:转轴(pivoting)分析多维数据:转轴(pivoting)转轴是指在除两个维之外的所有维上聚集。结果是一个二维交叉表,只有两个指定的维作为留下的维 分析多维数据:切片和切块(Slicing and Dicing)分析多维数据:切片和切块(Slicing and Dicing)切片是通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元. 切块通过指定属性值区间选择单元子集. 这等价于由整个数组定义子数组 在实践中,两个操作都可以通过在某些维上聚集来实践分析多维数据: 上卷和下钻(Roll-up and Drill-down)分析多维数据: 上卷和下钻(Roll-up and Drill-down)属性值有一些可以组织成树或格. 例子:日期由年、月、日组成 我们可以按月聚集(上卷)销售数据 我们可以将月销售总和分解(下钻)成日销售 这要求基本销售数据的时间粒度是按天的
本文档为【第3章 探索数据】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_378195
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2011-03-17
浏览量:17