全部分类

搜索资料

首页 第二章-原始数据的处理方法

第二章-原始数据的处理方法

举报

开通vip

第二章-原始数据的处理方法第二章-原始数据的处理方法PAGEPAGE21原始数据的处理方法原始数据的处理是数据分析中极为重要的内容。在本节中，我们将介绍原始数据的来源及其特点，着重阐述原始数据初始变换的几种方法，并利用例子进行演示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征，如海况、有：（1）国家统计部门和行业部门的历年统计资料，这些多为社会经济指标；（2）有关业务部门的历年观测数据及其科学实验报告，这些多数为自然因素指标，如东海区渔业资源和环境观测数据；（3）选择有代表性的单位或年度，进行实地典型调查所得...

第二章-原始数据的处理方法

第二章-原始数据的处理方法PAGEPAGE21原始数据的处理方法原始数据的处理是数据分析中极为重要的内容。在本节中，我们将介绍原始数据的来源及其特点，着重阐述原始数据初始变换的几种方法，并利用例子进行演示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征，如海况、有：（1）国家统计部门和行业部门的历年统计资料，这些多为社会经济指标；（2）有关业务部门的历年观测数据及其科学实验报告，这些多数为自然因素指标，如东海区渔业资源和环境观测数据；（3）选择有代表性的单位或年度，进行实地典型调查所得的数据；（4）区域规划部门通过收集、调查、观察和计算积累的数据；（5）调查访问有实践经验的劳动者、生产技术人员、科研人员以及管理人员所得的数据；（6）国家有关部门制定的发展规划、建设方案等决策数据；（7）其它方面的数据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同，其类型也不同。从利用分析的角度来看，这些数据有以下几个主要特点：（1）不同的量纲。如渔业产值为元，渔业产量为公斤，水温为摄氏度，作业时间为天，航程为海里，捕捞努力量为吨、千瓦、艘、人数，CPUE为吨/天、吨/小时、吨/千瓦等。（2）数量级大小相差悬殊，有的数字仅是小数级，有的数字大到亿万。如渔业产值以亿万元或万元计算，而劳动生产率只有几十元到几百元；渔业资源量上千万吨或几万吨等。（3）大部分数据有一定的随机性，特别是统计或观测的时间序列或偶测值，不论是自然指标还是经济数据，都有随机变化，均有明显的摆动。（4）大量数据具有一定的灰色度，运用上述方法收集来的数据绝大多数是区域内各样点的平均值或统计值，在时间上或空间上并不是一个确切的白色参数，而是一个有上限、下限的灰色数。如某调查船进行的渔业资源和环境调查，其所得的数据只能是某一点某一时刻的数据值，但由于条件和仪器设备的限制会使数值产生误差，这一误差值的多少无法知道，因而产生了灰区。如某年某区的降水量，是该区内各次实际观测纪录的平均数，由于测量方法不同和在时间计算上引起的误差等，是无法知道的。同样的问题在一些经济统计数字中也存在。因此，严格地说，收集来的数据绝大多数是灰色参数，都具有不同程度的灰色度。第二节原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说，需要进行白化或淡化处理，以提高白色度，减少灰色度。也就是说通过信息的不断补充，使灰色参数逐渐成为一个比较接近实际的数值。数据白化处理的方法主要有：（1）直接采用距样点最近观测站的多年平均值。例如海水温度和盐度等，可采用多年来的观测平均值或近几天的平均值。（2）根据各个因素指标的等值线图，利用插入法计算其数值。如表层水温、盐度、海底地形等指标，各代表样点不完全有现成的准确观测值，可在“等水温线图”、“等盐度图”、“地形等高线图”上，利用插值法计算出其白化值。（3）结合实际情况和数据特征，确定合理的数据。如反映海洋环境质量的指标有有机质、含氮量、含磷量等。在使用时，我们不可能把所有的因子都输入模型，为了计算上的方便，可以归结为一个综合指标。即用该区域内最新资料，查出各样点的各项因素指标，然后用“极差变换”的方法求出变换后的数据，相加即可得到一个综合性数字。这样，可解决各因素间量纲不同和数量级大小相差悬殊的问题。（4）对经济指标进行预测。海洋经济的分类划区应当有相对的稳定性，同时应用的综合指标又应反映海洋经济的动态特征，所以，在使用相应的指标数据时，就需要先对指标数据进行发展预测，然后根据预测值进行分类划区。预测的方法很多，常用的是灰色系统GM（1，1）模型和指数递增率模型。（5）采用具有相同权数的相对数值。根据统计学原理，各个个体应该是等权的，但实际上各种统计对象个体不等积，不等形，也即存在着不等权问题。例如，各样点的海域面积、人口产量、产值等指标，绝对值差别很大，无疑是不等权的。如果用特定范围内海域比重、人口密度、单位平均产量、人均产值等相对数来表示，便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点，进行统计分析建立数学模型有一定的困难和限制，因此需要根据所建数学模型的类别，对原始数据进行变换。变换的目的主要是：（1）使指标数据尽可能呈正态分布；（2）统一变量指标间的量纲；（3）使两变量指标的非线性关系变换为线性关系；（4）用一组新的、指标数量较少的、相互独立的变量，代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计分析，要求变量总体上服从多元正态分布，且要求量纲一致。如判别分析要求变量呈正态分布；回归分析则要求因变量呈正态分布，要求各自变量与因变量之间有密切的相关关系。而聚类分析则要求各变量量纲一致，变量间互相独立。因此，数据的变换一定要根据数学模型的要求，有的放矢地进行。常用的变换方法主要有：（一）标准化变换计算公式为：=（i=1，2，…，N样点数；j=1，2，…，P变量数）式中：为变换后的数据；Xij为原始数据；为第j变量的算术平均值，即=；Sj为变量j的标准差，即Sj=。变换后的各变量数据平均值为0，方差为1，呈标准正态分布，各变量间有了统一的量纲，而两个变量在变换前后的相关程度不变。从几何意义上讲，标准化变换相当于座标原点移至重心（即平均值）位置，标准化变换适用于量纲不同且数量级大小不一的连续性数据。我们现在以陈新军的博士学位论文《渔业资源可持续利用评价》实证分析中有关数据进行说明。1978－1984年东海区渔业资源可持续利用系统的资源环境子系统如下：年份1978197919801981198219831984X12.642.722.732.722.642.632.54X263.1959.1246.4851.0648.1838.641.03X343.641.156.958.562.264.567.7X469.78559.44651.04743.15636.68429.15224.835X52.6092.2441.5471.4791.4351.2991.258X61.1781.051.0380.9560.9350.8750.891其中：X1为渔获物的营养级，单位为级；X2为优质鱼类产量占海洋捕捞产量的比重，单位为％；X3为非选择性渔具捕捞产量占海洋捕捞产量的比重，单位为％；X4为单位机动渔船的平均捕捞产量，单位为吨/艘；X5为机动渔船每吨位的平均捕捞产量，单位为吨/船吨位；X6为机动和非机动渔船每千瓦的平均捕捞产量，单位为吨/千瓦。在资源环境子系统中，各评价指标的单位不一样，因此需要进行初值化。现分别求出序列X1、X2、X3、X4、X5和X6的平均值及其标准差。则数据变换为：其他数据变换类同。则获得经过变换后的资源环境子系统的各个序列：年份1978197919801981198219831984X’1-0.290.861.000.86-0.29-0.43-1.71X’21.511.05-0.360.15-0.17-1.23-0.96X’3-1.25-1.490.050.210.570.791.11X’41.530.900.38-0.11-0.50-0.97-1.23X’51.751.05-0.29-0.43-0.51-0.77-0.85X’61.710.550.44-0.31-0.50-1.05-0.90（二）极差变换计算公式为：=式中：为变换后的数据；Xij为原始数据；Xjmax为第j变量原始数据的最大值；Xjmin为第j变量原始数据的最小值。极差变换后的数据有了统一的量纲，其最大值为1，最小值为0，所有数据变化在0~1之间。变换前后两两变量之间的相关程度不变，其几何意义相当于把座标原点移至最小值位置。极差变换适用于量纲不同、数量大小不一的连续型的原始数据的变换。同样以上述例子进行分析。先求出各个指标的最大值和最小值。它们分别为：X1max=2.73X1min=2.54X2max=63.19X2min=38.60X3max=67.70X3min=41.10X4max=69.79X4min=24.84X5max=2.61X5min=1.26X6max=1.18X6min=0.88则其数据变换为：其余数据转换类同。则可获得经过极差变换后的资源环境子系统各序列：年份1978197919801981198219831984X’10.530.951.000.950.530.470.00X’21.000.830.320.510.390.000.10X’30.090.000.590.650.790.881.00X’41.000.770.580.410.260.100.00X’51.000.730.210.160.130.030.00X’60.990.570.530.250.1800.04（三）均值化变换计算公式为：=式中：为变换后的数据；Xij为原始数据；为第j变量的平均值。变换后的数据有了统一的量纲，数值均大于0，且集中在1附近。其数学期望值为1，而变量与平均数之差的期望值为0。此变换适用于比例变量，如长度、体积、质量等。我们仍然以上述数据作为例子进行分析，我们已求得各个序列的平均值，则相应的变换值为：其余数据类同。则可获得资源环境子系统经过均值化后的序列：年份1978197919801981198219831984X’10.991.021.031.020.990.990.95X’21.271.190.941.030.970.780.83X’30.770.731.011.041.101.141.20X’41.561.321.140.960.820.650.55X’51.531.320.910.870.840.760.74X’61.191.061.050.970.940.880.90（四）初值化变换计算公式为：=式中：为变换后的数据；Xij为原始数据；Xi1为第i变量的初值（第一个数据）。初值化变换后的数据具有了统一的量纲，各数值均为初值的倍数，便于分析因素之间序列的关联性，因此适用于处理社会经济方面的统计数据。我们仍以上述数据作为例子进行分析，利用上述公式进行初值化变换：……其余计算类同。则可获得资源环境子系统经过初值化后的序列：年份1978197919801981198219831984X’11.001.031.031.031.001.000.96X’21.000.940.740.810.760.610.65X’31.000.941.311.341.431.481.55X’41.000.850.730.620.530.420.36X’51.000.860.590.570.550.500.48X’61.000.890.880.810.790.740.76（五）模块化变换计算公式为：=式中：为变换后的数据；Xik为第j个变量的第k个数据。这种变换就是将时间数据列，逐年作一次累加，组成新的数据列，即生成数时间序列。这种变换可用于时间序列的预测。这就是灰色系统理论建立数学模型、进行预测、动态分析等的建模机理和方法。我们以上述数据作为例子进行分析，利用上述公式进行模块化处理：……其余计算类同。则可获得资源环境子系统经过初值化后的序列：年份1978197919801981198219831984X’12.645.368.0910.8113.4516.0818.62X’263.19122.31168.79219.85268.03306.63347.66X’343.684.70141.60200.10262.30326.80394.50X’469.78129.23180.28223.43260.12289.27314.11X’52.614.856.407.889.3110.6111.87X’61.1782.233.274.225.166.036.92（六）滑动平均变换计算公式为：为避免数字上的循环，也可采用下式计算：或这种变换可以弱化时间数据的随机性，不同程度地消除了收集统计数据时的误差，为作进一步数据处理提高了可靠性和准确性。我们以上述数据作为例子进行分析，利用上述公式进行滑动平均变换处理：……其余计算类同。则可获得资源环境子系统经过滑动变换后的序列：年份1978197919801981198219831984X’12.672.702.722.702.662.602.57X’261.8356.2652.2248.5745.9542.6040.22X’342.7747.2052.1759.2061.7364.8066.63X’466.3460.0951.2243.6336.3330.2226.27X’52.492.131.761.491.401.331.27X’61.141.091.010.980.920.900.89（七）弱化算子和强化算子变换设X为原始数据序列，D为缓冲算子，当X分别为递增序列、递减序列或波动序列时：（1）若缓冲序列XD比原始序列X的递增速度（或递减速度）减缓或波动减少，我们称缓冲算子D为弱化算子；（2）若缓冲序列XD比原始序列X的递增速度（或递减速度）加快或波动增大，则称缓冲算子D为强化算子。1．弱化算子变换设原始数据序列X=（x（1），x（2），…，x（n）），令XD=（x（1）d，x（2）d，…，x（n）d）其中：x（k）d=；k=1，2，…，n；则当X为单调递增序列、单调递减序列或波动序列时，D为一阶弱化算子，XD为经过一阶弱化后的缓冲序列。若令XD2=XDD=（x（1）d2，x（2）d2，…，x（n）d2），其中x（k）d2=；k=1，2，…，n；则D2对于单调递增、单调递减或波动序列，称为二阶弱化算子，XD2为经过二阶弱化后的缓冲序列。2．强化算子变换设原始序列和其缓冲序列分别为X=（x（1），x（2），…，x（n）），XD=（x（1）d，x（2）d，…，x（n）d），其中x（k）d=；k=1，2，…，n-1，且x（n）d=x（n）；则当X为单调递增序列、单调递减或波动序列时，D为一阶强化算子，XD为经过一阶强化后的缓冲序列。若令XD2=XDD=（x（1）d2，x（2）d2，…，x（n）d2），其中x（n）d2=x（n）d=x（n）；x（k）d2=；k=1，2，…，n-1；则D2对于单调递增序列、单调递减或波动序列，称为二阶强化算子，XD2为经过二阶强化后的缓冲序列。我们以浙江某市某区的渔业产值数据（1983-1986年）为例进行分析，X=（10155，12588，23480，35388），单位为百元，其增长势头很猛，1983-1986年每年平均递增51.6%，尤其是1984-1986年，平均每年递增67.7%。但是由于渔业资源的有限性以及受捕捞能力和技术的限制，其渔业产值不可能无限地增长下去，今后也不可能一直保持这么高的发展速度。如果用现有数值直接建模预测，其预测结果人们根本无法接受。经过认真分析和探讨，我们认为增长速度高主要是由于基数低，而基数低的原因则是过去对渔业资源的利用不足。为此，在今后的渔业产值预测中，要采取弱化序列增长趋势，引入二阶弱化算子。其具体计算过程为：则一阶缓冲序列XD=（20403，23819，29434，35388）。则得到二阶缓冲序列XD2=（27260，29547，32411，35388）。我们利用二阶缓冲序列XD2建立GM（1，1）模型预测得，1986-2000年该市区的渔业产值平均每年递增9.4%，这一结果基本可以接受，与实际情况也较为吻合。

                    本文档为【第二章-原始数据的处理方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

你可能还喜欢

最新资料

资料动态

专题动态

久阅文学

暂无简介~

格式：doc

大小：1MB

软件：Word

页数：55

分类：

上传时间：2023-03-05

浏览量：0

热点搜索

工程技术项目经理工作总结与工作计划PPT模板网易云音乐运营建议 2021年学生活动的策划组织和实施方案PPT课件内蒙古自治区“五七工”纳入基本养老保险登记表北京市城镇居民基本医疗保险常见问题解答六朝文化世族的形成及其对江南文化的影响 what true education should do 机械行业系统的方案设计与总体设计忘不了的笑声作文350字（优品作文）民航局机关公开遴选公务员面试考生分组安排四年级下册音乐乐理知识检测试卷(笔试) 塔吊电梯使用时间表艾默生变频器参数调试高中语文 3_7 春末闲谈同步测控（含解析）语文版必修5 工程技术项目经理工作总结与工作计划PPT模板网易云音乐运营建议 2021年学生活动的策划组织和实施方案PPT课件内蒙古自治区“五七工”纳入基本养老保险登记表北京市城镇居民基本医疗保险常见问题解答六朝文化世族的形成及其对江南文化的影响 what true education should do 机械行业系统的方案设计与总体设计忘不了的笑声作文350字（优品作文）民航局机关公开遴选公务员面试考生分组安排四年级下册音乐乐理知识检测试卷(笔试) 塔吊电梯使用时间表艾默生变频器参数调试高中语文 3_7 春末闲谈同步测控（含解析）语文版必修5