基于因子
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
的学生成绩信息挖掘
一、研究背景
进入21世纪以来,高校学生的综合素质培养越来越成为关注的热点。如何科学地对学生的综合成绩进行评价也越来越受到教育人士的重视。在中国的目前,大多数高校采取的是以学习成绩加权平均的传统评价方式,但这一方法存在很多弊端,比如说它掩盖了学生的个性,对学生的评价不够全面,不能够突出学生的独特优势和特点。这就大大降低了评价本身激励、调节等作用的发挥,使得很多学生一味地追求总成绩,而忽略自己的特长发展和自身成长。
2002年12月,国家教育部公布了体现全新教育理念的中小学评价与考试制度改革
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
,要求评价内容要多远、评价方法要多样。就在即将要来临的高等教育“大文大理”教育改革中,如何正确地评价一个学生,就显得更为重要。一个好的评价体系,应该形成有效的激励机制,全面并且有针对性地评价学生,使得学生能够了解自我,发展自我优势,扬长避短。进而也帮助学校和用人单位能够了解学生情况,更有针对性地选拔人才。
针对这种按照综合成绩对学生进行笼统排队的方法所存在的种种诟病,考虑到现代教育改革对科学评价方式的迫切需求,本文将利用因子分析的方法,尝试提出更为科学、全面的评价方面,尽力能从学生的考试成绩中挖掘出最有价值的信息。
二、数据说明
本案例的数据来自于北京师范大学某专业21名学生,前两个学年的部分考试成绩。成绩来源于教务处内部数据库,可信度与准确度都较高。数据均为百分制的数值型数据,代表每一名学生在这门课上的所得有效成绩。
本次研究将主要运用回归分析的方法对数据进行研究。具体包括线性(逐步)回归、参数检验、显著性检验等方法。
三、研究方法
其实对于怎样科学、综合评价一个学生质量和水平,一直以来都困扰着很多教育工作者和评价计量学家。有的学者通过相关分析、回归分析等手段来探究学生成绩与某些指标之间的关系【1】,有的是以学分绩点为标准来对学生成绩进行分析【2】。美国哈佛大学的著名心理学家加德纳曾经提出了多元智力理论,该理论认为人类的所有智力大体分为以下七类:语言智力、节奏智力、数理智力、运动智力、自我认知智力和人际关系智力。本文从其中得到想法:是否能利用因子分析的方法,将学生各个学科的成绩降维为类似于多元智力理论中的分类。
因子分析是指研究从变量群中提取共性因子的统计技术。最早有英国心理学家斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而猜想是否存在某些潜在的共性因子,或称为某些一般智力条件影响着学生的成绩。因此分析可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,达到降维的作用,还可检验变量间关系的假设【3】。
四、数据检验和预处理
(一) 奇异点的剔除和数据的筛选
由于部分同学没有选修某些课程,加上某些同学由于特殊情况存在缺考现象,对于这些课程进行了删除,重新筛选出了部分课程共计15门。最后使用的数据是21名同学两学年中共15门课程的成绩。
(二) 前提条件检验
因子分析是将多个实测变量转换为少数几个不相关的综合指标的多远统计分析方法,它要求自变量之间要有一定的关联,表现出一定程度的共线性。因此在进行因子分析之前要先进行检验。检验方法主要有以下三种:相关系数矩阵、巴特利球形检验、KMO检验。
一般来说,当变量之间的相关系数一般都大于0.3时比较适合做因子分析。而巴特利球形检验用于检验相关阵是否是单位阵,即各变量是否独立,检验的零假设是“相关系数矩阵是一个单位阵”如果巴特利球形检验统计量的数值较大且符合显著性检验时,就认为变量之间相关,适合进行因子分析,反之则不能拒绝零假设,不适合做因子分析。而KMO是用于比较变量间简单相关系数和偏相关系数的指标,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近1,意味着变量间的相关性越强,越适合做因子分析。Kaiser给出的常用kmo度量标准如下:
<0.5
0.5-0.6
0.6-0.7
0.7-0.8
0.8-0.9
0.9-1
极不适合
不太适合
一般适合
比较适合
很适合
非常适合
表格1 KMO度量标准
根据以上检验方法,利用SPSS检验结果如下(相关性系数矩阵见附录):
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
.728
Bartlett's Test of Sphericity
Approx. Chi-Square
204.842
df
105
Sig.
.000
表格2条件检验
由检验结果看,相关系数矩阵大部分都大于0.3;KMO值为0.728,比较适合做因子分析;同时巴特利球形检验的P值为0.000小于0.05,拒绝原假设。
综上所述,对于本研究中的数据,基本符合因子分析中的前提假设。
五、具体计算
学生在大学期间所修课程众,但是不同课程之间存在某些或多或少的联系,因为无论是哪些课程——公共课、专业课、选修课等,决定其成绩高低的都是逻辑思维能力、记忆能力等等,只要能找出这些潜在的、共同的因子,那么就可以化繁为简。而因子分析的基本思想就能体现出这些。
首先建立正交因子的模型如下:
其中
表示学生成绩,
表示成绩背后隐藏的“共同因子”,
表示一些不可测量的误差因子。用向量的方式进行表示,则上式可看作是
。
而其中
构成的矩阵A是被称为因子载荷矩阵,
表示为第i门课成绩在第j个共同因子上的载荷。而因子分析的目的就是通过实际数据
来求解载荷矩阵,据此对公共因子进行归类和推导。在提取因子的时候,可利用主成分分析法、最小平方法、主因子解法、极大似然法等等,本文采用比较普遍的主成分法。
六、结果分析与模型修正
(一) 结果分析与说明
根据上述方法的过程,首先得到方差贡献率表如下:
Total Variance Explained
Component
Initial Eigenvalues
Extraction Sums of Squared Loadings
Rotation Sums of Squared Loadings
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
1
8.102
54.014
54.014
8.102
54.014
54.014
4.677
31.178
31.178
2
1.531
10.206
64.220
1.531
10.206
64.220
3.663
24.420
55.598
3
1.379
9.194
73.414
1.379
9.194
73.414
2.672
17.815
73.414
4
.764
5.094
78.508
5
.710
4.733
83.241
6
.561
3.738
86.980
7
.552
3.677
90.657
8
.442
2.947
93.604
9
.336
2.242
95.846
10
.196
1.308
97.153
11
.158
1.056
98.209
12
.107
.713
98.922
13
.081
.539
99.462
14
.050
.336
99.798
15
.030
.202
100.000
Extraction Method: Principal Component Analysis.
表格3方差贡献率表
从上述结果可以看出,在选取三个公因子之后累计方差贡献率就已经达到73.414%,第四个特征根相比下降比较快,因此这里选取了三个公共因子。而下面的碎石图也能从直观上印证这一点:前3个特征值的变化比较明显,而后面12个变化都比较缓慢。
图表1碎石图
在确定抽取的公共因子有三个之后,可以来看选取的因子的解释能力,这一点通过公因子方差表来体现,结果如下:
Communalities
Initial
Extraction
线性代数
1.000
.750
数据库
1.000
.772
普通物理学2
1.000
.754
毛泽东思想
1.000
.870
数理方法
1.000
.775
windows程序设计
1.000
.785
matlab基础与应用
1.000
.781
计算机基础
1.000
.599
大学数学1
1.000
.742
管理学原理
1.000
.795
经济学原理
1.000
.592
大学数学2
1.000
.764
信息管理概论
1.000
.621
C语言
1.000
.660
普通物理学1
1.000
.752
Extraction Method: Principal Component Analysis.
表格4公因子方差表
从表格4可以看出,所有课程信息抽取比例都超过50%,大部分都超过70%,这意味着这三个因子已经都能反映出课程成绩大部分的信息,解释能力已经满足要求,并且遗失的信息也不是很多。
得到的载荷图如下:
Component Matrixa
Component
1
2
3
线性代数
.861
.035
-.083
数据库
.837
-.129
-.232
普通物理学2
.581
.229
-.604
毛泽东思想
.456
.694
.423
数理方法
.829
-.027
.294
windows程序设计
.870
-.118
.115
matlab基础与应用
.806
-.093
.350
计算机基础
.535
-.430
.358
大学数学1
.765
.176
-.355
管理学原理
.736
-.285
-.414
经济学原理
.554
.516
-.138
大学数学2
.854
.107
.152
信息管理概论
.692
.371
.074
C语言
.733
-.251
.245
普通物理学1
.743
-.425
-.138
a. 3 components extracted.
表格5载荷图
为了获得意义明确的因子含义,在这里我们将因子载荷矩阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下,通过此法,我们可以更加清楚的来对因子进行定义。
Rotated Component Matrixa
Component
1
2
3
线性代数
.541
.571
.363
数据库
.542
.672
.165
普通物理学2
-.007
.837
.232
毛泽东思想
.145
-.053
.920
数理方法
.732
.244
.425
windows程序设计
.724
.409
.305
matlab基础与应用
.777
.182
.379
计算机基础
.774
.006
-.016
大学数学1
.269
.740
.349
管理学原理
.469
.755
-.071
经济学原理
.042
.453
.621
大学数学2
.609
.378
.500
信息管理概论
.317
.356
.627
C语言
.761
.219
.179
普通物理学1
.680
.530
-.092
a. Rotation converged in 6 iterations.
表格6旋转后载荷图
可以看出数理方法、windows程序设计、Matlab基础与应用、计算机基础、c语言等课程在因子1上的载荷比较大;普通物理学2、大学数学1、管理学原理在因子2上的载荷比较大;毛泽东思想、经济学原理、信息管理概论在因子3上的载荷比较大;还有像线性代数、数据库、普通物理学1等课程在因子1、2上的载荷相对都比较大。
通过和实际课程设置与考察导向来看,特归纳因子意义如下:
因子
载荷比较大的课程
因子意义
因子1
数理方法、windows程序设计、matlab、计算机基础、C语言、线性代数、数据库、普通物理学1、大学数学2
算法与程序思维
因子2
大学数学1、普通物理学2、普通物理学1、管理学原理、数据库、线性代数
逻辑与理解能力
因子3
毛泽东思想、经济学原理、信息管理概论、大学数学2
记忆与文字能力
表格7因子意义