4 生 物 学 通 报 2010 年 第 45 卷 第 2 期
通径分析是数量遗传学家 Sewall Wright 于
1921 年提出来的一种多元统计技术。 通径分析可
以通过对自变量与因变量之间表面直接相关性的
分解, 来研究自变量对因变量的直接重要性和间
接重要性,从而为统计决策提供可靠的依据,在众
多领域得到广泛应用 [1]。
通径分析采用传统的教学方法, 不仅步骤繁
琐,学生不容易掌握,而且容易计算出错 [2],因此限
制了通径分析的教学和使用。 目前文献介绍用于
通径分析的 SAS、SPSS、Excel 的方法存在 2 方面
的不足,一方面缺乏必要的正态性检验;另一方面
通径系数及间接相关系数计算步骤过于繁琐。 用
SAS 软件进行通径分析需要复杂的编程 [3-6],利用
SPSS、Excel 计算通径系数步骤复杂 [1,7-12]。在 SPSS
中,多元回归分析使用配伍格式数据文件,因变量
必须服从正态分布。通过查阅相关文献发现,目前
在用 SPSS 进行通径分析时都未对因变量进行正
态性检验 [10-12]。 为此,我们通过 SPSS13.0 软件以
一实例介绍 SPSS 在通径分析中的应用,旨在为处
理各种有关通径分析的资料提供参考。
1 通径分析的思路
通径分析在多元回归的基础上将相关系数 riy
分解为直接通径系数 (某一自变量对因变量的直
接作用)和间接通径系数(该自变量通过其他自变
量对因变量的间接作用)[13]。 通径分析的理论已
证明, 任一自变量 xi 与因变量 y 之间的简单相关
系数(riy)=xi 与 y 之间的直接通径系数(Piy)+所有
xi 与 y 的间接通径系数, 任一自变量 xi 对 y 的间
接通径系数=相关系数(rij)×通径系数(Pjy)。 在通
径分析过程中, 一般认为最难计算的就是通径系
数。 事实上,通过软件进行线性回归计算,计算结
果给出的线性回归方程的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
系数 (Standardized
Coefficients)也就是我们需要的通径系数,再乘以
相关系数就可以获得间接通径系数。
运用 SPSS 软件只需 “Analyze→Regression→
Linear”这一个程序便可获得通径系数、相关系数
以及显著性检验等信息。 现以小麦丰产 3 号的各
种性状与单株籽粒产量间的相关关系为例 [14],建
立线性回归方程并计算通径系数。
2 通径分析的过程
2.1 录入数据 启动 SPSS 程序,将数据输入 SPSS
并命名各变量,设置变量标签,如图所示。 其中,
小麦丰产 3 号各性状与单株籽粒产量数据
使用 SPSS线性回归实现通径分析的方法*
杜家菊 1 陈志伟 2**
(1 山东理工大学生命科学学院 山东淄博 255049 2 山东理工大学分析测试中心 山东淄博 255049)
摘要 由于通径分析可以将因变量与自变量的相互影响(相关系数)分解为直接影响(通
径系数)和间接影响(间接通径系数),因此在遗传学等领域受到广泛的重视。 目前在软件实现
方法上, 一方面缺乏必要的正态性检验, 另一方面通径系数及间接相关系数计算步骤过于繁
琐,限制通径分析的教学和使用。 在应用中,我们注意到通过 SPSS 的线性回归“Linear”程序可
以一次性获得计算通径系数的全部数据,从而简化通径分析的步骤。
关键词 通径分析 SPSS 线性回归 相关系数
中国图书分类号:TP274+.2 文献标识码:A
*基金项目:山东省科学技术攻关项目 (2008GG2TC01011-5)和山东省优秀中青年科学家科研奖励基金项目 (2007BS06021)资助
**通讯作者
x1 x2 x3 x4 y
1 10 23 4 113 15.7
2 9 20 4 106 14.5
3 10 22 4 111 17.5
4 13 21 4 109 22.5
5 10 22 4 110 15.5
6 10 23 4 103 16.9
7 8 23 3 100 8.6
8 10 24 3 114 17.0
9 10 20 3 104 13.7
10 10 21 3 110 13.4
11 10 23 4 104 20.3
12 8 21 4 109 10.2
13 6 23 3 114 7.4
14 8 21 4 113 11.6
15 9 22 4 105 12.3
Unstandardized Coefficients Standardized Coefficients
Model B Std.Error Beta t Sig.
1 (Constant)
单株穗数
2 (Constant)
单株穗数
百粒重
(Constant)
3 单株穗数
百粒重
每穗结实
小穗数
-8.06429
2.39762
-30.01290
1.96965
7.33659
-46.96636
2.01314
7.83023
.67464
3.11354
.32711
8.26129
.30632
2.62942
10.19262
.26314
2.26313
.29183
.89731
.73715
.31987
.75342
.34139
.19929
-2.59007
7.32977
-3.63295
6.43009
2.79019
-4.60788
7.65034
3.45991
2.31177
.02242
.00001
.00343
.00003
.01634
.00076
.00001
.00533
.04117
2010年 第 45 卷 第 2 期 生 物 学 通 报 5
单株籽粒产量为因变量 y, 单株穗数、每穗结实小
穗数、百粒重、株高分别为自变量 x1、x2、x3、x4。
2.2 对因变量 y 实施正态性检验 选择 Analyze→
Descriptive Statitics→Explore 命令,将因变量 y 选入
Dependent List, 用鼠标单击 Plots 按钮, 选择 Nor-
mality plots with tests(正态图及检验)。 点击 OK,对
因变量进行正态性检验,输出结果如表 1 所示。
表 1 正态性检验输出结果
SPSS 对一组数据进行正态性检验有 2 种方
法,Kolmogorov-Smirnov Test 和 Shapiro-Wilk Test。
Kolmogorov-Smirnov Test 检验结果较精确,适用于
大样本的检测, 而 Shapiro-Wilk Test 适用于小样
本的检验,本题 n=15 属于小样本,因此对因变量
y 进行正态性检验后利用 Shapiro-Wilk Test 的输
出结果。 Shapiro-Wilk 统计量 0.987,显著水平 Sig.
=0.996>0.05, 所以因变量 y 服从正态分布, 即 y
是正态变量可以进行回归分析。
2.3 逐步回归分析 选择“Linear”程序 ,使用系
统默认的选择项,就可以完成逐步回归分析。选择
“Statistics”中的 “Descriptive”,就可以同时输出简
单相关系数。 具体操作步骤如下:
选择 Analyze→Regression→Linear 命令 ,将因
变量 y 选入 Dependent,自变量 x1、x2、x3、x4 选入 In-
dependent (s),指定 Method 为 Stepwise (逐步回归
法); 打开 Statistics, 选择 Descriptive。 然后点击
OK,系统开始统计分析数据。
3 结果分析
3.1 建立线性回归方程、获得通径系数 逐步回
归方式 (Stepwise)是指系统根据 “Options”里的默
认选项, 从所有可供选择的自变量中逐步地选择
加入或剔除某个自变量, 直到建立最优的回归方
程为止。
表 2 模型概述输出结果
a Predictors:(Constant),单株穗数
b Predictors:(Constant),单株穗数,百粒重
c Predictors:(Constant),单株穗数,百粒重,每穗结实小穗数
表 3 回归系数输出结果*
*Dependent Variable: 单株籽粒产量
表 2 表明随着自变量被逐步引入回归方程,
回归方程的相关系数 R 和决定系数 R2 在逐渐增
大,说明引入的自变量对总产量的作用在增加。其
中决定系数 R2=0.920, 则剩余因子 e= 1-R2姨 =
0.28284,该值较大 ,说明对单株籽粒产量有影响
的自变量不仅有以上 3 个方面, 还有一些影响较
大的因素没有考虑到, 对单株籽粒产量影响因素
的全面分析有待于进一步研究。
表 3 给出了各自变量的偏回归系数、 方程截
距 、标准回归系数 (即通径系数 )、标准误差以及
相对应的显著性检验结果, 从而可得线性回归方
程为:
y=-46.96636+2.01314x1+0.67464x2+7.83023x3
由通径系数可以看出自变量 x1、x2、x3 对 y 的
直接作用分别是 :P1y =0.75342、P2y =0.19929、P3y =
0.34139。 显著性检验结果表明,x1、x2、x3 的偏回归
系数的显著性均小于 0.05, 说明自变量与因变量
之间存在显著性差异, 有统计学意义都应留在方
程中。
3.2 计算间接通径系数 从表 4 的 Pearson
Correlation 输出结果可得到自变量与因变量 、各
自变量间的相关系数。各自变量之间的相关系数
分别是 r12 =r21=-0.13574,r13 =r31=0.50073,r23 =r32=
-0.14889。 自变量 x1、x2、x3 与因变量 y 之间的简
单相关系数分别是 ,r1y=0.89731、r2y=0.04619、r3y=
0.68898。 由通径分析的理论知 :r1y=P1y+r12×P2y+
r13 ×P3y =0.75342 +-0.13574 ×0.19929 +0.50073 ×
0 . 34139 = 0 . 89731 (结果与表 4 一致)。
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
单株籽粒产量(y) .099 15 .200(*) .987 15 .996
Model R R Square Adjusted R Square Std.Error of the Estimate
1 .897a .805 .790 1.89609
2 .939b .882 .862 1.53696
3 .959c .920 .899 1.31695
与 y 的简单 通径系数 间接通径系数 (间接作用)
相关系数 (直接作用) x1 x2 x3 合计
x1 0.89731 0.75342 - -0.02705 0.17094 0.14389
x2 0.04619 0.19929 -0.10227 - -0.05083 -0.1530
x3 0.68898 0.34139 0.37726 -0.02967 - 0.34759
自变
量
6 生 物 学 通 报 2010 年 第 45 卷 第 2 期
表 4 相关系数及检验输出结果
x1 通过 x2 对 y 的间接通径系数为 :r12×P2y =
-0.13574×0.19929=-0.02705,x1通过 x3对 y 的间接
通径系数为:r13×P3y=0.50073×0.34139=0.17094。同理
可以计算出 x2、x3对 y 的间接通径系数。 简单相关
系数、通径系数及间接通径系数的关系列于下表 5。
表 5 简单相关系数的分解
3.3 通径分析的统计学意义 由表 5 获得的信息
是:3 个自变量对单株产量 y 的直接影响中, 单株
穗数 x1的直接作用最大,百粒重 x3次之,每穗结实
小穗数 x2的直接作用最小。 通过分析各个间接通
径系数发现,单株穗数通过百粒重对产量 y 的间接
作用较大,其间接通径系数 r13×P3y=0.17094。虽然单
株穗数通过每穗结实小穗数对产量 y 产生一定负
值的间接作用(r12×P2y=-0.02705),但是由于 P1y 和
r13×P3y的值较大,从而使单株穗数对 y 的影响较大,
二者的简单相关系数 r1y达到了 0.89731。 百粒重对
y 的简单相关系数为 P3y+r31×P1y+r32×P2y=0.68898,使
得百粒重对产量 y 的影响也较大。 因此,单株穗数
x1和百粒重 x3对单株籽粒产量的增加具有重要作
用;至于每穗结实小穗数 x2,其直接通径系数和间
接通径系数均较小, 对单株产量的改变影响不大,
可不必过多考虑。
4 小结
在统计分析中对数据进行处理时, 需要先进
行正态性检验。 如果数据服从正态分布继续进行
统计分析; 如果数据不符合正态分布需进行非参
数检验,如卡方检验、对数线性回归(loglinear)等。
在 SPSS 中, 多元回归分析使用配伍格式数据文
件,因变量必须服从正态分布,故在分析之前首先
对 y 进行了正态性检验, 当其显著水平大于 0.05
时,方可进行回归分析。
SPSS 中的“Analyze→Regression→Linear”程序
使通径分析得到简化,通径系数和相关系数在 Co-
efficients 和 Correlations 这 2 个输出结果中便可获
得,进而根据公式计算出间接通径系数,而且 SPSS
输出的结果与通径分析的理论结果一致。 因此,运
用 SPSS 进行通径分析具有普及推广的价值。
主要参考文献
1 张琪 ,丛鹏 ,彭励 . 通径分析在 Excel 和 SPSS 中的实现 . 农业
网络信息 ,2007,3:109—110.
2 李春喜 .生物统计学 .第 3 版 .北京 :科学出版社 ,2006:266.
3 任红松 ,吕新 ,曹连莆等 . 通径分析的 SAS 实现方法 .计算机
与农业 ,2003,4:17—19.
4 林德光 . 通径分析法在腰果播种中的应用 -兼论通径分析
的 SAS 实施 .热带作物学报 ,2001,22(3):34—39.
5 孙尚拱 . 隐变量分析简介(3).数理统计与管理 ,2002,21(2):
54—57,47.
6 黄大辉 ,彭懿紫 , 黄天进等 . 杂交水稻主要性状的多重逐步
回归和通径分析 .广西农业生物科学 ,2004,23(2):100—103.
7 陈庭木,徐大勇,秦德荣等. 偏相关与通径分析的 EXCEL VBA
程序
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
.农业网络信息 ,2007,3:101—103.
8 张天伦 ,崔艳超 ,徐恒玉 .通径分析在 EXCEL 上的实现 .农业
网络信息 ,2004,8:36—37.
9 何凤华 ,李明辉 .Excel 在通径分析中的应用 .农业网络信息 ,
2005,22(5):331—332.
10 苏金明 . 统计软件 SPSS for Windows 使用指南 . 北京 :电子
工业出版社 ,2000:430—438.
11 张宜华 .精通 SPSS.北京 :清华大学出版社 , 2001:114—115.
12 郝黎仁 . 统计软件 SPSS 系列 . 北京 :中国水利水电出版社 ,
2002:269—280.
13 敬艳辉 ,邢留伟 .通径分析及其应用 .统计教育 ,2006,2:24—
26.
14 李春喜 .生物统计学 .第 4 版 .北京 :科学出版社 ,2008:231.
(E-mail: dujiaju226@163.com
陈志伟 E-mail: 12chen@163.com)
单株籽 单株 每穗结实
粒产量 穗数 小穗数 百粒重 株高
Pearson 单株籽粒产量
Correlation 单株穗数
每穗结实小穗数
百粒重
株高
Sig.(1-tailed) 单株籽粒产量
单株穗数
每穗结实小穗数
百粒重
株高
1.0000
.89731
.04619
.68898
-.00651
.00000
.43508
.00225
.49082
0.89731
1.00000
-.13574
.50073
-.09391
.00000
.31478
.02864
.36960
.04619
-.13574
1.00000
-.14889
.12339
.43508
.31478
.29820
.33066
.68898
.50073
-.14889
1.00000
-.03583
.00225
.02864
.29820
.44956
-.00651
-.09391
.12339
-.03583
1.00000
.49082
.36960
.33066
.44956