定性数据
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
第五章课后作业
1、 为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下:
偏好饮料A
偏好饮料B
年青人
男性
37
26
女性
11
23
老年人
男性
30
43
女性
31
11
试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么?
解:(1)数据压缩分析
首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?
表1.1 “性别×偏好饮料”列联表
偏好饮料A
偏好饮料B
合计
偏好A比例
偏好B比例
男性
67
69
136
49.26%
50.74%
女性
42
34
76
55.26%
44.74%
二维2×2列联表独立检验的似然比检验统计量
的值为0.7032,
值为
,不应拒绝原假设,即认为“偏好类型”与“性别”无关。
(2)数据分层分析
其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异?
表1.2 三维2×2×2列联表
偏好饮料A
偏好饮料B
合计
偏好A比例
偏好B比例
年青人
男性
37
26
63
58.73%
41.27%
女性
11
23
34
32.35%
67.65%
老年人
男性
30
43
73
41.10%
58.90%
女性
31
11
42
73.81%
26.19%
在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。
(3)条件独立性检验
为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。
即由题意,可令
表示年龄段,
表示年青人,
表示老年人;
表示性别,
表示男性,
表示女性;
表示偏好饮料的类型,
表示偏好饮料
,
表示偏好饮料
。欲检验的原假设为:
给定后
和
条件独立。
按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量
的值如下:
层
合计
37
26
63
11
23
34
合计
48
49
97
层
合计
30
43
73
31
11
42
合计
61
54
115
条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为
由于
,所以条件独立性检验的似然比检验统计量的渐近
分布的自由度为
,也就是上面这2个四格表的渐近
分布的自由度的和。由于
值
很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。
(4)产生偏差的原因
a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。但将数据以不同的年龄段分层后并分别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的。合起来看和分开来看的结果不同。
b、由此看来,年龄段在此次调查中属于混杂因素。由于不同年龄段的人对饮料的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样的碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查中,“老年人”年龄段共有115人,所占比例大,从而使整个结果就倾向于老年人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调查结果产生了偏差。
2、 某工厂有三个车间。车间主任分别为王、张和李。过去的一年里,该工厂产品的质量情况总结如下:
车间主任
产品类别
产品质量情况
产品总数
合格产品数
不合格产品数
王
内销
2368
131
2499
外销
123
81
204
张
内销
293
3
296
外销
1247
255
1502
李
内销
307
12
319
外销
359
75
434
王主任将内销和外销产品合并在一起,然后计算各个车间的不合格率。计算结果如下:
主任
产品质量情况
不合格率
合格产品数
不合格产品数
王
2491
212
7.84%
张
1540
258
14.35%
李
666
87
11.55%
王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是张主任负责的车间。这样的比较是不是有偏比较?为什么?
解:不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较,因此这样的比较不是有偏比较。
具体分析如下:
由题知,分析车间主任与产品的质量情况之间的关系,则本题是以产品类别为层,以车间主任为行,产品的质量情况为列进行相关分析。
(1)数据压缩分析
首先将上表中不同产品类别的数据合并在一起压缩成二维3×2列联表2.1,合起来看,分析车间主任与产品的质量情况两者之间的关系?
表2.1 “车间主任×产品质量”列联表
主任
产品质量情况
不合格率
合格产品数
不合格产品数
王
2491
212
7.84%
张
1540
258
14.35%
李
666
87
11.55%
可计算出该表独立性检验的似然比检验统计量
的值为48.612,
值为
。应该拒绝原假设,即认为车间主任与产品的质量情况两者是有一定相关性的。
(2)数据分层分析
其次,按产品类别分层,得到如下三维2×3×2列联表2.2,分开来看,分析车间主任与产品的质量情况两者之间的关系?
表1.2 三维2×2×2列联表
产品类别
车间主任
产品的质量情况
不合格率
合格产品数
不合格产品数
内销
王
2368
131
5.24%
张
293
3
1.01%
李
307
12
3.76%
外销
王
123
81
39.71%
张
1247
255
16.98%
李
359
75
17.28%
在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产情况差不多。
(3)条件独立性检验
为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。
即由题意,可令
表示产品类别,
表示内销,
表示外销;
表示车间主任,
表示王姓主任,
表示张姓主任,
表示李姓主任;
表示产品的质量情况,
表示合格产品数,
表示不合格产品数。欲检验的原假设为:
给定后
和
条件独立。
按产品类别分层后得到的两张表格,以及它们的似然比检验统计量
的值如下:
层
合计
2368
131
2499
293
3
296
307
12
319
合计
2968
146
3114
层
合计
123
81
204
1247
255
1502
359
75
434
合计
1729
411
2140
条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为
由于
,所以条件独立性检验的似然比检验统计量的渐近
分布的自由度为
,也就是上面这2个表格的渐近
分布的自由度的和。由于
值
很小,所以认为条件独立性不成立,即在产品类别给定的条件下,车间主任与产品的质量情况两者是有一定相关性的。
(4)结论
在(1)中,将不同产品类别的数据压缩在一起合起来后分析发现车间主任与产品的质量情况两者是有一定相关性的;在(2)中,将数据以不同的产品类别分层后分析发现车间主任与产品的质量情况两者也是有一定相关性的。即合起来看和分开来看的结果相同。据我们所知,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题合起来看和分开来看的结果都是相同的。因此此题若是分析车间主任与产品的质量情况两者之间的相关关系的话,则该题是无偏的,即不均有有偏性,无法进行有偏比较。