书书书
!基金项目:国家自然科学基金面上项目“基于非齐性 !"#$%& ’%()*
建立病证结合的绝经后骨质疏松证早期风险评估模型”( +%:
!"#$!!!%)
&’ 中国中医科学院中医临床基础医学研究所(&""$"")
(’ 中国人民大学统计学院(&""#$()
!’ 中国中医科学院博士后流动站(&""$"")
)’ 上海市大华医院((""(!$)
* 北京中医药大学东直门医院(&""$"")
"通讯作者:田峰
基于 ,-.!的 )" + ,* 岁绝经后骨质疏松症风险判别模型分析!
谢雁鸣& - 蔡博婧( - 田- 峰!" - 易丹辉( - 虞- 鲲) - 康- 澍* - 李建鹏, - 崔庆荣$
- -【提- 要】- 目的- 建立基于广义偏线性模型(/)0)#"*12)( 3"#41"* *10)"# ’%()*,,-.!)的,包括危险因素和中医证候要
素内容的绝经后骨质疏松症(3%54’)0%3"65"* %54)%3%#%515,-!7-)风险判别模型。方法- 在获取 &$)" 例社区 -!7-高危
人群危险因素及证候问卷调查数据基础上,筛选出与 -!7-发病相关的重要危险因素和中医症状为协变量,以骨密度定
性诊断为结局变量,建立基于 ,-.!的 -!7- 判别模型。结果- ,-.!模型线性部分参数估计提示:是否绝经、体重指
数、下肢抽筋、下肢骨痛、绝经年限(线性效应)具有统计意义(! . "’ "*);模型非线性部分参数估计提示:绝经年限(非线
性效应)具有统计意义(! . "’ "*)。与 *%/15418 回归模型相比,拟合 ,-.! 模型时加入了“绝经年限”的非线性效应,其
"#$值为 "’ $%$&,具有统计学意义( !( / (&’ %&,(,! . "’ ""&)。结论- 绝经年限与 -!7- 发病之间存在非线性效应。将
西医危险因素和中医症状相结合,建立基于 ,-.!的 -!7-判别模型,反映病证结合特点,与 *%/15418回归模型相比,具有
更好的判别准确性。
【关键词】- 绝经后骨质疏松症- 危险因素- 中医证候- 广义偏线性模型- 判别模型
- - 绝经后骨质疏松症(3%54’)0%3"65"* %54)%3%#%515,
-!7-)是目前患病率最高的慢病之一,在 )" + ,* 岁
妇女中有很高的患病率。如何判别 -!7- 的发生风
险,针对其危险因素采取有效的预防性干预措施,是防
治 -!7- 的关键。由于中医证候要素的复杂性,以及
危险因素与骨密度(9%0) ’10)#"* ()0514:,;!<)定性
诊断之间可能存在着某种非线性关系,运用 *%/15418 回
归模型等线性模型拟合效果不佳。广义偏线性模型
(/)0)#"*12)( 3"#41"* *10)"# ’%()*,,-.!)是广义线性
模型(/)0)#"*12)( *10)"# ’%()*,,.!)的扩展,有机结
合广义线性模型的优点与连续数值变量的非参数特
点,增加判别模型的灵活性,避免因非参数形式过多而
造成的估计困难,可以清楚地展示出特定变量的非线
性作用。本文运用 ,-.!进行 )" + ,* 岁绝经后骨质
疏松症风险判别模型探索性研究。
资料与方法
&=资料来源- (""% 年 ! 月至 # 月,在上海市和北
京市社区进行 -!7-高危人群筛选,对符合纳入标准
的人员进行现场问卷调查。研究人员在上海社区发放
问卷 &&"& 份,返回问卷 &"($ 份,其中合格问卷 &""&
份,占 %"’ %(>;在北京社区发放问卷 #"" 份,返回问
卷 $,! 份,其中合格问卷 $!% 份,占 %(’ !#>。
(’ 研究方法
(&)-!7-调查问卷的
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
在课题组前期研究基础上,根据量表学和临床流
行病学方法,结合骨质疏松症专家的临床经验,制定了
《)" + ,* 岁妇女骨质疏松危险因素及证候调查问卷》。
整个问卷包括一般信息、生活习惯、发病相关因素、躯
体状况、临床体征等五个领域的内容,共 ,* 个条目,为
封闭式设计。在调查实施前,由独立的中国中医科学
院中医临床基础医学研究所伦理委员会对问卷内容进
行论证,认为符合医学伦理要求。
(()调查人群筛选标准
纳入标准- !女性;"年龄 )" + ,* 岁;#意识清
楚,可用言辞表达,有阅读能力,与调查人员沟通无障
碍者;$经调查人员说明研究目的后,本人愿意接受问
卷调查和 ;!<检测,并在“卷首页”签名同意者。
排除标准 - !药物或其他疾病(如糖尿病、化脓
性脊髓炎、肾炎、甲亢等)引起的继发性骨质疏松症;
"有恶性肿瘤、痛风、类风湿性关节炎等疾病,影响中
医证候判断者;#精神障碍、认知障碍者。
(!)-!7-诊断标准
根据《中医内科常见病诊疗指南:西医疾病部
分》〔&〕中的 -!7-定性诊断标准,取腰椎 .&?.)、股骨
颈、股骨全区 ! 个部位的最小 @ 值,@ 值#!?&A< 为
骨量正常,!?&A< + 0 (’ "A<为骨量减少,$!?(’ "A<
以上为骨质疏松症。
())统计分析方法和软件
运用前期分析筛选出与 -!7- 发病相关的重要
危险因素和中医症状为协变量,以 ;!< 定性诊断为
结局变量(骨量正常和骨质疏松),建立基于 ,-.!的
-!7-判别模型。数据建模通过 ABA %’ ( 实现。
!"#*)0) !6**)#〔(〕对 ,-.! 进行了较为详细的介
·&·中国卫生统计 ("&( 年 &( 月第 (% 卷第 , 期
绍,模型公式为:
!(" !#,$)"%{!}" " "%{#$# #&($)}
并且 ’()(" !#,$)" (($)’(") ($)
其中,%(·)为连接函数;#表示一个含有有限的 * 个
协变量的向量,可以包含分类数值协变量和连续数值
协变量,主要构成模型中的参数部分;$ 是一个含有 +
个由连续数值变量构成的协变量向量,&($)为模型中
的非线性部分。
当结局变量 "为取值 % 或 $ 的二分类变量时,参
数部分的协变量矩阵为 #,非参数部分只有一个协变
量 $时,!"#$模型可以写作:
%&’,-(" !#,$)" %&’ .$ &( ). "#$# #&($) (’)
或 . " ()*(#
$# #&($))
$ # ()*(#$# #&($))
(()
其中,.表示在给定 #和 $ 下结局变量 " 取值为
$ 的概率。
结! ! 果
$) !"#$模型非参数部分的选择
多项 %&’+, 模型筛选出来的西医危险因素和支持
向量机方法筛选出来的中医症状变量中,肉类膳食、鱼
类膳食、饮用咖啡、是否变矮、是否绝经、畏寒、目睛干
涩、齿摇、纳呆、腹胀、胸胁苦满、夜尿次数、下肢抽筋、
下肢骨痛等是二分类变量,每天锻炼时间、怀孕次数、
生产次数、骨折次数、驼背是多分类等级变量,考虑其
与 -$.定性诊断呈线性关系,放入参数部分。年龄、
体重指数和绝经年限是连续性数值变量,可能与 -$.
定性诊断之间存在非线性关系。为探索其非线性效
应,运用 /0/ *) ’ 软件 "123 !0$ 过程步对三个变
量的非参数形式分别进行检验,设置 4(,5&6 " ’78,
*%&,9 " 7&4*&:(:,9( 7&44&:;)(9),(*997&<( " $(=+,结
果见表 $。
表 "! !"#$模型非参数变量的检验
变量 自由度 %’ .
/*%+:((年龄) %> %%%%( %> %%%% >
/*%+:((绝经年限) ,> (%-(( (*> %+.* / %> %%%$
/*%+:((体重指数) %> %%(.0 %> %%,* >
1 1 年龄和体重指数检验的值均接近 %,且 . 值缺失,
说明这两个变量与 -$.定性诊断没有明显的非线性
关系,而绝经年限与 -$. 定性诊断间存在明显的非
线性效应,因此将绝经年限设为 !"#$ 模型的非参数
部分,年龄和体重指数则放入参数部分。
’> !"#$模型参数部分估计按 ! " %> %. 的标准,
对于参数部分变量运用“逐步后退法”剔除,直到所有
的参数估计都通过假设检验,!"#$ 模型参数部分的
估计结果见表 ’。
1 1 从表 ’ 中可知,体重指数的系数为 & %) $.0%.,与
"$2"的发生风险呈负相关,体重指数每增加 $,发生
"$2"的风险概率是增加之前的 ?)*( & %) $.0%.)"
表 #! !"#$模型线性部分参数估计
变量名称 参数估计 标准误 - .
常数项 $> ’$$,+ %> .-+%0 ’> $% %> %(.-
是否绝经 $> $,$0’ %> ’.%$’ ,> .- / %> %%%$
体重指数 & %> $.0%. %> %’(., & +> -$ / %> %%%$
下肢抽筋 %> (+$,* %> $+((0 ’> ’$ %> %’-$
下肢骨痛 %> (’’+- %> $..’- ’> %0 %> %(-*
绝经年限( %+:(;<) %> $’*.+ %> %$.’’ 0> .$ / %> %%%$
%) 0.(0$ 倍。是否绝经、下肢抽筋和下肢骨痛的系数
分别为:$) $,$0’,%) (+$,* 和 %) (’’+-,与 "$2" 的发
生风险呈正相关;已绝经妇女发生 "$2" 的风险概率
是未绝经妇女的 ?)*($) $,$0’)" () $(’. 倍;有“下肢
抽筋”症状的妇女发生骨质疏松的概率比没有该症状
的妇女要高,比值比(&669 <;,+&,/0)" ?)*(%) (+$,*)
" $) ,(..;有“下肢骨痛”症状的妇女发生 "$2" 的风
险概 率 比 没 有 该 症 状 的 妇 女 要 高,/0 " ?)*
(%) (’’+-)" $) (0%0。
(> !"#$模型非参数部分估计
经检验绝经年限对在模型中的非线性效应具有统
计意义(%’ " $() .*,0,. " %) %%$’)。
为直观展现“绝经年限”对 "$2" 发生风险概率
的非线性效应,绘制 94&&,5+:’ 7&4*&:(:, *%&,9 图,如
图 ’ 所示。
图 "! 绝经年限的非线性效应图
1 1 ,> !"#$模型的判别效果
接收者工作特征曲线( <(7(+8(< &*(<;,+:’ 75;<;7=
,(<+9,+7 7@<8(,123)因其不受患病率和诊断截断值的
影响、且综合了灵敏度和特异度两个指标,成为评价诊
断试验准确度的最佳指标〔(〕。通过 123 曲线下面积
(;<(; @:6(< ,5( 123 7@<8(,0A3)可以直接反映诊断
试验价值的大小〔,〕。这里运用 123 曲线来评价模型
的判别准确性。用“是否绝经”、“下肢抽筋”、“下肢骨
痛”“体重指数”, 个危险因素和中医症状作为协变量,
与结局变量(-$. 定性诊断)拟合线性 %&’+9,+7 回归
模型,其 1#2 值为 %) -.(+。拟合 !"#$ 模型时加入
了“绝经年限”的非线性效应,其 1#2 值为 %) -*-$,提
高了 "$2"高危人群发病风险的判别准确率,见表 (。
·’· 35+:(9( B&@<:;% &C D(;%,5 /,;,+9,+79,.(7 ’%$’,E&%> ’*,F&> +
表 !" 两种模型的 !"#曲线比较分析
模型
$%&&’()*+&,-
!"# 标准误
!". #$
下限 上限
/01*2+*3 405,/ #6 $"%& #6 #’(’ #6 $)"! #6 $*’)
789$ #6 $!$’ #6 #’%% #6 $$’# #6 *)%’
+ + 经检验,带有非线性效应的 789$ 模型要优于线
性 /01*2+*3回归模型( !) , )’- !’&),% . #- ##’),见图
)。
图 #" /01*2+*3模型和 789$模型的 !"#曲线比较图
讨" " 论
’6 789$模型的优点
在医学研究中,79$模型〔" / $〕根据相关影响因素
建立结局事件的判别模型,其应用前提是事先假定协
变量与结局变量为直线关系,会忽略协变量与结局变
量之间可能存在的非线性效应,得到不可靠的参数估
计结果。789$是一种半参数模型,能够准确描述协
变量与结局变量之间的关系,通过纳入与结局变量之
间存在非线性关系的连续数值协变量,增加模型的判
别准确性,又不会带来因非参数形式过多而造成的估
计困难,可以清楚地展示出特定变量的特殊效应,若以
线性形式假定,则不能发现这种效应。将西医危险因
素(是否绝经和体重指数)和中医症状(下肢抽筋和下
肢骨痛)作为线性变量,以非参数的形式灵活地处理
绝经年限这个非线性变量,建立基于 789$ 的可以反
映中医病证结合特点的 8$"8 判别模型,从 !"# 值
来看,在绝境年限存在非线性效应的情况下,运用
789$可以更准确地判别 8$"8 高危人群的发病风
险。
)6 789$模型的不足
789$属于半参数模型中的一种特殊形式,更适
合处理非参数部分只有一个变量的情况,当实际问题
中所需要估计的非参数部分多于 ’ 个变量时,可以考
虑运用广义可加模型〔*〕。本研究中只有“绝经年限”
存在非线性效应,所以运用 789$ 模型是合适的。但
是,由于现有的 789$模型拟合和检验只限于两分类
结局变量,尚无法实现对三分类结局变量判别模型的
拟合,因此本研究只能对骨量正常和骨质疏松两部分
人群进行 8$"8判别模型建构,尚未能纳入骨量减少
人群的数据,因此在 8$"8 高危人群不同骨量状态的
判别上存在一定的局限性。同时,现有的 !"#曲线拟
合方法也是针对两分类结局变量数据,目前尚无成熟
的针对三分类结局变量判别模型的 !"# 曲线拟合方
法,这些问题有待今后进一步探索研究。
$%&’()*%+,-.& /0 ’ 1*%23*,*.’.& 4/5-) 0/3 (# 0 &" 6-’3% 7)5
8/%&,-./9’:%’) 7%&-/9/3/%*% ;/,-. <’%-5 /. =-.-3’)*>-5
8’3&*’) ?*.-’3 4/5-) + &’( )*+,’+-,#*’ ./0’+-,1’*+ 2(+-,(3
*45 %/6378/93/:*4 ;3*3’/+ /< #=’+* !9*>(,? /< #=’+(6( @(>’9*4
;9’(+9(6(’##$##),.(’0’+-
【@(%&3’2&】+ 7(A-2&*B- + :0 ,2+%;/*2) % 5*23<*4*&%&+ 405,/ =0<
8$"8 >*+) <*2? =%3+0<2 %&5 :#$ 2-45<04, ,22,&+*%/ =%3+0<2 ;%2,5 0& 1,&’
,<%/*@,5 A%<+*%/ /*&,%< 405,/(789$)6 4-&+/5% + BC,2+*0&&%*<, 2C
%2 30//,3+,5 0& +), <*2? =%3+0<2 %&5 :#$ 2-&5<04,2 0= ’$(# 3044C’
&*+- A0AC/%+*0& >*+) )*1) <*2? 0= 8$"86 8$"8 <*2? =%3+0<2 %&5 :#$
2-4A+042 >,<, 2,/,3+,5 0C+ %2 +), 30D%<*%+,2,+), E$F GC%/*+%+*D, 5*%1&0’
2*2 %2 0C+304, D%<*%;/,,%&5 % 8$"8 5*23<*4*&%&+ 405,/ >%2 ,2+%;/*2),5
%AA/-*&1 +), 789$ 4,+)056 C-%:)&%+ :), /*&,%< A%<%4,+,< ,2+*4%+*0& 0=
+), 789$ 405,/ *&5*3%+,5 +)%+ >),+),< 4,&0A%C2,,;05- 4%22 *&5,H,/0>’
,< /*4; 3<%4A2,/0>,< /*4; A%*&2 %&5 5C<%+*0& 0= 4,&0A%C2,( /*&,%< ,==,3+)
)%5 2+%+*2+*3%/ 2*1&*=*3%&3,(% . #- #"),%&5 +), &0&/*&,%< A%<%4,+,< ,2+*4%’
+*0& 0= +), 405,/ *&5*3%+,5 +)%+ 5C<%+*0& 0= 4,&0A%C2,( &0&/*&,%< ,==,3+)
)%5 2+%+*2+*3%/ 5*==,<,&3,(% . #- #")6 :), IJ# D%/C, 0= 789$ >%2 #- $!$’
>*+) +), &0&/*&,%< ,==,3+ 0= 5C<%+*0& 0= 4,&0A%C2,6 :), D%/C, >%2
)’- !’&),% . #- ##’6 D/.2):%*/.+ :), &0&/*&,%< ,==,3+ ;,+>,,& 5C<%+*0&
0= 4,&0A%C2, %&5 8$"8 >%2 =0C&56 789$ )%5 40<, %33C<%+, 5*23<*4*&%’
+*D, 3)%<%3+,<*2+*32,;,*&1 304A%<,5 >*+) /*&,%< /01*2+*3 <,1<,22*0& 405,/26
【E-F G/35%】+ 802+4,&0A%C2%/ 02+,0A0<02*2;!*2? =%3+0<;
:#$ 2-&5<04,;7,&,<%/*@,5 A%<+*%/ /*&,%< 405,/;F*23<*4*&%&+
405,/
参+ 考+ 文+ 献
’6中华中医药学会6中医内科常见病诊疗指南:西医疾病部分6 北京:中
国中医药出版社,)##*:)()’)("6
)6 $K//,< $6 L2+*4%+*0& %&5 +,2+*&1 *& 1,&,<%/*@,5 A%<+*%/ /*&,%< 405,/2—%
304A%<%+*D, 2+C5-6 M+%+*2+*32 %&5 #04AC+*&1,)##’,’’(():)!!’%#!6
%6宋花玲6 !"#曲线的评价研究及应用6上海:第二军医大学,)##&6
(6方积乾6医学统计学与电脑试验6 上海:上海科学技术出版社,)##’:
((!6
"6 N,D*// I $,#0A%2 O E6 J2*&1 1,&,<%/*@,5 /*&,%< 405,/2(79$2) +0
405,/ ,<<0<2 *& 40+0< A,<=0<4%&3,6 O $0+ E,)%D,’!!’,)%(():)(’’)"#6
&6 P),&1 E,I1<,2+* I6 MC44%<*@*&1 +), A<,5*3+*D, A0>,< 0= % 1,&,<%/*@,5
/*&,%< 405,/6 M+%+ $,5,)###,’!(’%):’$$’’’$*’6
$6 8%& (6 IAA/*3%+*0& 0= 30&5*+*0&%/ 404,&+ +,2+2 +0 405,/ 3),3?*&1 =0<
1,&,<%/*@,5 /*&,%< 405,/26 E*02+%+*2+*32,)##),%()):)&$’)$&6
*6贾彬6广义可加模型及其在医学中的应用6山西医科大学,)##"6
·%·中国卫生统计 )#’) 年 ’) 月第 )! 卷第 & 期