支持向量机法对活血化瘀类药物的分类研究
支持向量机法对活血化瘀类药物的分类研
究
第36卷第6期
2009焦
北京化工大学(自然科学版)
JournalofBeijingUniversityofChemicalTechnology(NaturalScience)
VoI.36.No.6
2009
支持向量机法对活血化瘀类药物的分类研究
徐明玲陈光喻长远
(北京化工大学生命科学与技术学院,北京100029)
摘要:以密度,基于分子
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
面的弱电场参数,投影参数及氢键供体数等l1个结构描述符为输入.通过支持向量机
(SVM)方法对99个活血化瘀类药物活性建立了构效关系的分类模型.全部化合物被随机分为包含85个化合物
的训练集和包含14个化合物的测试集,使用十重交互检验方法选择最优的惩罚函数及核函数参数值,研究表明这
个模型对活血化瘀类药物的活性有很好的预测效果(训练集中准确率为100%,测试集中准确率为92.9%),显示
出了支持向量机算法在研究中药构效关系方面有很好的应用前景. 关键词:活血化瘀;构效关系;支持向量机
中圈分类号:Q641.3
引言
活血化瘀法是祖国医学治疗大法之一.近年
来,活血化瘀法广泛应用于临床心血管系统,神经系
统,泌尿生殖系统及皮肤科,妇产科,肿瘤,眼科血证
(包括炎症,玻璃体混浊及挫伤等),类风湿性关节
炎,慢性肾炎以及骨科等方面_2j.因此研究活血 化瘀类药物的结构与活性之间关系对发现新的活血 化瘀药物以及改变现有的化合物的结构以提高其活 性有重要的意义.
支持向量机法凭其理论优势已广泛应用于各个 领域,成为一种备受瞩目的分类技术,其在药物设 计,中药活性以及生物信息学许多领域得到广泛的 应用【.],但用于活血化合物构效关系方面的研究 尚未见报道.本文用支持向量机(SVM)方法对活 血化合物血小板抗凝系数进行预测分析,得到了比 较满意的结果.
1实验部分
1.1数据的选择和处理
为了建立模型的方便,将99种化合物分为强活 性,弱活性及无活性3类.在活血化合物中抑制血 小板凝结半数有效量IC50<10iumol/L的化合物划 收稿日期:2009—02—25
第一作者:女,1978年生,硕士生
*通讯联系人
E—mail:3racy@mail.buet.edu.Oil
为活性较强的一类,共计32种强活性化合物,其活 性用"1"表示;其余35种为弱活性化合物,活性用 ''0"表示;止血类化合物32种,活性用"一1"表 示[.实验时随机选取85种化合物作为训练集,其 余14种化合物组成测试集.
1.2分子描述符的选择和计算
从Cerius2』中选用67种常用的描述符对上文 中建立的结构数据库中的每个化合物分子进行计 算.获得描述符的计算值后,利用相关性分析的双
变量相关性分析,筛选与活性相关系数绝对值在 0.1以上,并且描述符间相关性绝对值在0,0.85 之间共11个描述符,结果如下:6个Jurs电荷及表 面积描述符:Jurs—FPSA一1,JursFPSA-3,Jurs—RPCS, Jurs-RNCS,Jurs—RPSA,Jurs—RASA;2个描述分子形 状的投影参数:Shadow—XZfra,Shadow—YZfra,Densi— ty(密度),Hbonddonor(HD氢键共体的数目)和 Wiener指数.
1.3利用支持向量机法建模
支持向量机(SVM)其核心内容是1995年Vap— nik和Cortes【10]提出来的一种新的机器学习方法. SVM目前较常见于数据的分类,用最优化理论方法 寻求最优分界面将二类分开[11].SVM模型的推广 能力依赖于模型所用参数的优化,这些参数包括核 函数的类型及惩罚参数c,本文使用的为RBF核函 数,为了选择合适参数C和7,引入了一种称为逐一 交互检验的方法,它的原理是把数据训练集分为 份.用,z一1份来预测剩下的一份数据,C和y作为 变量,均方差RMS作为目标函数,RMS最小时的 第6期徐明玲等:支持向量机法对活血化瘀类药物的分类研究?83?
C和7即为所需要的参数,这样做既可寻找到最适 宜建立模型的参数,又防止了模型对于训练集的过 拟合.本文所选用的支持向量机是LIBSVM工具 箱r,交互检验程序grid.Py来自于LIBSVM的相 关辅助工具[.
2结果与讨论
2.1SVM模型的参数选择
采用林智仁所发展的支持向量机的工具箱 (LIBSVM)[12].对85个化合物的训练集和14个
化合物的测试集进行建模.为了避免输入中由于过 多的0引起的边缘效应同时为了避免输出数据涵盖 范围过大与输出范围过小引起的误差效应,将11个 描述符压缩到(0.1,0.9)范围内.计算
公式
小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载
为 z=—=——皿×0.8+0.1
ZII1a)【一Zmin
式中是原始数据,z是压缩后的数据和
z.分别是数据的最小值和最大值.在LIBSVM 回归中关键的一步是寻找最优的惩罚参数C和核 函数参数7,LIBSVM的训练程序svmtrain设置为 ~-SVR,核函数选择RBF核函数.在区间[一10, 10]中,步长为1,对惩罚参数c和核函数参数y值 同时进行搜索,最终得到的最优参数惩罚参数C= 2,核函数参数7=16,其它参数均采用默认值计算. 2.2SVM模型对化合物活性的分类结果
在最优参数下对训练集的85个化合物预测准 确率为98.8%,支持向量的个数为84,实验数据及 结果见表1.使用该预测模型对测试集中的14个 化合物进行预测,支持向量的个数是9,得到64.3% 的准确率,实验数据及结果见表2.由此看到测试 集的预测百分率并不是很理想,但从两表的模型统 计数来看此模型对化合物活性和非活性的预测准确 率很高.在表1和表2中"1"和"0"都表示有活性, 所以在训练集中对活性预测的准确率为100%,在 测试集中的准确率为92.9%,结果见表3.此模型 之所以对活性的强和弱区分效果不是很好,分析原 因有:(1)中药原植物化学成分手册中的实验数据搜 集于不同的参考文献,因实验对象,实验的条件,验 证的抗血小板凝结的机理的不同及实验者提取不纯
等主客观原因使得实验数据并不一定准确.(2)实 验的分类方法是为建模方便所作的分类,本文定性 的分类方法可能对预测的结果产生一定的影响,但 从活血化合物和止血化合物的对比来看,此模型具 表1训练集中85种活血及止血化合物活性的 实验值和预测值
Table1Experimentalandpredictedvaluesoftheactivitiesof
85compoundspromotingbloodflowandhemostasis
inthetrainingset
化合物实验值预测值化合物实验值预测值 川芎嗪11莪术二酮00
阿魏酸11吴茱萸次碱00
3.丁基苯酞11莽草酸11
丹参素11花椒油素11
密迭香酸00山莨菪碱00
丹参新酮00阿托品00
藏红花酸11小檗胺00
姜黄索00巴西木索00
益母草碱00马钱子碱11
水苏碱11和厚朴酚00
虎杖苷11山奈酚10
桂皮醛00麝香酮00
葛根素11齐墩果酸00
槲皮素00红花黄色素11
马兜铃酸磁甲脂11水飞蓟素00
黄岑甘元00千金藤素11
双香豆素00槲皮苷,1—1
0,一hydr0xy一00幸骨脂素一1—1
acetophenone散沫花醌一1—1
山豆根碱00白毛莨碱一1—1 六驳碱00氢化胡桃醌一1—1 川陈皮素00鞣花酸一1—1 C0llinin11氯原酸一1—1 哥伦比亚内酯00儿茶素一1,1 二氢山芹醇00咖硅{F酸一1,1 三山芹醇乙00小檗红碱一1,1酸酯 阿牙择兰品一1—1
姜烯酚11没食子酸一1—1 meihuaCTHD,,维生索k1—1—1 0233276.111蟾酥碱一
1—1
咖啡酰基奎宁酸00矢车菊素一1—1 发氏玉兰素11白鲜碱一1—1 灵芝酸S11麦角柯宁碱一1—1 白果苦内酯11麦角可碱一1—1 紫花前胡苷11麦角生碱一1—1 樟叶素11
长豆蔻素11竺一1—1二氢黄酮酮 青椒香豆素00苦参碱一1—1 青椒烯醇200去甲肾上腺素一 1—1
6一姜辣醇00芍药花青素一 1—1
紫草素11矮牵牛素一
1—1
2Vinv一4h.
1,3-dithiin11前胡宁素一1—1 大蒜素00D.伪麻黄碱一1—1
木防己碱11槲皮索一1—1
山豆根苏林碱00
"1"表示强活性,"0"表示弱活性,"一1"表示无活性 ?
84?北京化工大学(自然科学版)2009焦
表2测试集14种活血及止血化合物活性 的实验值及预测值
Table2Experimentalandpredictedvaluesofactivitiesof14
compoundspromotingbloodflowandhemostasisin
thetestset
化合物实验值预测值化合物实验值预测值 丹参酮2A10蛇床子素00
拖鞋状石斛索11小檗碱00
望春花索11芦丁一1—1
南藤素11黄麻苷A一10
钩藤碱10尿嘧啶一1,1
没食子酸乙酯01龙牙草鞣素一l一1
甲基莲心碱01欧瑞香素一1—1
"1"表示强活性,"O"表示弱活性,"一1"表示无活性 表399种化合物活性测试结果
Table3Experimentalresultsoftheactivitiesof99compounds
有很高的活性预测价值.
支持向量机的最大特点是对于小样本的情况, 也能得到较好的推广性能,在我国传统中草药中活 性实验数据较少,所以SVM在研究中药构效关系 方面将有很好的应用前景.本文所用的方法与技术 可以推广到更多类别中药材药效的分类,在今后的 工作中还可以使用其它的分类方法,比如主成分分 析法来研究中药,将更多更准确的中药化合物活性
数据,以及结构描述符应用于此类模型的构建之中,
为中药现代化研究找到更为经济合理的道路.
参考文献:
[1]李莎莎,肖雪,王跃生,等.血瘀证与活血化瘀研究进展
[J].河南中医学院,2009,24(1):102—104.
LiSS,XiaoX,WangYS,eta1.Progressionofre—
searchsyndromeofbloodstasisandthetreatmentofpro—
rootingbloodcirculationtoremovebloodstasis[J].Jour—
nalofHenanUniversityofChineseMedicine,2009,24 (1):102—104.(inChinese)
[2]孟幼杰.活血化瘀法在眼科中的临床应用[J].辽宁中
医杂志,2005,32(3):231.
MengYJ.Apreliminaryapplicationofpromotingblood andeliminatingbloodstasisinophthalmology[J].Liaon—
ingJournalofTraditionalChineseMedicine,2005,32 (3):231.(inChinese)
[3]黄钦,庄艳,乔学斌,等.用支持向量机建立中药有效成
分聚集体的预测模型[J].物理化学,2007,23
(8):1141—1144.
HuangQ,ZhuangY,QiaoXB,eta1.Predictedmodel ofaggregationofmoleculesinChineseherbaldrugsby supportvectormachines[J].ActaPhysico-ChimicaSini—
ca,2007,23(8):1141—1144.(inChinese)
[4]BurbidgeR,TrotterM,HoldenS,eta1.Drugdesignby machinelearning:supportvectormachinesforpharma—
eeuticaldataanalysis[J].ComputerandChemistry,2001, 26(1):5一l4.
[5]CaiYD,LiuXJ,XuXB,eta1.Supportvectorma—
chinesforpredictingproteinstructuralclass[J].Bioinfor—
matics,2001,221(1):115—120.
[6]ChouKC,CaiYD.Usingfunctionaldomaincomposi—
tionandsupportvectormaehinesforpredictionofprotein subcellularlocation[J].TheJournalofBiologicalChem—
istry,2002,277(48):45765—45769.
[7]刘亮,包新华,冯建星,等.唑基I口一芳氧烷基频哪酮
(芳乙酮)及其醇式衍生物抗真菌活性的分子筛选[J].
计算机于应用化学,2002,19(4):476—479.
LiuL,BaoXH,FengJX,eta1.Molecularsievingof pinaeolone(or1-arylethanone)containing1H一1,2,4-tria—
zolegroupandtheirreducedproducts[J].Computersand AppliedChemistry,2002,19(4):476—497.(inChi—
nese)
[8]周家驹,谢桂荣,严新建中药原植物化学成分手册
[M].北京:化学工业出版社,2004.
ZhouJJ,XieGY,YanXJ.TraditionalChinese medicine:MolecularstructuresNaturalSourcesandAp—
plieation[M].Beijing:ChemicalIndustryPress,2004.(in Chinese)
[9]
材料
关于××同志的政审材料调查表环保先进个人材料国家普通话测试材料农民专业合作社注销四查四问剖析材料
科学软件Cerius2[CP].北京中柯软件信息科技
有限公司,2005.
MaterialScientificSoftware,Cerius2[CP].Bing ZhongkeInformationTechnologyinSoftwareCoLtd, 2005.(inChinese)
[1O]崔长春,刘文林,郑俊哲.支持向量机理论与应用[J].
沈阳工程学院:自然科学版,2007,3(2):170—
172.
CuiCC,LiuWL,ZhengJZ.Theoryandapplicationof supportvectormachine[J].JournalofShenyangInstitute
ofEngineering:NaturalScience,2007,3(2):170—172.
(inChinese)
[11]张燕昆,杜平,刘重庆.基于主元分析与支持向量机
第6期徐明玲等:支持向量机法对活血化瘀类药物的分类研究?85?
人脸识别方法[J].上海交通大学,2002,36(6):
884—886.
ZhangYK,DuP,LiuCQ.Afacerecognitionmethod
basedonprincipalcomponentanalysisandsupportvector
machine[J].JournalofShanghaiJiaotongUniversity.
2002,36(6):884—886.(inChinese)
[12]HsuCW,ChangCC,LinCJ.LIBSVM:alibraryfor
SupportVectorMachines[CP/OL].[2007—11—01].
http:fwww.csie.ntu.edu.tw/cjlin.
ClassificationstudiesofChinesemedicinesforpromoting
bloodflowandeliminatingbloodstasis
usingsupportvectormachines
XUMingLingCHENGuangYUChangYuan
(CollegeofLifeScienceandTechnology,BeijingUniversityofChemicalTechnology,B~ijing100029,China)
Abstract:ElevenmoleculardescriptorshavebeenusedtodescribethestructuralcharacteristicsofChineseherba1
drugsforpromotingbloodflowandeliminatingbloodstasis.Theclassificationmodelwasconstructedusinga
supportvectormachine.Althoughthesupportvectormachinehasbeenappliedinmanyotherfields,ithassel—
dombeenusedinthestudyofChineseherbaldrugs.TheChineseherbalmedicinesweredividedintoatraining
setandtestset.Theresultsindicatedthattheclassificationmodelgaveaccuratepredictionsoftheactivitvor
non—
activityofthecompoundsinvolved.Theaccuracyofpredictionswas100%forthetrainingsetwhilstinthe
testsetitwas92.9%.TheresultssuggestthatthesupportvectormachineclassifierisausefultoolinChineSe
medicineresearch.
Keywords:promotingbloodflowandeliminatingbloodstasis;structure—
activityrelationship;supportvectot
machine