2009年7月
第46卷第4期
四川大学学报(自然科学版)
JournalofSichuanUniversity(NaturalScieneeEdition)
Jul.2009
V01.46NO.4
doi:103969/j.issn.0490—6756.2009.04.054
基于J2EE构架的药物与靶点综合数据库
及其查询系统(DTDB)的设计与实现
陈庆一1,曹 毅 '刘廷林2,石 兵 3 , 马玉刚
(1.四川大学生命科学学院四川省生物信息与代谢工程共享实验平台,成都610064,
2.四川大学生物治疗国家重点
实验室
17025实验室iso17025实验室认可实验室检查项目微生物实验室标识重点实验室计划
,成都610065}
3.四川大学计算机学院,成都610065)
摘 要:介绍了收集、整理目前已发现的所有药物及其作用靶点的相关信息,并整合现代分子
生物、药物、化学等的最新进展,采用业界领先的Java的J2EE框架,建立一个综合的数据库系
统的过程.同时在该综合数据库系统的基础上,嵌入药物分子和靶点的对接技术,使得该系统
除用于一般的药物分子和靶点查询之外,还能实现基于分子反向对接的虚拟筛选和通过药物
分子寻找其作用的潜在蛋白靶点.
关键词:药物;靶点;数据库;J2EE
中图分类号:R914.2 文献标识码:A 文章编号:0490—6756(2009)04—1155.06
Designandimplementof
(DTDB)basedon
adrugandtargetdatabase
J2EEarchitecture
CHENQin—H1,CAOYil,LIUTing—Lin2,SHIBin93,MAYu-Gang3
(1.SichuanPublicExperimentPlatformofBioinformaticsandMetabolicEngineering,
CollegeofLifeSciences,SichuanUniversity,Chengdu610064,China;
2.BiotherapyStateKeyLab,SichuanUniversity,Chengdu610065,China;
3.ComputerScienceCollege,SichuanUniversity,Chengdu610065,China)
Abstract:Thepaperbrieflydescribestheauthordevelopedanintegrativedatabasesystem(DTDB)
throughcollectingalltheinformationofdrugsandtargetscurrentlyavailableandintegratingthemost
recentresearchachievementofcontemporarymolecularbiology,pharmaceuticsandchemistry.Thissys—
temwillbeestablishedbyusingtheadvancedJ2EEarchitecture.Alsotheauthorshallembedthedoc—
kingtechniqueintotheintegrateddrugandtargetdatabase。Thisleadsthatinadditiontothesimpleand
traditionaldatabasequeryofdrugmoleculeandtarget,oursystemcouldalsobeusedtovisualscreening
basedontheinverse-dockingandthepotentialeffectiveproteintargetsearchingbydrugmolecule.The
databaseistemporarilyvisitedbythesinglecomputeruserandtheweb—siteisbeingconstructed.
Keywords:drug,target,database,JZEE
1 引 言
随着现代药学、生物学、化学等学科的发展,特
别是近年来人类基因组学、蛋白组学等的突破,大
量的疾病相关靶点及其潜在治疗药物被发现.这些
药物与靶点的信息大多是分散的,并且它们之间的
收稿日期:2008—08—16
作者简介:陈庆一(1982一),女,四川乐山人.硕士研究生。研究方向为分子模拟与计算机辅助药物设计.
通讯作者:曹毅.E-mail}caoyi_01@163.corl%
万方数据
四川大学学报(自然科学版) 第46卷
相互关系错综复杂,例如一个药物可能作用于多个
靶点,一个靶点可能对应于多个药物.[13另外,这些
药物和靶点与人类基因组学、蛋白组学等的最新研
究发现之间的相关信息更是千头万绪,稀散零乱.
如果能够建立一个公用数据库系统平台,将这些药
物和靶点及其相关数据进行集中管理,一方面便于
查询,另一方面有可能从中挖掘出重要的信息,这
些信息将有助于创新药物的研发.因此,近年来。国
内外已掀起了建立药物、疾病靶点数据库及其管理
信息系统的热潮.Ez]
目前国内外已建立了多个药物数据库,[3]例
如,加拿大药物数据库(Drugbank),它是目前全球
最大的药物资源数据库,收录4000多种药物,可以
通过浏览以及分类查询方式查询小分子药物、生物
工程药物、神经系统药物.德国天然药化数据库,它
收录了上千种天然药物的结构信息等;同时国外的
疾病靶点数据库也较多,比较有特色的包括:新加
坡国立大学计算科学系建立的药物靶点数据库
TTD(用于治疗的靶点数据库),包括1174个药物
靶点.但关于药物、靶点及其相互作用的综合数据
库还很少见.为此,我们将收集、整理目前已发现的
所有药物及其作用靶点的相关信息,并整合现代分
。子生物、药物、化学等的最新进展,以目前最流行
J2EE架构为基础,建立一个Web数据库系统,提
供数据查询和检索等功能.籍此希望能对我国创新
药物的研发有所裨益.
2 J2EE体系结构简介
J2EE的应用构架遵循MVC构架,由三层构
成:
(1)客户端层
客户端是“最后的前线”.它只包含用户接口的
代码,依赖中间层来获知所有业务知识.J2EE客户
端可以在任何桌面系统和任何手持设备上运行,并
且使用一个合适的网络构架(例如,LAN或Inter—
net)访问远端的中问层.
(2)中间/逻辑层
在J2EE平台上,这个中间层就是J2EE服务
器,J2EE服务器可以提供用来解决Web客户端和
应用业务逻辑问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
的服务.
(3)数据层
数据层是三层模式中最底层,它用来定义、维
护、访问和更新数据并管理和满足应用服务对数据
的请求.
3 药物和靶点数据库系统的设计与
实现
数据库采用了目前流行的web数据库开发方
式:J2EE,将web数据库分为模型视图控制(mod—
el-view-controller)设计模式.[41核心思想是将一个
应用程序的数据业务处理功能(模型)、
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示功能
(视图)、控制功能(控制层)在三个不同的部分(也
叫层)上分别实现(如图1所示).MVC的目的是
增加代码的复用性,减少数据描述和应用操作的可
耦合度,并提高代码的可读性.同时,也可以使软件
的可维护性、可修复性、灵活性、以及封装性大大提
高.
/
1. Assoc.at.on
图1本数据库的数据结构
Fig.1Thedatastructureofthisdatabase
系统本着简单维护,便于扩展,查询界面友好
以及网站美观的原则开发.使用了JSP网页动态
技术,数据库采用Mysql5.0数据库,选用Tom—
cat5.0选用JDK5.0+Eclipse5+Myeclipse5.5+
Java的一些插件和类作为本系统开发的环
境,Is-lz3然后用Tomcat作为发布的平台,数据库
后台与页面前台的通信选用了JDBC,服务器采用
了WindowsXP平台.在前台,用户可以输入药物
及靶点的文字信息进行查询,诸如:药物通用名、药
物商品名、药物的适应症的ICDIO(国际疾病分类
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
编码)药物相关靶点的蛋白质序列、作用机理、
靶点名称、靶点相关的基因序列等等,也可依药物
适应症的国际疾病标准分类的疾病系统来分类查
询.
本数据库的药物和药物靶点的数据来源如下,
这些数据库都是免费开放的资源:
万方数据
第4期 陈庆一等:基于J2EE构架的药物与靶点综合数据库及其查询系统(DTDB)的设计与实现1157
(1)SwissProt(蛋白质序列注释性知识数据
库,1986年由El内瓦大学医学生物化学部创建);
(2)GeneBank(美国国立卫生研究院维护的
基因序列数据库,汇集并注释了所有公开的核酸以
及蛋白质序列);
(3)信号通路数据库:KEGG(京都基因和基
因组百科全书,是系统分析基因功能,联系基因组
信息和功能信息的知识库);
(4)ChEBI(d、分子化合物数据库);
(5)蛋白质数据库:PDB(蛋白质结构数据
库);
(6)药物数据库:DrugBank(力I拿大药物数据
库);
(7)靶点数据库:TTD(新加坡国立大学靶点
数据库);
(8)国际疾病分类标准:ICDl0(Forty-third
WorldHeahhAssemblyOfWorldHeahhOrga—
nizition).
采用面向数据的
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
,分析信息需求:我们要
建立的是药物以及药物靶点的遗传信息数据库,因
此整理的数据主要为与药物以及药物靶点发生、发
展相关的基因以及染色体改变的资料,同时也整理
相关的临床信息,包括药物不良反应和患者信息,
按照此需求我们设计了一下数据结构(如图1所
示).[1朝另外,借鉴FDA第十届大会的疾病国际分
类的编码,我们把药物信息以及相关靶点按照人体
系统的疾病分类(分为十二类):循环体统疾病;消
化系统疾病;中枢神经系统疾病;内分泌系统疾病;
泌尿及生殖系统疾病;淋巴造血系统疾病;软组织
及骨骼系统疾病;皮肤疾病;儿科疾病等.
本文系统的数据库系统主要设计了四张表,分
别是:药物信息表、靶点信息表、药物靶点关联表、
用户对接信息表.数据库系统的整体ER图如图2
所示.
图2数据库逻辑设计ER图
Fig.2TheE-RMapofthisdatabase
万方数据
1158 四川大学学报(自然科学版) 第46卷
药物信息表:收录与药物相关的生物化学以及
临床信息,见表一的字段描述以及说明,主要收录
了药物的ID号、通用名、商品名、国际理论与应用
化学联合会名、化学结构、KEGG查询链接、Gen-
bank查询链接、FDA查询链接、RxList查询链接、
MSDSlinks查询链接、分子量、熔点、水溶性、解离
常数/等电点、疏水性、核磁共振光谱、MOL格式
描述文件、PDB文本文件、适应症、药理学、作用肌
理、吸收、生物转化、医患信息、代谢酶、相关疾病、
ICDIO疾病分类标准ID、小分子药、改进药等字段
属性.
靶点信息表:收录与靶点相关的生物化学代谢
信息,见表二的字段描述以及说明:主要宝包括了
靶点名称、靶点别名、靶点蛋白质序列、靶点残疾
数、靶点分子量、靶点等电点、靶点综合作用、靶点
通路、靶点反应、靶点作用域、靶点信号序列、靶点
跨膜区域、靶点本质、GenbankID号、PDBID号、
SwissID号、靶点细胞位置、靶点基因序列、靶点
染色体位置、靶点基因座、靶点多核苷酸多态性的
字段属性.
药物靶点关联表:记录药物对特定靶点的治疗
作用,通过药物ID和具有治疗作用的靶点ID进行
链接,和可能是多对多的网络状关系,见表四的字
段描述以及说明:
用户对接信息表:记录用户提交的受体信息
(MOL文件格式),提交的时间,是否对接完成标
记,对接打分排序的结果文件.
4数据库系统的功能特点
本数据库利用计算机和网络进行数据收集,加
工和整理,再将有关数据资源进行整理和编排,应
用程序采用面向对象的设计方法,通过编写程序语
言创建应用程序,以界面的形式与数据库建立联
系,主要能够完成以下功能.
信息存储功能:本系统目前存储了4000多种
药物和与之相关的7000多种疾病靶点数据信息,
并重点收录、归纳了这些疾病的遗传学方面重要信
息,而且还可以不断的录入新的疾病或更新原有的
遗传学研究的新进展,不断充实数据库的内容.
查询功能:本数据库的高级查询功能使用户在
查询数据库时十分方便,在这里我们通过SQL语
句,运用Java高级语言完成的应用程序通过数据
库链接类JDBC访问数据库.本系统的查询功能可
以分为四种,一种是按人体系统进行查询,它是按
国际疾病分类将全部药物相关的疾病分为归为十
二个系统,再从符合查询要求的结果中选取所要查
找的具体疾病;二是按照关键字查询,它是将药物
名称作为检索对象,需要用户输入名称,计算机便
会把输入的字符相匹配的药物信息以“药物卡”显
示出来供选择,药物相关靶点的查询也如此;三是
靶点相关的基因序列查询和蛋白质序列查询,用户
只需要输入序列,就可检索药物的和靶点其它信
息.四是复合查询,它支持前三种查询之前的任意
组合查询,以提高检索额效率,通过上述四种方式
最终进入到的是具体的药物和靶点的结果信息界
面,其内容包括药物通用名,药物商品名,疾病系统
类型,相关的基因或者蛋白质序列,患者治疗信息,
药理作用.
录入和修改功能:这种功能只有应用程序的管
理员才能执行,管理员只需在应用程序的录入与修
改界面填入相关的靶点以及药物数据,就可以将他
们分别存储迸我们在Mysql5数据库中创建的
tumor数据库中的不同的表中的相应位置而不用
再打开数据库一个一个地完成数据地输入.
5数据库系统的使用
本数据库的查询主要分为几个模块:
药物信息的查询,靶点的查询,以及配体和药
物分子的对接.
首先,在drugquery页面,药物能通过不同的
属性,包括:属名(genericname)、商品名等等,来
进行简单查询.符合用户输入条件的药物将通过
“药物卡”的形式进行查询显示;同时可以通过联合
查询来搜索符合以下相关条件的药物:药物相关联
的疾病的所属疾病类型,以及疾病的ICDl0(国际
标准疾病分类)编码,与此同时,查询结果能显示出
与查询结果相关的药物靶点.
其次,在targetquery,药物靶点能通过不同的
属性,包括:靶点名称,蛋白质序列,残基数,PI值,
信号通路,生物药理反应等等来查询.同时在查询
的时候能够将查询结果和关联的药物同时显示出
来.
同时对于药物相关的蛋白质的三维结构,我们
可以通过一些Java的Applet插件显示出来.我们
使用了JME,还有澳大利亚学者的基于JME的三
维搜索程序来做模糊匹配的三维构象搜索,这样我
们可以解决二维结构相同但是三维异构的难题.
万方数据
第4期 陈庆一等:基于J2EE构架的药物与靶点综合数据库及其查询系统(DTDB)的设计与实现1159
6 对 接
我们的程序中是通过直接调用DOCK5.3实
现的,可以在一定程度上实现基于靶点三维结构的
虚拟高通量筛选,我们的数据库中收录了ZINC数
据库(免费数据库)的部分小分子库用作小分子先
导化合物库.
首先,从Drugbank、TTD、PDTD等数据库收
集靶点蛋白的数据,再从RCSB数据库中下载所收
集蛋白的晶体结构贮存于我们的数据库中,对于不
全的三维结构用在线建模程序SwIS孓Model建
全,然后将水分子及杂原子从晶体结构文件中剔
除,复合物中的蛋白质分子与配体小分子分开保
存,给小分子加上Gasteiger电荷并保存为tool2
文件,给大分子加上Amber电荷并保存为m012文
件.用DMS程序生成蛋白质的分子表面文件,[143
然后用SPHGEN程序生成蛋白质的活性位点文
件,定义活性位点范围为小分子配体周围8.5A的
范围,接下来,GRID程序被调用来生成蛋白靶点
的受体格点文件并储存于靶点库中用于“反向对
接”.[is-is]
我们的“反向对接”程序被集成到我们的数据
库中,用PHP及HTML写成的用户界面友好方
便,其使用方法是:用户提交的小分子文件需是加
上了Gasteinger电荷的标准m012文件,其来源可
以是通过一些小分子数据库下载,也可以通过
ChemDraw等画图软件生成二维分子文件并用
CORINA等软件转化成三维结构文件.用户提交
从提交分子到收到结果的时间通常为一周,但同时
这还得受后台列表中所有用户提交的工作量的影
响.
7系统运行结果
药物和药物靶点数据库的建立立足于我国实
际,为我国的医药生物产业的发展提供了较直观的
免费资源资料信息、药物和靶点的关联信息、以及
药物开发的现状,为后来的高通量先导化合筛选和
研究药物和靶点的网络提供了信息准备,对药物设
计和开发有一定的教育作用.
8 结 语
如何从海量的电子资源和文献数据中全面收
录目前世界上的药物和相关联的靶点信息,使其能
科学的、有效的为我国新药开发和研究提供快捷方
便的基础参考数据和整体信息支持至关重要,药物
和药物靶点Web数据库的建立可满这一要求,它
将为政府、企业、科研单位和医药工作着在研究、开
发、利用现有的药物和药物靶点提供较全面完整信
息的资料.数据库的开发望能给国内的药物信息的
分类和挖掘启到一定的教育启示作用.
药物与药物靶点Web数据库的基本框架已经
建成,所存储信息呈现出多样化的特点,能够满足
多种查询需求,使用方便.总的来看,整个web系
统达到了设计目的,目前运行正常.本数据库的开
发涉及系统分析、系统设计和编程三个环节,涉及
生物学、药学、化学、量子化学、临床学和计算机方
面的知识,需要生物学、医药工作者和计算机程序
员的密切配合.我们在这个数据库的后续的工作是
实现药物信息和药物靶点信息之间关系网络拓扑
化,同时基于JME的三维结构搜索功能也进一步
在完善中,我们希望同时能将本数据库的价值发挥
到高同量的先导化合物的筛选[1们和药物的多靶点
上来.
参考文献:
[13徐筱杰,侯廷军.乔学斌,等.计算机辅助药物分子
设计[M].北京:化学工业出版社,2004.
[2]郑珩.药物生物信息学[M].北京:化学工业出版社,
2004.
[3]陈凯先,蒋华良,嵇汝运.计算机辅助药物设计一一
原理、方法及应用[M].上海:上海科学技术出版社,
2000.
[4]霍姆斯.程序员查询辞典[M].北京:中国铁道出版
社,2005.
[5]迈尔斯.JavaXML编程指南[M].北京:电子工业出
版社,2001.
[6]克里希纳.OracleJ2EE应用开发[M].北京:清华大
学出版社,2004.
[7]朱印宏.Dreamweaver8完美网页设计,网页特效篇
[M].北京:中国电力出版社出版,2006.
[8]计磊,李里,周伟.精通J2EE-EclipsStrutsHibernate
Spring整合应用案例[M].北京:人民邮电出版社,
2006.
[9]孙卫琴.Java网络编程精解[M].北京:电子工业出
版社,2007.
[10]孙卫琴.Tomcat与JavaWeb开发[M].北京:电子
工业出版社,2004.
[113孙卫琴.精通Struts[M].北京:电子工业出版社,
2004.
[12]叶达峰.Eclipse编程技术与实例[M].北京;人民
万方数据
1160 四川大学学报(自然科学版) 第46豢
邮电出版社,2006.
[13]陈维明,传涛,储成桂,等.药物专利数据库的需求
分析和概要设计[J3.计算机与应用化学,2000,17:
31.
[141
[153
[163
许叶春,沈建华,罗小民,等.拉伸分子动力学模拟
配体一受体相互作用EJ].中国科学:B辑,2004,34
(3):45.
WishartDS,KnoxC,GuoAC,eta1.Drugbank:
acomprehensiveresourceforinsilicodrugdiscovery
andexploration[J].NucleicAcidsResearch,2006,
34:668.
WishartDS,TzurD,KnoxC,eta1.HMDB:the
humanmetabolomedatabase[J].NucleicAcidsRe-
search,2007,35:521.
E173ChenX,JizL,ChenYz,eta1.TTD..therapeutic
targetdatabase[J].NucleicAcidsResearch,2002,
30:1.
E183SousaSF,FernandesPA,RamosMJ.Protein-
liganddocking:currentstatusandfuturechallenges
EJ3.Proteins,2006,65(1):15.
E193KitchenDB,DecornezH,FurrJR,eta1.Docking
andscoringinvirtualscreeningfordrugdiscovery:
methodsandapplications[J].NatureReviewsDrug
Discovery,2004,3:945.
[责任编辑:白林含]
万方数据