生 物 信 息 学 China Joumal of Bioinformatics 技 术 与 方 法
大数量序列的 PCR保守引物
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
实践
邵西群 ,邵群 ,闰喜军 ,章秀婷 ,罗国良
(1.中国农业科学院特产研究所,吉林 左家 132109;2.户县第四中学,陕西 户县 710300)
摘要:引物设计前的序列的全面检索,未注释序列的归类,经多序列比对求带有模糊碱基代码标识(IUPAC ambiguity c0des)的共
有序列,对设计高质量的引物至关重要,是引物设计过程的难点。目前,综合性核酸序列分析软件,单功能应用软件,在解决
上述问题时均显不足。应用互联网提供的在线生物应用程序实践了一种多程序组合使用设计大数量序列的保守引物的方
法,探讨了实现大数量序列的保守引物设计的一般
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
。
关键词:PCR引物设计;共有序列;求解路线
中图分类号:Q78 文献标识码:B 文章编号:1672—556.5(2007)一04—171一o4
A solving route of common PCR primers for nucleotide sequences
in a great qn_antity
SHAO Xi—qun ,SHAO Qun2,YAN Xi—jun ,ZHANG Xiu—ting ,LUO Guo—liangI
quences with IUPAC guity codes.In addition,the other 8ome ways and references were given in sequences collecdng,~oahs and primer
大数量序列是指在序列数据库中,单一基因对应序列数 文
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
述,选取英文对应术语;③利用Soosh的Search scholarly pa.
1 O00bp,或序列变异的复杂性,超出程序一次处理的容量限 用专业术语作为检索词并限定几个有效的检索词对在
制,需要多次处理的单一基因序列群体。随着基因分子生物 核酸序列数据库中查全是关键,检索字段意义可参考数据库
学研究的活跃开展,物种核酸序列的数据量迅速增长,种属 使用说明。试用不同的检索词及对应检索字段,考察检索结
的核酸数据量更大。诸如狂犬病毒、A型流感病毒、肠埃希 果,最终确定用何检索词和检索字段。
氏菌属等许多物种单基因序列数量在数百、上千条,序列长 1·2 利用NCBI的 Bmw豇库查全序列
度大于1 0oobp,这为设计这些物种可靠的检测引物提供了 进入 。柚 ∞wer库 却 ://www.ncbi.“hn·“m· 叩omy
列轮 竺 妻 基代码标识(
Ac a guity c。des)的共有序列数据处理过 磊, 。,
程增加了难度。 应目标基因在核酸数据库收录的全部序列
,逐一选择所需的
1 在核酸序列数据库及文献中如何实现序列的查全 1
.3 在 数据库中未注释序列中搜索目标序列
1.1 确定检索词:①通过查阅专业工具
书
关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf
查专业术语;②查阅 利序列,对未注释的序列,可以用 Blast http://www.ncbi,nlm.
收稿日期:2006—12—14;修回日期-'2007—01—10
基金项目:中国科技部科研院所社会公益研究专项(2004DIB4J159)
作者简介:邵西群(1974一),男,陕西户县人,硕士,助研 ,tcssxq@yahoo.coin.cn
维普资讯 http://www.cqvip.com
172 生 物 信 息 学 第5卷
(megablast)7~序根据相似程度确定是否归属所检索的 目标
序列,或使用Lasergene suit的Megalign与目标基因参考序列
比对根据相似程度确定序列归属,充分查全已入库的每一目
标序列。
1.4 搜索未进入 GenBank库的文献中序列查全目标序列
专业文献中可能有未进入核酸序列数据库中的目标序
列,在 目标序列数较少时同样具有重要的参考价值,也是序
列查全的一条途径。
2 设计种属通用保守引物时共有序列求解路线
通过序列比对求共有序列,实践要求共有序列反映序列
保守性,序列的不保守碱基用模糊碱基代码表示。带有模糊
碱基代码的共有序列输入通用的引物设计软件,可方便设计
有代表性并具有一定碱基兼并程度的引物。
2.1 检索获得的大数量序列分组
序列分组不是随意的分组,而是按引物设计 目标 、序列
已知的生物属性和序列 比对分析进行的。分组遵循①引物
是用来扩增 DNA还是 RNA_】J,如设计 RNA引物应考虑参与
的 DNA序列可能存在转录剪辑过程,与对应 DNA无反应,仅
对RNA模板特异;建议将 DNA和RNA序列分为不同组;②
分组是为将相似性接近的序列归为一组,建议先用 l_asergene
的Megalign程序对同一基因序列比对,将种属内变异大的序
列分为不同的几组,组问相似性及组内相似性用一个相似性
阈值区分;根据设计引物的目的和序列相似程度确定,如设
计保守通用引物,组内相似值一般按大于等于50%划分;便
于为相似值不同各组序列分别设计保守引物;③为基于反
映生物学意义的准确比对,同一基因序列的比对才有意义。
所以将长度相仿、对应基因同一区段的序列分为同组。这种
组内比对可提高序列比对准确性。具体方法是:截取数据库
中注释的目标基因相应区段再进行多序列比对。
2.2 在以上指导原则下分组求共有序列路线
差异大的序列根据相似程度分组,用 Lasergene系列的
Megalign之Clnstalw每次比对序列的容量控制在小于 20M,
相当于200条碱基数 1000bp的序列;用 Clnstalw程序的”Fast
— Approximate”方法,将每次处理序列按相似性 50%的阈值
分组,小于阈值 的分成不同的组,大于阈值的分为一组。
Clustalw多次处理的大数量序列被分成的各组群,用 Megalign
提取各组序列的绝大多数碱基表示的共有序列(majority con.
SeDSOS sequence),进而比对提取的所有共有序列,将相似性值
大于等于50%的不同次处理的各组归为同一相似组群。
根据相似程度归为同一相似组群的大数量序列,按长度
相近,对应基因处于同一区段的原则分组,每组序列数量根
据 Muitalln多序列比对程序快速处理的能力来决定。归为同
一 相似组群的大数量序列求共有序列流程图如下 :
图 1 求共有序列流程图
1 Solv~ Worifflow of Conseasus sequences tII IUPAC atom·
gmty a es
2.3 网络应用程序的参数设置
Muitalin多序列 比对 程序处理 网址:http://prodes.ton-
louse.inra.fr/muitalin/muitalin.html,Alignment paran~ter$参数设
置一般如下如图2:
Symbol comparison table选 DNA一5—0
Gap penalties栏
Gap penalty at opening取 />4
Gap penalty at extension取 ≥1
Gap penalty at extremities选 none
One iteration only选 no
上述数组参数可适当调整。比对结果页面下方,选“Re.
suits as a fasta file”,将结果以FastA格式输出,序列中包含有
“
一
”
,代表比对中相应位置碱基空缺.如下:
>SequeneeNamel
egcgcgagegctaegage
>SequeneeName2
— ‘ — — — — etategtagetagetag ————————————
>SequeneeName3
cgagcgc————————— ——
上述输出格式以txt格式保存为文件,以便用Comensus Maker(网
址:http://hcv.1an1.gov/content/hev—db/comensus/consensus.htm1)
生成符合自己要求的共有序列。参数设置一般如下(见图3):
Define consensus栏
维普资讯 http://www.cqvip.com
第4期 邵西群,等:大数量序列的PCR保守引物设计实践 173
勾选 Remove columns containing only gaps;gap character
Ignore characters otherthan项
Minimum number of sequences to do a consensus取 3
Unanimous threshold取 0.95
Majority threshold取 0.5
Output options栏
勾选 Do consensus of consensuses
Show mixed positions as IUPAC codes;
ignore nueleotides below5— 10%项;参数可根据输出要求调节。
2.4 网络序列处理程序界面图
图2 multalin程序界面
rig 2MultalinW eb program mainwlndow
图 3 Consensus~laker程序界面
Fig 3 Consensus~lakerweb program window
3 用求得的共用序列设计种属通用保守引物及理
论验证引物
3.1 引物设计软件的应用和设计思路
用 一mer primer5.0或 oligo6设计有一定兼并程度的保守
引物,使用及参数设置参考《PCR引物设计及软件使用技
巧》 。引物的设计优化可参考《寡核苷酸的优化设计》 。
保守引物的可靠性关键在比对序列的代表性,数据库中
序列来自不同地域同物种的测序 ,有足够的数量,这样的序
列比对产生的共有序列才有代表性。所以选取有较多的序
列参与的比对区段设计引物,即设计的引物最好位于有尽可
能多的序列参与的比对区段,引物的保守性更可信。实践中
发现归为一组的相似值最低的序列在确定保守区段时有突
出价值,它标示的保守区段设计的引物保守性更强。
3.2 理论验证引物的特异性及修正
用 NCBI的 BLAST工具(见 http://www.ncbi.him.nih.gov/
BLAST)Search for short,nearly exact matches Blast,从理论上检
验引物的物种特异性,上、下游引物问加 20个以上 N直接进
行相似性搜索并修正引物。如 A型流感 M基因通用引物,
上游引物:5 > 兀 1AAcCGAGGTCGAAAC<3 下游引物:5 >
AAGCGr( ACGC AGrI℃C<3
Blast搜索框应输入:
TK A ACCGAGGTCGAAA
GCG I℃TACGCI’GCA( ℃C
AA
Options for advanced blasting选项栏一般设置
Limit by entrez query:序列对应物种所在分类;
Expect:1000;
Word Siz:7;参数可适当调节。
Blast搜索结果显示引物序列与数据库已有序列的匹配情
况,如果引物3 端与对应物种一些序列匹配不好,说明引物的保
皆f生差;如果上、下游引物与非对应物种一些序列都有匹配,说
明引物的特异性差(若对应物种与对非应物种在环境中常共存,
会造成引物非特异扩增),需要重新设计引物。
4 讨 论
4.1 序列处理程序的使用体会
Multalin在线多序列比对程序处理序列数据的容量是有
限的。受程序所在服务器的处理能力,网络响应速度限制。
可向程序作者申请研究使用,使程序本地化,会更大发挥程
序的效率。Multalin的多序列比对较 Lasergene的 Megalign的
初级比对结果更准确,但 Me列 一次处理序列数量大。
Primer primer5.0具有比对后设计保守引物的功能,但比
对序列的数量有限制,小于 2 M,实际使用时,程序对计算机
不同版本的操作系统兼容性差,WINXP常常出错。Lasergene
的Megalign生成的共有序列不能标记模糊碱基,对用其它引
物设计程序设计有一定兼并程度的引物不可取。
EBI的Corisesus程序生成的共有序列同样不能标记模糊
碱基。Los Alamos National Labortary的Consensus Maker可根据
输出要求灵活设置参数生成标记模糊碱基的共有序列,输入
的序列是已经过多序列比对程序处理的结果,输出的共有序
列更可靠。
(下转第 192页)
维普资讯 http://www.cqvip.com
192 生 物 信 息 学 第5卷
4 结语
在培育产肉动物时多注重生长速度和瘦肉生长两个性
状。动物在初生时所具有的肌纤维数就已决定了该个体的产
肉能力。很多研究结果表明 MyoG基因在肌细胞的生成过
程中起着中心调节作用。因此。了解它的结构及遗传变异对
家畜生产力的分子育种,提高家畜的生产力具有重要的理论
意义和实践价值。
参考文献(References):
[1] Naidu PS,lmdolphD C,ToRQ,HinterbergerT J andSFKoniecmy.
MyogeninandMEF2function synergisticallyto activatetheMRF4 pro—
rooter duringmyogenesis[J].Molecularand Cellular biology,1995,15
(5):2707—2718.
[2] HastyP,BradleyA,Morris JH,EdmundsonDG,Venuti JM,Olson
E N and W H Klein.Muscle deficiency and neonatal death in mice
with a targeted mutation in the myogenin gene【J].Nature。1993,
364:50l一506.
[3] Tepas M F W,Sonmillion A,Retttmberger G.Characterization of the
porcine myogenin gene locus and association between pcdylll( Ili曰ll and
ts[J].Animal Genetics,1996,27(Supp1.2):117.
[4] Scumillion A,Erkens JHF,Lenst/'a.JA,RettenbergerG andM Fte
Pas.Genetic variationinthe porcinemyns~in geneloons[J].Mam—
malian Genollle,1997,8(8):564—568.
[5] Ernst C W,Mendes E A,Robic A and M F Rothschild.Myogenin
(MYOG)physically唧 8 to porcine cIlIⅨ∞80l11e 9q2.1一q2.6[J].
Journal ofAnimal science,1998,76(1:328.)
【6] BeeverJE,FisherSRandHA Lewin.Polymorphismidentificationin
theACAMD,AT3,ILl0,MYOGandTSHB genes of~tle[JJ.Animal
Genetics,1997,28(5):373—374.
[7] Ryan AM,ScheUingC P,Womach J E and J D SGallagher.Chro—
IIl0 assignment of six muscle—specific genes in cattle[J].Animal
genetics,1997,28(2):84—87.
【8] Fznst C W,Vaske D A,Larson R G and M F Rothschild.MspI re.
striction fragment length p0lyln0r Ili曰ll at the swine myogenin locus
【J].Jatmal of Animal science,1993,71(12):3479.
[9] Mendez E A,Ernst C W and M F Rothschild.A novd DNA p0 -
pllsim ofthe porcine myo~ n(MYOG)gene[J].J~mal Anil
science.1997,75(7):1984.
[10] Zuzanna Nowak,Aleksandran~ owicg-Swieretek,Kmtr~M,
Charon.Conformation polymorphism in myogenin gene in piss【J J·
Animal Science Papers and Reports,2O03,21(4):277—282.
[11] 林万华,高军,陈克飞,等.猪 MyoG基因的 PCR—RFLP多态
性分析[J].遗传,2O03,25(1):22—26.
[12] 储明星,何远清,王金玉,等.绵羊肌细胞生成素基因外显子 l的
PCR—SSCP分析[J].农业生物技术学报。加 ,m(1):77—8D.
[13] Olson E N.Molecular control of rnyogenesis:antagnonism be晰籼
and differentiation[J].Molecular Cell Biodaenfieal,199l,
104:7一l3.
[14] Nabeshirr~Y,HanankaK,HayasakaM,EsumiE,Li S andI
ka.Myogenin gene dimvptien resultsin r~am alethality b。∞m∞
muscle defect[J].Nature,1993,364(6437):532—535.
[15] Wight WE,Sassoon D A and V KLin.Myos~ 。a 酏瞳地 l址-
ingmyogencsis。has a domain homologoustoMyoD[J].Cell,1989,
56(4):6o7—617.
[16] BummI~A,FAlrtlldsm DG andWP .Ul矧Ie咖髓 la∞∞ 吐
myos~ gone caavey le wne日8 to skeletal nlisde de难 _哪 in
协睡 c mice[J].1~ldc Ad凼Resamtl。1993,21(24):5684—
5晒 .
[17] Ciesl& D,Kapelansl(i W,Bli~ i T,Pierzchala M.Restriction
fragment l~sth p0lyII哪p}lisn1 in myogenin and I genes and their
influence oillean ITlc8l eorltantin pigs[J].Joumal ofAnimal酬 一
ingand Genetics,2OOO,117(1):43—55.
[18] Dwyer cM,Flecther JMand N c Stickland.Musclecellularity and
postnatal growth in the pigs[J].Journal Animal science,1993,71
(12):3339—3343.
[19] 林万华,黄路生,艾华水,等.MyoC基因型对二脸花猪早期生
长性状及肌肉组织学特性的影响[J].农业生物技术学报。
2002,10(4):367—372.
[2o] 高勤学,刘梅,杨月琴,等.猪MyoG基因的PCR—SSCP分型及
其与生长性能和肌纤维数目的相关性分析[J].中国兽医学
报,2O05,25(3):330—332.
(上接第 173页)
生物应用程序是辅助工具,了解研究对象的实验研究发
现的生物学意义 ,有目的设置生物应用程序参数,才可产生
有生物意义的分组,比对,提取保守序列,这是程序使用时值
得仔细考虑的。
4.2 生物应用程序设计的建议
程序的模块化及组合使用是趋势,为研究单位应用现有
程序组装解决某项设计问题给出了例证。Multalin多序列比
对程序输出结果可与Consemus Maker输入格式要求很好衔
接;完成大数量序列共有序列的求解任务。可以从中借鉴。
在模块程序设计时,应考虑输出结果与输入格式为通用
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
格式。或设计中间转化程序来衔接不同功能的模块,完成某
项任务。
5 结论
采用 Lasergene的Megalign初级分类大数量序列为相似
程度差异大的数个序列组;其中相似序列组用M lt hn分批
比对。输出 fastA格式的比队结果;fastA比对结果输入 Con.
~nsus Maker求出带有模糊碱基代码标识(KIPAC ambis~aty
codes)的共有序列,联合使用三个程序解决引物设计中准确
求解带有模糊碱基代码标识的共有序列的难点。总结引物
设计的一般思路:序列相似性分组、求带有模糊碱基代码标
识的共有序列、引物验证。
参考文献(References):
[1] 任 亮,朱宝芹,张轶博,等.利用软件Prlme~F~lller 5.0进行
PCR引物设计的研究[J].锦州医学院学报,2OO4,25(6):43—46.
[2] 张新宇,高燕宁.PCR引物设计及软件使用技巧[J].生物信息
学,2OO4,2(4):15一l8.
[3] 郑仲承.寡核苷酸的优化设计[J].生命的化学。2001。21(3):254
— 256.
[4] NCBI.NLM.NIH.BIAb3"program selection Guide[EB/OL].http://
www.ncbi.nlm.nih.govlblast]producttable.shtml,2OO7,1.
[5] 1;'loronceCorpet.Multiple seq【I】erce alignmentwith hierarchicalduster-
ing[J].Nuc1.Acids Res.,1988,16(22):10881—10890.
[6] Los marr National bb。mt0ry Consensus explanation[EB/OL].ht.
tp://hcv.1an1.gov/contenffhcv—dblconsansus/consensus
,
explanatien 。
html,2005—2OO6.
维普资讯 http://www.cqvip.com