首页 RepeatMasker网页版和命令行版使用说明(中文翻译版)(3)

RepeatMasker网页版和命令行版使用说明(中文翻译版)(3)

举报
开通vip

RepeatMasker网页版和命令行版使用说明(中文翻译版)(3)RepeatMasker网页版和命令行版使用说明〔中文翻译版〕引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复...

RepeatMasker网页版和命令行版使用说明(中文翻译版)(3)
RepeatMasker网页版和命令行版使用说明〔中文翻译版〕引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复杂度序列和散布重复序列.RepeatMasker通过将数据库如:Repbase中已知的重复序列与输入的基因组序列比对来搜素重复序列.在此我们描述两个基础 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 ,它对如何运用RepeatMasker去分析基因组序列的重复元件提供细节上的指导,而不论是通过网络界面还是通过Unix/Linux命令系统.在RepeatMasker中的序列比较通常经过cross-match程序的序列比对来实现,对于较大序列这一过程需要大量处理时间.交替协议描述的是通过应用诸如WU-BLAST这样的选择性比对程序来怎样减少处理时间.而且RepeatMasker的优势、局限和已被发现的漏洞将在此进行讨论,最后提供理解其处理结果的指南.在新的RepeatMasker程序包中添加了鉴定蛋白质序列的重复原件的程序.要运行RepeatMasker,首先要选择重复库文件〔repeatlibraryfiles〕,这一文件包含重复元件共有序列.目前,RepbaseUpdate是最大的商业性〔商购〕重复库〔freeforacademicuse〕并且包含了相当数量的包括人、啮齿动物、斑马鱼、果蝇以与拟南芥在内的生物体.生物体的库文件中没有RepbaseUpdate时,库文件会用RECON〔BaoandEddy,2002;://selab.janelia.org/recon.html>或RepeatScout<://bix.ucsd.edu/repeatscout/;Priceetal.,2005>从头产生.最新版本的RECONv.1.06已经发布并且可以从://  repeatmasker.org/RepeatModeler.html.中获得RepeatModeler程序包.RepeatMasker的序列比较常通过PhilGreen改进的cross-match<://  phrap.org/consed/consed.html#howToGet>来实现,另外也可以为了快速程序来用WU-BLAST<://info.cchmc.org/help/wublast.html;seeAlternateProtocol>来代替cross-match.一、通过网络界面运用RepeatMaskerRepeatMasker可通过://  repeatmasker.org/cgibin/WEBRepeatMasker来获得,它不像命令行版本的RepeatMasker,网络版RepeatMasker的核苷酸序列长度限制在100kb,不能分析长度超过100kb的序列〔提示会在窗口中显示〕.短于100kb的序列可以用网络版RepeatMasker来分析,其花费的时间与序列的长度相关.对于北美以外的快速服务有在德国、以色列和澳大利亚的RepeatMasker镜像.另外,如果常规分析大片段序列,最好是下载并本地运行命令行版本.重要的是,如果需分析的序列超过100kb,唯一的选择就是下载RepeatMasker并在本地运行.必需资源硬件:任意一台联网的计算机.软件:浏览器如IE或火狐浏览器文件:FASTA文件或能通过网络界面处理的收集的FASTA文件.1.点击网页浏览器,进入://  repeatmasker.org/cgi-bin/WEBRepeatMasker.通过序列名或浏览文件下载FASTA序列文件〔最大100kb〕,或者粘贴FASTA序列〔最大100kb〕到指定的文本框.如果输入的序列包含非DNA符号或者序列太长,RepeatMasker会提示错误信息.2. 从单选框下的"returnformat"来选择结果的格式:"html"或"tarfile".如果选择"html",那么结果会以一个超文本标记语言〔html.〕文件输出.如果选择"tarfile",那么结果会打包为用Unix系统"tar"协议的文档.3. 从"returnmethod"下两个单选按钮选择会送结果的方法,即:"html"或"email".如果选择这一步和上述第2步都选择"html",那么所有的结果会通过窗口显示,如果过这步选择"html",而第2步却选择"tarfile",那么结果会在窗口内提供.如果选择"email",那么需要填写电子地址,以确保结果可以通过电子发送.这里以"html"为例.4.目前,可以选择点击提交序列的按钮来运行RepeatMasker,同时可选择其他选项来设置默认值.如果系统默认值不能满足需要,可继续第5到8步并按第9步提交序列.设置其他选项设置默认值后点击提交序列,结果会在窗口中展示,如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考.5. 通过点击Speed/Senitivity下的四个单选按钮来调整速度:"rrush","quick","default",或"slow".注意速度和敏感度相关.比如选择"default",为了便于理解结果可以看参考.6.在下拉菜单中选择"DNAsource"的次选项,每一项等同于不同的重复原件库.比如这里的例子,其默认值是人,选择人是因为其序列来自于人类的基因组.注意如果待测序列所来自的生物体在菜单中没有,那么就必须本地运行命令行版本的RepeatMasker了,而且需要选用来自Rebase中的合适的副本文件.如果Rebase中不含合适的副本文件,那么RECON或RepeatScout<://bix.ucsd.edu/repeatscout/;Priceetal.,2005>会从头建立重复文件.7. 在下拉菜单的一系列功能中,单选按钮和LineageAnnotationOptions下的检查框〔checkboxes〕来选择合适的选择项.这些选项不需要说明,比如选择ComparisonSpecies,与所选物种相关的世系特异性重复就会通过RepeatMasker输出.8. 在高级选项〔AdvanceOption〕的下拉菜单中,选择合适的选项.这些选项同样简单明了.比如,如果想在MaskingOption的两个选项间选择,则要么选择模糊特性,诸如"N"或"X"此类的隐藏,要么选择小写字母,这更适合于序列比对.这些细节解释和附加选项可通过右边的下拉菜单中获得.9. 点击提交序列按钮运行RepeatMasker.二、在Unix/Linux下运行RepeatMaker命令行版本的RepeatMasker为使用者提供了更多的选择,并且没有最大100kb的长度限制.要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自RepbaseUpdate的相应的重复元件库,下文有详细描述.这也是对于RepeatMasker运行快速程序WU-BLAST所必须的〔参见可选项目〕.注意:对于不熟悉Unix的研究者请参见附录1C和附录1D.必须资源:硬件:任意网络的Unix或Linux计算机软件:RepeatMasker:现在软件为开源版本V.2.1,可从://  repeatmasker.org/RMDownload.html下载.Cross_match:软件为Phred/Phrap/Consed软件安装包的一部分,同时也是对学术研究者免费的〔://  phrap.org/consed/consed.html#howToGet;alsoseeUNIT11.2〕.为PhilGreen所写〔phgu.washington.edu〕包括以下信息:〔a〕##;〔b〕同意上描述的授权条件〔描述Cross_match 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 〕;〔c〕研究机构或部门;〔d〕以后联系用得e-mail地址〔e-mail的获得需通过Unix电脑运行通用mail程序,因为许多程序发送的是非编码文件,而这是与一些mail程序相冲突的〕.需要注意的是获得许可需要花费大约两周的时间.RepbaseUpdate:这一数据库〔://  girinst.org/;Jurka,2001〕包含大量可选择的重复元件库,这些是运行RepeatMasker所需的.这些库对于学术研究者是免费下载的,对于需求者需要填写在线 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 格以说明要获得的数据库文件〔://  girinst.org/accountservices/register.php〕.而商业性质的使用者需要联系JolantaWalichiewicz〔jolagirinst.org〕.此外,如果要研究的基因组在RepbaseUpdate中没有合适的重复库时就需要利用RECON〔BaoandEddy,2002〕或RepeatScout〔://bix.ucsd.edu/repeatscout/;Priceetal.,2005〕来进行处理.Steinetal.<2003>使用RECON建立了线虫C.elegans和C.briggsae的重复库.RECON可以从RepeatMasker安装包中获得,有效的可用下载地址是:://  repeatmasker.org/RepeatModeler.html,另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列.文件:某一FASTA文件〔附件1B〕或者一批FASTA文件可以通过命令行版RepeatMasker处理,注意在这里没有文件大小的限制.例子中使用的是Caenorhabditiselegans的基因组全序列,有102,287,094bp长,下载自WormBase<://  wormbase.org>FTP站点.系统准备1、下载并安装RepeatMasker、TandemRepeatFinder〔TRF〕、cross_match、WU-BLAST和Repbase库文件.RepeatMasker为Perl文件,可以安装在任一所需根目录下.Cross_match会通过e-mail方式由作者发送给符合条件的申请者.RepbaseUpdate将给予使用者名字和密码以便下载重复数据库文件.在实例中,建立一个文件,将其命名为repeat并置于home根目录下,然后复制RepeatMasker、TRF和cross_match到这一目录下.实例命令如下:$mkdirrepeat$cdrepeat2、更改程序许可.命令:$chmoduxRepeatMasker$chmoduxcrossmatch$ln-strf321.linux.exetrf3、通过配置脚本设置路径首先,找到Perl的安装路径:$whichperl默认为:/usr/bin/perl然后更改到repeat文件目录和RepeatMasker的目录,获得现在路径的命令是:usernameRepeatMasker$pwd默认路径是:/home/username/repeat/RepeatMasker接下来按照同样的方法获得TRF和cross_match的路径.
本文档为【RepeatMasker网页版和命令行版使用说明(中文翻译版)(3)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_637320
暂无简介~
格式:doc
大小:22KB
软件:Word
页数:9
分类:
上传时间:2022-08-25
浏览量:3