首页 PLINK上机

PLINK上机

举报
开通vip

PLINK上机 PLINK上机练习 孙广青 sunguangqing@bgitechsolutions.com BGI, Shenzhen plink简介 • PLINK 是由哈佛大学的Shaun Purcell开发的一个免 费,开源的全基因组关联分析软件。 • 软件下载URL: http://pngu.mgh.harvard.edu/~purcell/plink/res.shtml ...

PLINK上机
PLINK上机练习 孙广青 sunguangqing@bgitechsolutions.com BGI, Shenzhen plink简介 • PLINK 是由哈佛大学的Shaun Purcell开发的一个免 费,开源的全基因组关联分析软件。 • 软件下载URL: http://pngu.mgh.harvard.edu/~purcell/plink/res.shtml 测试数据也可在该页面的(Teaching materials and example dataset)下 载 1. 下载example.zip及teaching.zip到自己电脑的目录下(eg: D:\plink) 2. 解压文件到当前目录plink中 软件安装 --Dos • DOS系统下安装及运行 • 进入命令行界面 打开命令行“Win+R”->输入“cmd”回车进入命令界面->再输入“D:” 进入D盘->再输入cd空格plink就进入软件目录 -> 输入d: 输入目录plink • 输入plink --file extra测试软件是否在当前目录 软件安装 --Dos 1.连接VPN, putty登录集群 用户名和密码区分大小写 VPN 用户名:bgitech-training,密码: HGDaer32 putty 用户名:stu.. 密码:.. 登录集群 2.拷贝测试文件到自己目录下 命令: cp -r /home/teacher/sungq/* . 拷贝完成后用 ls 命令查看文件夹 3.进入plink目录 命令:cd plink 登录集群 • Linux下plink.exe及文件拷贝到当前目录,直接运 行 软件安装 --linux 输入格式 • 以extra数据为例的格式说明 extra数据包括两个文件,extra.ped和extra.map PED格式:文件以空格或者tab分隔,前六列是固定的格 式,依次是 Family id individual id(这列ID标注唯一后,家系和父母id缺失的可 以以自然数编码) paternal id maternal id sex(1 男 2 女 性别缺失可以用0或者其他数字表示) phenotype(-9或者0表示 缺失 ,1表示control,2表case) genotype(A/T/C/G ,missing 0)第七列及以后是基因型 PED文件截图,每行表示一个个体 注意:目前plink只能做双等位基因型分析,即同一位点不能 有第三种基因型 输入格式 家系ID 样本ID 父ID 母ID 性别 表型 snp1 snp2 snp3  MAP格式:文件以空格或者tab分隔,文件只有4列 Chromosome(1-22,x,y or 0)  rs# or snp identifier genetic distance(morgan,此列可设为0) base-pair position MAP文件截图 输入格式 • 命令说明: --noweb 不连接网络 --file 指定输入文件 --ped 指定ped文件 --map 指定MAP文件 --make-bed 数据转换为二进制格式 --out 指定输出文件名 输入命令 输入命令 • 两个文件前缀名相同 命令:plink --noweb --file extra --out extra 两个文件前缀名不同可分别输入 命令:plink --noweb --ped extra.ped --map extra.map --out extra • 二进制格式 数据量太大,节省时间和存储空将数据转换为二进制格式储存 plink --noweb --file extra --make-bed --out extra 输出文件:extra.bed,extra.bim,extra.fam • Log文件说明 输入命令 给出case/control数 目,性别分布 最终分析的SNP个 数 质控去掉的SNP数 目 • SNP QC  SNP call rate call rate比较低的SNP位点,基因分型出错概率也较高 命令行: plink --noweb --file extra --missing --out extra 输出文件: extra.imiss(个体call rate)和plink.lmiss(SNP call rate) 质控及分析 --SNP 个体call rate SNP call rate MAF power不足,分型出错概率也较高 命令行: plink --noweb --file extra --freq --out extra 输出文件:extra.frq 质控及分析 --SNP  哈代温伯格平衡(Hardy-Weinberg Test) 不存在突变、迁移和自然选择情况下,对于一个大的随机群里,基因频率 和基因型频率应保持不变 命令行: plink --noweb --file extra --hardy --out extra 输出文件: extra.hwe 计算哈温平衡的时候我们一般参考的是control个体的HWE检验结果 质控及分析 --SNP • Sample QC  Call rate  Gender match 检测实际性别与基因型推断得到的 是否一致 命令行: plink --noweb --file extra -- check-sex --out extra 输出文件: extra.sexcheck 由结果为“PROBLEM“或者“OK“ 判断性 别 质控及分析 --Sample • 用质控后的数据进行亲缘关系检测 命令行:plink --noweb --file extra2 --genome --out relation extra2表示质控后的PED和MAP文件 输出:relation.genome 质控及分析 --Sample PI_HAT列即为亲缘关系 双胞胎或者样本重复 (Pihat=1.0) 一级亲属(Pihat=0.5) 二级亲属(Pihat=0.25) • 近交系数(Inbreeding coefficients) 检测是否有样本污染或者群里outlier 命令行: plink --noweb --file extra --het --out extra 输出文件 :extra.het 出现负值,并且值越小时,说明观察到 的杂合子较多,可能出现样品污染或者 异族通婚等 质控及分析 --Sample 关联分析 --case/control • 样本质控和SNP质控后,进行关联分析 命令行:plink --noweb --file extra2 --assoc --out extra2 extra2表示质控后的PED和MAP文件 输出: extra2.assoc ,根据P值列选出候选SNP进行验证 • 样本质控和SNP质控后,进行家系关联分析 命令行:plink --noweb --file extra2 --tdt --out extra2 extra2表示质控后的PED和MAP文件 输出: extra2.tdt ,根据P值列选出候选SNP进行验证 关联分析 --family • 其他检验命令: --trend Cochran-Armitage 趋势检验 --logistic 逻辑回归分析 --fisher Fisher’s精确检验 关联分析 多重假设检验 • 每次统计检验都有犯错的概率,对SNP或者基因做关联分 析时检验次数很多,累积错误率增大 • 多重假设检验方法  Bonferroni correction 方法: p-value × (number of SNPs) vs 0.05  FDR (False discovery rate) 方法:p-value ×coefficient(locus number/locant) vs 0.05 命令行: plink --noweb --file extra2 --assoc --adjust --out extra2 输出:extra2.adjust Permutation Test 方法:swaps labels 命令行: plink --noweb --file extra2 --assoc --perm --out extra2 permutation次数最大为1000000 plink --noweb --file extra2 --assoc --mperm 10000 --out extra2 可自己设定最大permutation的次数 输出:extra2.perm 多重假设检验 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf • 各部分检验可以分开做,也可以通过一系列命令 叠加实现,eg: 1. plink --noweb --file extra --mind 0.1 --geno 0.1 --maf 0.01 --hwe 0.000001 --assoc --out extra 对位点过滤(call rate >=0.9,maf>=0.01,P_hwe>1e-6),样本过滤call rate>=0.9,然 后做关联分析 --mind和--geno可直接过滤样本和SNP位点数据 2. plink --noweb --file extra --make-bed --mind 0.02--out highgeno 提取样本call rate>=0.98的个体,并将数据输出为二进制格式 • 性别缺失 命令行:plink --noweb --file extra --allow-no-sex … 使用条件:存在样本性别缺失情况下使用,否则个体分析 时将被剔除 常用的其他命令 常用的其他命令 • 计算LD 命令行:plink --noweb --file extra --r2 --out extra 输出: extra.ld 限定上下游范围的可以用--ld-window-kb 500 • 单体型分析 命令行:plink --noweb --file extra --hap-window 3 --hap- assoc --out extra 输出:extra.assoc.hap 常用的其他命令 • Meta-analysis 对多个分析结果进行整合 命令行:plink --meta-analysis study1.assoc study2.assoc study3.assoc 常用的其他命令 练习部分 • 练习数据:wgas1.ped和wgas1.map Thanks
本文档为【PLINK上机】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_640886
暂无简介~
格式:pdf
大小:861KB
软件:PDF阅读器
页数:31
分类:
上传时间:2013-11-15
浏览量:128