PLINK上机练习
孙广青
sunguangqing@bgitechsolutions.com
BGI, Shenzhen
plink简介
• PLINK 是由哈佛大学的Shaun Purcell开发的一个免
费,开源的全基因组关联分析软件。
• 软件下载URL:
http://pngu.mgh.harvard.edu/~purcell/plink/res.shtml
测试数据也可在该页面的(Teaching materials and example dataset)下
载
1. 下载example.zip及teaching.zip到自己电脑的目录下(eg: D:\plink)
2. 解压文件到当前目录plink中
软件安装
--Dos
• DOS系统下安装及运行
• 进入命令行界面
打开命令行“Win+R”->输入“cmd”回车进入命令界面->再输入“D:”
进入D盘->再输入cd空格plink就进入软件目录
->
输入d:
输入目录plink
• 输入plink --file extra测试软件是否在当前目录
软件安装
--Dos
1.连接VPN, putty登录集群
用户名和密码区分大小写
VPN
用户名:bgitech-training,密码: HGDaer32
putty
用户名:stu.. 密码:..
登录集群
2.拷贝测试文件到自己目录下
命令: cp -r /home/teacher/sungq/* .
拷贝完成后用 ls 命令查看文件夹
3.进入plink目录
命令:cd plink
登录集群
• Linux下plink.exe及文件拷贝到当前目录,直接运
行
软件安装
--linux
输入格式
• 以extra数据为例的格式说明
extra数据包括两个文件,extra.ped和extra.map
PED格式:文件以空格或者tab分隔,前六列是固定的格
式,依次是
Family id
individual id(这列ID标注唯一后,家系和父母id缺失的可
以以自然数编码)
paternal id
maternal id
sex(1 男 2 女 性别缺失可以用0或者其他数字表示)
phenotype(-9或者0表示 缺失 ,1表示control,2表case)
genotype(A/T/C/G ,missing 0)第七列及以后是基因型
PED文件截图,每行表示一个个体
注意:目前plink只能做双等位基因型分析,即同一位点不能
有第三种基因型
输入格式
家系ID 样本ID 父ID 母ID 性别 表型 snp1 snp2 snp3
MAP格式:文件以空格或者tab分隔,文件只有4列
Chromosome(1-22,x,y or 0)
rs# or snp identifier
genetic distance(morgan,此列可设为0)
base-pair position
MAP文件截图
输入格式
• 命令说明:
--noweb 不连接网络
--file 指定输入文件
--ped 指定ped文件
--map 指定MAP文件
--make-bed 数据转换为二进制格式
--out 指定输出文件名
输入命令
输入命令
• 两个文件前缀名相同
命令:plink --noweb --file extra --out extra
两个文件前缀名不同可分别输入
命令:plink --noweb --ped extra.ped --map extra.map --out extra
• 二进制格式
数据量太大,节省时间和存储空将数据转换为二进制格式储存
plink --noweb --file extra --make-bed --out extra
输出文件:extra.bed,extra.bim,extra.fam
• Log文件说明
输入命令
给出case/control数
目,性别分布
最终分析的SNP个
数
质控去掉的SNP数
目
• SNP QC
SNP call rate
call rate比较低的SNP位点,基因分型出错概率也较高
命令行: plink --noweb --file extra --missing --out extra
输出文件: extra.imiss(个体call rate)和plink.lmiss(SNP call rate)
质控及分析
--SNP
个体call rate
SNP call rate
MAF
power不足,分型出错概率也较高
命令行: plink --noweb --file extra --freq --out extra
输出文件:extra.frq
质控及分析
--SNP
哈代温伯格平衡(Hardy-Weinberg Test)
不存在突变、迁移和自然选择情况下,对于一个大的随机群里,基因频率
和基因型频率应保持不变
命令行: plink --noweb --file extra --hardy --out extra
输出文件: extra.hwe
计算哈温平衡的时候我们一般参考的是control个体的HWE检验结果
质控及分析
--SNP
• Sample QC
Call rate
Gender match
检测实际性别与基因型推断得到的
是否一致
命令行: plink --noweb --file extra --
check-sex --out extra
输出文件: extra.sexcheck
由结果为“PROBLEM“或者“OK“ 判断性
别
质控及分析
--Sample
• 用质控后的数据进行亲缘关系检测
命令行:plink --noweb --file extra2 --genome --out relation
extra2表示质控后的PED和MAP文件
输出:relation.genome
质控及分析
--Sample
PI_HAT列即为亲缘关系
双胞胎或者样本重复
(Pihat=1.0)
一级亲属(Pihat=0.5)
二级亲属(Pihat=0.25)
• 近交系数(Inbreeding coefficients)
检测是否有样本污染或者群里outlier
命令行: plink --noweb --file extra --het --out extra
输出文件 :extra.het
出现负值,并且值越小时,说明观察到
的杂合子较多,可能出现样品污染或者
异族通婚等
质控及分析
--Sample
关联分析
--case/control
• 样本质控和SNP质控后,进行关联分析
命令行:plink --noweb --file extra2 --assoc --out extra2
extra2表示质控后的PED和MAP文件
输出: extra2.assoc ,根据P值列选出候选SNP进行验证
• 样本质控和SNP质控后,进行家系关联分析
命令行:plink --noweb --file extra2 --tdt --out extra2
extra2表示质控后的PED和MAP文件
输出: extra2.tdt ,根据P值列选出候选SNP进行验证
关联分析
--family
• 其他检验命令:
--trend Cochran-Armitage 趋势检验
--logistic 逻辑回归分析
--fisher Fisher’s精确检验
关联分析
多重假设检验
• 每次统计检验都有犯错的概率,对SNP或者基因做关联分
析时检验次数很多,累积错误率增大
• 多重假设检验方法
Bonferroni correction
方法: p-value × (number of SNPs) vs 0.05
FDR (False discovery rate)
方法:p-value ×coefficient(locus number/locant) vs 0.05
命令行: plink --noweb --file extra2 --assoc --adjust --out extra2
输出:extra2.adjust
Permutation Test
方法:swaps labels
命令行: plink --noweb --file extra2 --assoc --perm --out extra2
permutation次数最大为1000000
plink --noweb --file extra2 --assoc --mperm 10000 --out extra2
可自己设定最大permutation的次数
输出:extra2.perm
多重假设检验
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
• 各部分检验可以分开做,也可以通过一系列命令
叠加实现,eg:
1. plink --noweb --file extra --mind 0.1 --geno 0.1 --maf 0.01 --hwe
0.000001 --assoc --out extra
对位点过滤(call rate >=0.9,maf>=0.01,P_hwe>1e-6),样本过滤call rate>=0.9,然
后做关联分析
--mind和--geno可直接过滤样本和SNP位点数据
2. plink --noweb --file extra --make-bed --mind 0.02--out highgeno
提取样本call rate>=0.98的个体,并将数据输出为二进制格式
• 性别缺失
命令行:plink --noweb --file extra --allow-no-sex …
使用条件:存在样本性别缺失情况下使用,否则个体分析
时将被剔除
常用的其他命令
常用的其他命令
• 计算LD
命令行:plink --noweb --file extra --r2 --out extra
输出: extra.ld
限定上下游范围的可以用--ld-window-kb 500
• 单体型分析
命令行:plink --noweb --file extra --hap-window 3 --hap-
assoc --out extra
输出:extra.assoc.hap
常用的其他命令
• Meta-analysis
对多个分析结果进行整合
命令行:plink --meta-analysis study1.assoc study2.assoc study3.assoc
常用的其他命令
练习部分
• 练习数据:wgas1.ped和wgas1.map
Thanks