经过前面的讲解,我们已经掌握了GWAS分析所需的数据类型和数据质控方法,终于进入我们的核心主题:关联分析。GWAS分析通常会建立回归模型,以检验标记与表型之间的关联性。其核心假设如下:
假设定义
1. 零假设(H0):标记的回归系数为零,意味着标记(如SNP)对表型没有影响。
2. 备择假设(H1):标记的回归系数不为零,表示标记(如SNP)与表型存在相关性。
表型数据类型
在第一期中提到表型数据主要包括三种类型:数量性状、质量性状和分级性状。进行关联分析之前,我们需根据不同的表型类型选择合适的分析方法,并且为了降低假阳性的概率,通常需要对p值进行矫正。
1. 连续性状分析
连续性状指在群体中呈现连续分布的特性,如身高、体重、血压等。可选择的方法有T检验(Student’s t-test)和线性回归(linear regression)。
分析步骤如下:
- 使用Plink进行关联分析(不校正/校正p值):
- 不考虑协变量:
plink --bfile test --assoc --out result_assoc
- 校正p值:
plink --bfile test --assoc --adjust --out result_assoc
(注意:生成的文件会带有*assocadjusted后缀) - 考虑协变量的线性回归分析:
plink --bfile test --linear --covar covariate.txt --out result_linear
2. 阈值性状分析
阈值性状的表型值通常分为1和2(其中0和-9表示缺失),例如对照组(1)和实验组(2)。可选方法为卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
分析步骤如下:
- 使用Plink进行关联分析(不校正/校正p值):
- 不考虑协变量:
plink --bfile test --assoc --out result_assoc
- 校正p值:
plink --bfile test --assoc --adjust --out result_assoc
(注意:生成的文件会带有*assocadjusted后缀) - 逻辑回归分析:
plink --bfile test --logistic --covar covariate.txt --out result_logistic
3. 分级性状分析
分级性状是经过人为观察后可分类的离散性变量。值得注意的是,分级性状的最终定义部分依赖于经验。例如,植物的抗病性可以根据叶片病斑的面积分为连续型特性,也可以人为设定阈值,定义为分级性状。
分析步骤如下:
- 使用Plink进行关联分析(不校正/校正p值):
- 不考虑协变量:
plink --bfile test --assoc --out result_assoc
- 校正p值:
plink --bfile test --assoc --adjust --out result_assoc
(注意:生成的文件会带有*assocadjusted后缀) - 逻辑回归分析:
plink --bfile test --logistic --covar covariate.txt --out result_logistic
结果的筛选与可视化
通过上述步骤,我们终于获得了期待的显著性结果。可以对结果表进行p值筛选,以过滤假阳性,并进行可视化展示(如著名的Q-Q plot和Manhattan图)。如何进行可视化分析呢?请继续关注我们的后续内容。
作为生物医疗数据分析的重要工具,尊龙凯时致力于提供最优质的分析方案,帮助研究者在GWAS分析中获得精准可靠的结果。