孟德尔随机化(三)

您所在的位置:网站首页 plink数据库 孟德尔随机化(三)

孟德尔随机化(三)

2024-07-03 16:12| 来源: 网络整理| 查看: 265

前几天咱们分享了看完不会来揍我 | 孟德尔随机化万字长文详解(二)—— 代码实操 | 附代码注释 + 结果解读,很多小伙伴们反映在使用代码下载数据时会遇到各种网络或其他报错问题,令人头大的那种!不要慌!从数据库下载数据到本地的数据处理方法这就来啦!

如果小伙伴们有需求的话,可以加入我们的交流群:一定要知道 | 永久免费的环境友好型生信学习交流群又双叒叕来啦!| 伴随不定期群友好物分享!在这里,你可以稍有克制地畅所欲言!

超级建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看!

如果有需要个性化定制分析服务的小伙伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属解决方案!全程1v1答疑!!绝对包你满意!

直接开始!

数据要求

在进行**孟德尔随机化(Mendelian Randomization,MR)**分析时,关于曝露因子的 GWAS 数据,TwoSampleMR需要一个工具变量数据框,要求每行对应一个 SNP,至少需要 4 列最基本信息,包括:

SNP - rsID,rsID 是 SNP 的唯一标识符。beta - 效应大小。如果是分类变量,我们就要使用log(OR),详见:看完不会来揍我 | 孟德尔随机化万字长文详解(二)—— 代码实操 | 附代码注释 + 结果解读。se - 效应大小的标准误差effect_allele - 效应等位基因

我们也可以提供以下对 MR 有用的其他信息:

other_allele - 非效应等位基因eaf - 效应等位基因频率Phenotype - SNP具有效应的表型名称

我们还可以提供以下额外信息(非必须):

chr - SNP 所在的染色体position - SNP 在染色体上的位置samplesize - 用于估计效应大小的样本大小ncase - 病例数量ncontrol - 对照组数量pval - SNP 与曝露因子关联的 P 值units - 以哪种单位呈现效应gene - SNP 的基因或其他注释

注意注意:不同来源的数据可能列名会有些许差异,大家要注意哈!

大家在下载完成后可以检查一下数据是否符合要求,从数据库下载的还好,一般不会有问题,主要是大家从相关文献获取数据的时候要注意这个问题。

从 IEU 数据库获取数据 数据下载

IEU 数据库官网:https://gwas.mrcieu.ac.uk/

我们可以直接在中间的大框框里输入关键词,也可以点击右上角的datasets进入新的页面,在Trait contains的框框里输入关键词。比如我们这里就以body mass index(身体质量指数,也就是咱们常说的 BMI)作为关键词进行输入,然后点击🔍或者Filter,就会看到有很多数据被筛选出来啦!

我们今天就以探究 BMI(暴露)和乳腺癌(结局)之间的关系为例吧!

我们选择ieu-a-2这个数据吧!点进去!

点击Download VCF(也可以用wget等命令直接下载,大家按自己习惯自由发挥!),即可下载完整的 GWAS 数据。

结局数据也是一样的下载方式,我这里就不演示了哈!我选择了ukb-b-16890(乳腺癌相关)这个数据。

下载完后长这样:

数据下载与处理

咱们开始读取它们,顺便处理!

# 加载包,没有的小伙伴记得安装一下哟! # BiocManager::install("VariantAnnotation") library(VariantAnnotation) # remotes::install_github("mrcieu/gwasvcf") library(gwasvcf) # devtools::install_github("mrcieu/gwasglue") library(gwasglue) library(TwoSampleMR) library(ieugwasr) library(dplyr) # 读取暴露数据,读取可能会有点慢,毕竟文件蛮大嘛,大家不要着急哈,这是正常滴! exposure_vcf


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3