GWAS相关名词解释及基础知识储备[长期更新]

您所在的位置:网站首页 零是什么意思解释 GWAS相关名词解释及基础知识储备[长期更新]

GWAS相关名词解释及基础知识储备[长期更新]

2024-07-05 16:26| 来源: 网络整理| 查看: 265

转载自GWAS综述(生信文献阅读俱乐部精选) 相关名词解释

Genome-wide association studies(关联分析):扫描遗传标记,通常是单核苷酸多态性(SNPs),使用统计学相关的手段以发现与性状相关的变异体

Complex traits(复杂性状):无论是由多基因和环境因素共同作用引起的数量性状(例如血压和身高)还是常见疾病(例如癌症),每种效应都具有相对较小的影响,并且几乎不需要疾病发生就会产生该性状。

Tags SNPs(标签SNPs):一般与临近的SNP紧密关联,使得标签SNP充当未测量的SNP的替代物。

功能SNP一般指对相应基因表达蛋白活性或表达量有明显影响,从而有明确功能影响的SNP。由于基因组上snp数量巨大,在做基因扫描确定与疾病关系研究时成本巨大,但遗传时距离近的基因往往形成连锁,SNP也成片的传递,既距离越近的SNP一起传递给下一代的机率越高而形成连锁,一段片段内一个SNP往往可以代表区域内所有SNP的类型,那这个SNP就称Tag-SNP,既标签SNP,运用标签SNP可大幅减少研究时所要检测的SNP数量,降低研究成本。

更新:一般通过plink等工具进行clump后挑选出最显著或具有生物学意义的SNP,作为tag SNP。

如何选择标签SNPs??

Linkage disequilibrium(连锁不平衡):给定群体中单倍型上不同基因座的等位基因的非随机关联。LD是进行精细定位的关键,来自不同变体。没有等位基因的重组,但可以共同遗传某系性状,意味着变体在同一染色体上邻近。

Casual variants(因果变体):多个因果变体遗传变异在机制对疾病或数量性状有贡献,但并不完全具有渗透性。因为单个变体可能不具有致病的能力。

Fine-mapping(精准定位):使用统计学,生物信息学或功能方法来改进因果变体的基因组定位

通过GWAS分析找到的基因组易感位点往往范围很大,其中很多序列变异仅仅具有统计意义上的关联性(association),而并不具有因果性(causation)。由此产生的候选基因列表也非常的庞杂,包含很多其实和疾病没有关系的基因。

在GWAS分析后可以进行精细化定位(fine-mapping),进一步缩小易感位点,排除掉仅有关联性,而没有因果性的序列变异。这个精细化定位必须在大样本中进行严格的质控、并设计和使用新的分析方法。精细定位到何种程度影响了GWAS的发现在基础和临床研究中的应用价值。

通过添加注释信息,基于不同统计模型的fine-mapping算法可用于精细化定位。

Penalized regression(刑罚化回归):一种通过最大化数据的对数似然性来估计回归系数的方法,同时防止限制回归系数大小的惩罚,将小系数收缩为0,有时恰好为0,。尽管这回倒是系数估计偏差,但它会通过减少系数估计的方差来改进模型的总体预测。

惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应你对对应的统计问题的某种先验知识(比如回归系数当中应该有很多0啊,回归系数不应该太大啊)

常见的惩罚的惩罚线性回归模型包括套索回归和岭回归。

Summary statistics(总结统计):衡量性状与一个或多个SNPs之间的统计关联度,其概括SNP对性状影响的大小,影响大小的变化以及影响大小如何相互关联。对于case/control研究,总结统计包括逻辑回归估计的对数比率,对数比率的差异和对数比率之间的相关性。

statistical power(统计力):当存在统计关联时,正确舍去SNP与性状之间无统计关联的null假设的概率。统计力取决于SNP效应的大小,样本大大小小和决定统计显著性的P值阈值。

GWAS分析流程图

表型和SNP收集,进行GWAS关联分析

绘制曼哈顿图,选取p值>阈值的有价值区域(公认阈值为5×10-8)

利用haploview图分析SNP之间的连锁不平衡(LD)结构探索每个感兴趣的区域。

通过LocusZoom图来观察统计学关联,该图阐明了每个SNP与主要SNP的关联模式,以及该区域的基因注释。

LocusZoom的设计是为了方便查看局部关联结果,以及关于一个位点的有用信息,例如它包含的基因的位置和方向、连锁不平衡系数和重组率的局部估计。一般用来汇总统计信息。

然后评估多个SNP对性状的同时影响的统计模型,可将区域划分为独立的子区域以减轻计算负担。

如何正确选择因果关联的SNPs区域?

主导SNP的局限性在于,他可能不是因果变体导致。这可能是因为GWAS microarrays是基于标签SNP,标签SNP仅与未测量的因果SNP相关。此外,即使测量或估算因果SNP,当统计功效不大时,很可能会导致因果SNP与性状的统计关联不是所有相关SNP质检最显著的关联(存在多重因果关系和LD的影响)。

SNP数据的来源(一般来自芯片数据)

再对每个区域进行统计学精细定位(基于LD)

影响精准定位的因素:区域内因果SNP的数量及其对性状的影响大小,局部LD结构,样本大小,SNP密度以及是否可以测量因果变异。通常获得高SNP密度来捕获因果变异极其重要(可以通过基因型插入和增加额外的基因分型实现)

基因型插入(imputation)

SNPs插补可以填补零星缺失的基因型,协调来自不同GWAS基因分型阵列的数据,以执行汇集或meta分析并增加用于精细定位的SNP密度。插入成功的关键标准是直接测定的SNP与没固定类别SNP高度相关,并且提供了代表研究样本的LD模式和等位基因频率的模板的适当参考标准。虽然插入SNP对质量控制过滤的选择具有一定提升作用,但检测与特征相关联的能力随着插补精度的降低而降低。

更新:为降低成本,不同的芯片会选择不同的SNP位点进行测量,这样在基因组上存在很多不能被call出来的位点。可以利用LD的信息,结合该人群的全基因组数据(通常来自1KG),对没有测量出来的位点进行插补,软件完成插补后会提供INFO SCORE,用来判断插补的准确率。

增加额外的基因分型??

由于SNP插入的准确性取决于LD结构,因此缺乏LD的区域可能需要实际的基因分型来准确评估它们与特征的关联。通过开发针对某些疾病或特征的定制的SNP array,成本效益型使得额外的基因分型变得更容易获得。额外基因分型有助于的情况是:验证推算的SNPs,可能通过减少基因型测量误差来改善精细定位;发现不具有主导SNP的强LD的低频SNP;在参考面板中不能很好地表达SNP。

精确定位的方法

目前主流的精确定位的方法有三种分别是:探索式方法,惩罚回归模型和贝叶斯方法。

探索式方法:该方法是最早被使用来做精确定位的方法,从实际经验和尝试验证猜测发展而来,但它没有统一定义的标准。

其原理是:来自GWAS的主导SNP周围的LD结构在精细定位中具有重要作用,通常我们首先检查围绕主导SNP的SNP之间的关联。其一种方法是根据它们与主导SNP的成对相关性(r2)过滤SNP,保留那些r2高于阈值的SNP才有潜在因果关系。

缺点:功能挖掘能力有限,因为它们没有考虑SNP对性状的共同影响,并且它们不能客观地衡量SNP是否是因果的变体,还是依赖于某种程度上的任意阈值和SNP之间相关性的主观解释。

惩罚回归模型:惩罚回归模型是在其他统计领域开发的,其目的是将高维预测变量(例如,用于精细定位的SNP数据)降低与特征强烈关联的小得多的集合。

传统的模型建立是基于前向选择(或可选的逐步方法),使用P值来确定SNP是否应包含在模型中。然而,大量的SNP和SNP之间的高度相关性使得传统的回归模型不稳定。

惩罚回归模型通过将小效应估计收缩到零,同时将SNP效应大小和SNP选择估计到模型中。处罚模型使用调整参数来选择模型中的SNPs,并选择调整参数来促进具有较小效应大小的SNP从模型中移除。 处罚模型倾向于导致稀疏模型,仅选择属于一组相关SNP的一个或几个SNP。这可以产生一个很好的预测模型,其中包括非因果SNP,并且在它们高度相关时排除因果SNP。

贝叶斯方法:贝叶斯方法专为精细定位而设计,与启发式和惩罚回归方法相比具有优势

惩罚性回归和贝叶斯变量选择方法的挑战是确定哪些SNP对性状具有非零效应大小(回归β-值)。 刑罚化模型选择基于交叉验证的SNPs,从而最大限度地减少预测性状的误差。相反,贝叶斯推断侧重于特定假设或特定模型的概率,从而提供了概率性解释。

贝叶斯方法的精细定位有许多优点。首先,与P值不同,可以直接比较SNP的后验概率。其次,与根据与主导SNP的相关性选择SNP相比,他们倾向于选择较少的SNP作为潜在的致病因素。第三,研究表明,贝叶斯方法比条件逐步回归和惩罚回归模型更好。最后,因为贝叶斯模型基于SNP的共同作用,所以它们控制具有较大效应的SNP,提高了检测效应较小的SNP的能力。

将个研究与meta-analyses相结合

将多个研究的数据结合可以有效的提高精确定位的准确性,上述的策略可以用于当个人水平的数据结合在一起。但是个人水平的数据并不是那么好从多个研究中获取。因此,可以使用与SNP的性状关联仅需汇总统计。

这种策略越来越popular,因为它简化了数据共享和计算问题。选择适当的汇总统计数据时,与使用个体级别数据相比,这方法更加不容易丢失关键的信息。(当原始数据用于估计SNP相关性时,相对于分析个体级数据,不存在信息丢失)。实际的例子通常使用合适的参考样本来评估SNP的相关性,在1000个基因组计划,允许将单个SNP分析的汇总统计数据组合起来进行联合分析。但是要注意的是如果参考样本中LD 模式没有代表性,可能会让联合分析产生偏差,因此参考样本的大小不应该太少,要随着GWAS的大小而增加。

不同种之间的GWAS精细定位

对种族差异种群的GWAS的比较表明,SNP与复杂性状的关联通常在不同种群中是一致的,等位基因对性状的影响方向相似。将遗传多样性群体中同一性状的GWAS结果结合起来的跨种族荟萃分析可以通过利用LD模式中的种族差异来辅助精细定位。重要的问题可以重建为,是关于种族群体的选择。例如,基于不同欧洲血统或欧洲和亚洲血统的混合分析,对精细定位的提高微乎其微。但通过包括非洲的血统(具有狭窄的LD)就可以获得更加更加可靠精确的定位。

基因的注释

基因注释是精确定位最重要的一步,因为没有基因功能的解析,定位都是徒劳。将生物学功能配对到DNA序列的基因组注释,可以提供关于通过精细定位分析选择的SNP的可能功能的信息,并且可以帮助确定后续功能研究的优先次序。常见的公众基因功能数据库包括, Gene Ontology, GENCODE, ENCODE, FANTOM5 and the Roadmap Epigenomics Project。

通过将多种数据类型集成到各种组织和细胞类型中,当前的数据库为大约80%的人类基因组提供了功能注释。对已发表的GWAS结果的分析已经确定了复杂特征关联中,功能注释是显着丰富,促使使用注释来提高精定位的准确性。

下面分蛋白质编码注释和非蛋白质编码注释来讨论:

蛋白质编码注释

编码蛋白质的基因中SNP的注释集中在它们对所得蛋白质结构的影响上。注释的实例包括SNP是否发生在外显子,内含子或剪接位点或是否参与可变剪接。大量的生物信息学注释方法可用于功能表征编码SNP并提供预测其有害影响的比重。

非编码蛋白质注释

DNA元素百科全书(ENCODE)项目已经证明基因组是普遍转录的,并且大部分碱基存在于初级转录本中,包括非蛋白质编码转录本。非编码区的遗传变异通常涉及基因调控。非编码注释的一些实例是启动子,增强子,长非编码RNA基因座,转录起始位点,转录因子结合位点,调节序列,染色质可及性和组蛋白修饰模式的特征以及DNaseI超敏感位点。可以通过来自数据库的位置权重矩阵来估计对推定的转录因子结合位点(TFBS)基序的变体影响。

将注释与精确定位相结合

SNP注释通常应用于通过精细定位分析选择的SNP,以便识别注释富集的模式并优先考虑功能验证的候选基因。这种方法会有一定的误差性。替代的方法有,使用功能注释来对回归模型中的SNP进行加权或扩展贝叶斯模型以允许SNP因果依赖于注释的先验概率。

将精确定位与注释相结合具有一定的限制:首先,将注释纳入先验概率对有效的研究的影响有限,其次,目前对广泛基因组功能的理解可能过于局限,无法准确地改进因果关系的先验概率。相反,当关联信号最好是中等的,在高LD区域中,当区域中存在多个因果SNP时,或者当不同区域共享特定注释特征的富集时,注释可能有所帮助。

将GWAS与基因表达相结合

GWAS发现的超过90%的性状相关等位基因定位于非编码区域,有强有力的证据表明增强子,启动子,绝缘子等调节元件的富集。此外,与具有相同等位基因频率的基因型阵列上的其他SNP相比,与复杂性状相关的SNP显着更可能是表达数量性状基因座(eQTL)。这表明GWAS发现的SNP影响附近基因的表达量,并且这种改变的表达最终影响该性状。

统计方法将eQTL数据与GWAS数据整合以量化,是从SNP到基因表达到关联复杂性状的途径。中间变量mRNA是SNP和性状之间的介质。测试因果途径的一种方法是通过因果推断测试,小P值推断因果关系。随机化是另一种方法,可用于区分单个SNP是否影响基因表达和性状与LD中单独的SNP是否影响基因表达和特征。整合eQTL和GWAS结果的关键问题是测量表达的组织类型。复杂疾病通常由多种组织或细胞类型的功能障碍引起,并且基因的表达在不同类型的组织中变化很大。为特定疾病过程或复杂特征选择相关组织类型可能是一项重大挑战。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3