回归分析的区别

您所在的位置:网站首页 regress回归分析 回归分析的区别

回归分析的区别

2023-03-15 15:37| 来源: 网络整理| 查看: 265

常见的多重回归、logistic回归、LASSO回归、COX回归以及逐步回归到底有什么区别呢?在什么情况下应该用什么模型呢?本文汇总这些常用的回归模型。

首先看一下回归分析到底是什么,用途在哪里。

回归分析的定义

利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。

了解了回归分析的定义,然后我们从简单线性回归入手,逐步理解回归模型(先别害怕,这里的逐步不是回归模型)。

简单(simple)线性回归

简单线性回归模型(simple linear regression model)是指1个因变量、1个自变量的模型。最典型的就是我们做实验经常会用到的标准曲线。

Y=α+βX

掌握了简单线性回归是怎么回事儿,下面的部分就好理解了:

1、多重(multiple)线性回归

多变量线性回归或多重线性回归(multivariable or multiple linear regression)是有多个自变量,只有1个因变量,模型如下:

Y=α+β1X1+β2X2+β3X3……

多重线性回归与简单线性回归的区别主要是因变量的数量,从图形上看不出区别。

适用:因变量必须为连续型变量,可以分析哪些因素可以影响肿瘤的大小(连续变量),但不能使用分析哪些因素可以影响老年人的是否患高血压病(分类变量)。

2、Logistic回归

Logistic回归是一种概率模型,它是以某一时间发生与否的概率P为因变量,以影响P的因素为自变量建立回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。

Logistic的方程式为:

Y=β0+β1X1+β2X2+……

β1,β2……称为回归系数,反映了在其他变量固定后,X=1与X=0相比发生Y事件的概率。OR(odds ratio)越大,发生结果的可能性越大。

常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。

适用:因变量为分类数据,一般用于二分类变量(如发病与否,死亡与否)。Logistic回归分析对样本量有一定要求,一般样本量为自变量个数的10倍;不允许有数据删矢。

3、Cox回归(Cox proportional hazard model)

可以分析多种因素对生存时间的影响,允许有“删矢”值的存在。主要用于肿瘤和其他慢性病的预后因素分析,也可用于一般的临床疗效评价和队列的病因探索。

适用:带有结局的生存时间资料。

单因素Cox:对每个因素进行分析。

多因素Cox:将所有关键因素一起分析。

Logistic回归分析只考虑了终点事件的出现与否,但恶性肿瘤等随访研究中,还需要考虑观察对象达到终点所经历的时间长短。

生存分析就是将终点事件的出现与否和达到终点所经历的时间长短结合起来分析的一类统计分析方法。其包含的具体统计过程如下:

(1)寿命表用于分析分组生存资料,求出不同组段的生存率。或者当样本量较大时(如n > 50),可以把资料按不同时间段分成几组,观察不同时间点的生存率。

(2)Kaplan-Meier用于样本含量较小时,不能给出特定时间点的生存率,这样就不用担心每个时间段内只有很少的几个观测,甚至没有观测的尴尬局面。单因素生存曲线比较(Kaplan-Meier法)采用乘积极限法(Product-limit estimates)来估计生存率,同时还可以对一个影响因素进行检验。它适用于以个体为单位收集信息的精确生存时间的生存资料,是最为基本的一种生存分析方法。

(3)Cox回归用于拟合Cox比例风险模型,这是生存分析中最重要的一种分析方法,它的出现具有划时代的意义,是多因素分析方法中最为常用的一种。

K-M法只能研究一个因素对生存时间的影响,当对生存时间的影响因素有多个时便无能为力,而Cox比例风险模型则可以估计多个研究因素对风险率的影响,该过程称为Cox回归。

4、逐步回归(Stepwise Regression)

基本思想:将变量一个一个地引入或删除,引入的条件是其偏回归平方和经检验是显著的。(从多因素回归模型中删除一个自变量Xi后,回归平方减少的部分,称为Xi对Y的偏回归平方和。)

三种方法:

(1)向前法(Forward selection):每次添加一个自变量到模型中,直到增加的变量不会使模型有所改进为止。

(2)向后法(Backward elimination):从模型包含所有自变量开始,每次剔除一个自变量,直到会降低模型质量为止。

(3)向前向后法(Bidirectional elimination):变量每次添加一个,但每一步中,变量都会被重新评价,对模型没有贡献的变量将会被删除,同一个自变量可能会被添加、删除几次,直到获得最优模型。

衡量标准:AIC准则(Akaike Information Criterion),衡量统计模型拟合优良性(Goodness of fit),越小越好。

逐步回归可用于多重线性回归、logistic回归及Cox回归中变量的筛选。

这里将多重线性回归、logistic回归及Cox回归这三大回归的异同做了一个汇总,来加深一下印象:

5、LASSO回归

最后一个LASSO回归,有一点特别。

LASSO全称Least absolute shrinkage and selection operator,是一种筛选变量的方法,确切来说不是回归方法,是一种压缩估计。LASSO的思想是在传统的最小二乘估计上对模型的系数施加一个惩罚。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。

适用:自变量数量远大于样本数量时使用。

一般是先用LASSO筛选出变量,之后用筛选出的变量建立COX回归。

下面是LASSO的图:

RNA甲基化修饰(m6A)研究思路及国自然课题设计专题会议

时间:11.6-11.7

线上直播,赠送回放视频,长期答疑群

作为近年来CNS期刊的热点和国自然的热门,RNA的表观遗传学研究受到很高的重视,其中最具代表的是N6-甲基腺嘌呤(N6-methyladenosine,m6A),即发生在RNA分子腺嘌呤第6位氮原子上发生甲基化修饰。与m6A相关的论文发表数量近年来显著升高,且以CNS期刊为代表的高分值文章比例非常高(图1)。

图1.m6A文献发表数(Pubmed数据库)

研究发现,作为基因转录及转录后调控的重要作用方式,m6A修饰参与调节生物体中多种生物学过程,与多种疾病发生、发育具有显著相关。m6A在细胞加速mRNA代谢和翻译,以及在细胞分化、胚胎发育和压力应答等过程中起重要作用。m6A除了分布在mRNA中,也出现在很多非编码RNA中,如:环状RNA、LncRNA等。

国家自然基金支持情况既代表国家宏观层面对学术研究的导向性,也可以反映出当前学术研究的热点方向,我们以国家自然科学基金中标项目分析m6A甲基化研究。调查发现(图2)在2009年-2016年间,以m6A甲基化研究的标书年均中标数量在3-6项左右,这一数字在2017年增长为22项,增长近4倍;而2018年,m6A甲基化中标项目激增至65项,比2017年又提高了近3倍;与2016年相比,2018年的增长倍数超过了10倍。同时,从中标金额角度来看,2016年中标金额为260万元,到2017年则增长为1038万,同样增长了4倍;2018年的中标金额则达到了2915万元,比2017年增长了近3倍。

在2年时间内可以达到国自然中标数以及中标金额均增长超过10倍,且可以预期未来其仍然会有进一步增长,这表明了m6A甲基化领域是一个增长迅速、增长势头强的新兴领域。

图2.m6A相关国自然中标数目(科学网数据库)

从研究领域来讲(图3),从2009年到2018年间,m6A甲基化研究与肿瘤相关研究项目达到40项,占所有m6A甲基化研究项目的47%;其次为遗传学、分子生物学等基础学科。这一学科比例分步也体现出m6A甲基化研究在肿瘤研究中的重要意义,也是我们公司选择MeRIP-seq与RNA-seq数据整合分析在肿瘤相关研究的定位依据。

图3.m6A与肿瘤相关国自然课题学科分类(科学网数据库)

 

以上结果看着非常喜人,但是在具体的实施过程中,就会面对很多现实的问题需要取舍。比如:

1.哪些疾病或者研究方向可以设计与m6A修饰的相关研究?

2. 测序费用比较贵,怎么才能做得更有性价比,更有延伸性?

3.m6A测序和实验数据如何解读?具体试验分组该如何设置?测序后的实验如何延伸和开展?

4.m6A可以和哪些研究手段进行结合分析?

5.最新的非编码RNA中的m6A研究该如何开展等?

6. 除了常规的测序实验之外,m6A研究还能如何开展?

需要了解以上信息,在具体实验时才清楚如何设计课题,如何开展试验。鉴于此我们特别邀请到在此方面经验丰富的专家老师通过两天的会议给您理清相关思路,补充相关知识。

导师介绍

本次课程主讲老师刘老师来自中科院,长期专注于表观遗传学等方面研究,对m6A方向的科研思路以及最新研究动态熟悉掌握。从事相关科研课题设计工作多年,发表论文40余篇,其中10分以上5篇,主持和参与国自然基金项目5项,其中m6A课题相关的4项。主讲老师多次应邀为大学、医院、科研单位进行相关主题讲座指导,具有丰富的课题设计和执行经验,并多次受邀在国际大会上发言,对m6A相关的RIP测序、涉及非编码RNA的m6A调控机制等相关方向有深刻了解,且具有丰富讲课经验表达能力,本课程内容为原创设计属于国内创新,通过两天的课程一定能让您对RNA表观遗传学方面的课题设计及研究执行有很好的理解。

培训重点

 通过整整两天的学习,了解RNA甲基化修饰(主要是m6A)相关研究的实验设计思路及具体注意事项,可以更加有效的进行m6A相关课题的研究;了解m6A最新研究进展,强调在非编码RNA(miRNA和LncRNA)中的m6A调控关系;了解meRIP-seq测序的整合分析思路以及测序报告解读;meRIP-seq测序后续实验思路开展及课题延伸。

培训目标

1.了解m6A修饰相关研究的疾病类型及具体调控机制。

2.了解meRIP-seq测序方法以及后续研究思路的延伸。

3.掌握m6A修饰相关国自然标书研究思路的总结及写作重点。

培训大纲

刘老师作为公司技术部主管,为更好的推广m6A修饰的技术,特此为大家开设小班化课程,5人开班,10人停收学员,保证每名学员有充分的时间和讲师进行沟通。注重实战和答疑,专注于让每名学员得到质的提升,极大的区别于市场上其他同类的培训机构。我们不干讲,不看视频,不背理论,我们真正做到纯实战训练和充分的互动答疑,我们的目标是您的100%满意!

培训相关

·开班时间:11.6-11.7

·开班地点:线上直播课

·主办方:尔云间科研培训中心

·承办方:上海尔云信息科技有限公司

·报名费:3200/人(可开具发票,费用包含电子版材料,赠送回听视频,长期答疑交流群)

·优惠政策:

1、提前报名及转账的,可以提前拿到学习材料

2、两人成团报名,每人减100

3、三人成团报名,每人减200

4、参与培训的老师,课程结束后可以获得全套视频

·报名方式:

添加下方微信并发送报名信息,收到回复即可报名成功

甘老师:18586620921(同微信)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3