比如上表为logistic回归分析结果。种族是哑变量,同时和产妇年龄进行交互作用分析。此时,种族产生2个自变量,同时与产妇年龄的交互作用也产生2个自变量,1*2的结果。如果,两个都设置哑变量的变量开展交互作用分析,那么产生的自变量数排列组合一下,可能3*2、3*3或者更多了!
因此,回归分析的自变量数量不是原始变量的个数,而是回归分析将要呈现出来的数目。
5.回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响?
回归分析一般有向前逐步、向后逐步、双向逐步,一般来说,回归分析对自变量的个数不是建模成功的自变量数,而是候选自变量数,也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法--样本量真的不多--能否通过逐步回归法可以多一些变量进去呢?可以的,选择向前逐步和双向逐步,别选择向后逐步。简单的数据模拟分析显示,如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多,回归分析可以多考虑一些候选自变量。因为,这两种方法建模过程中不是候选自变量一口气全部纳入,因此可以避免样本量过多而超载的现象。
6.有效样本量一般建议自变量数10倍以上,但这事不绝对。统计学者也提过5-10倍以上的概念,说明5倍以上也可能可以。所以,10倍以上的概念可作为参考,接近或者超过则较为妥当。
7.针对小样本多自变量,如何进行自变量筛选呢?
对此,常规的方法就是先单因素后多因素。这估计很多人都知道,我也不多说了。反而,我要说的是,先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。
对于小样本量多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。
之前本号已经撰写了若干篇论文探讨如何筛选自变量进行回归建模,有兴趣者不妨看看。
1. 真实世界数据分析(1): 为什么是回归方法
2.困扰多年的问题:如何筛选自变量建立多因素回归模型
3.真实世界数据分析(3):基于DAG方法进行自变量的筛选
4.真实世界研究(4):简单案例分析中介变量的影响
5.先单因素后多因素----回归分析自变量筛选的常见方法
6.真实世界数据分析(6):自变量筛选的Change-in-Estimate法介绍
7.真实世界研究:自变量是定量数据,怎么构建回归模型?
感谢网友陈亮、z、kyo等积极参与!
统计小食系列推文
(1)数据不是正态分布还能做t检验吗?
(2)当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格?
(3)基本统计研究七宗罪,你犯了几条?来投个票吧
(4)方差分析后两两比较,究竟应该用哪种方法?
(5)再论“数据不是正态时,是否可以采用t检验?”
(6)“我的研究是基于量表的调查,如何计算样本量?”
(7)两组均数比较,可以用方差分析吗?谈谈结果一样的那些统计方法。
(8)趋势性检验还不会做?来看看最基本的趋势性检验方法
(9)临床研究基线均衡性比较除了用P值大小来反映,还可以用这种方法!
(10)多因素回归不能用逐步回归法?那么我该怎么办?
(11)是时候为非参数检验平反了,它不是备胎!
(12)小技巧!如何用SPSS计算率的置信区间
(13)最常见的两组率比较(定性变量)的样本量计算公式居然有5个,我应该选择哪个呢?
本号在传播统计学知识的同时,也放置了一些常用的资源来方便大家科研。所有资源全部免费,有兴趣的朋友可以关注。
1. 医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!
2. 重磅资源:100本“临床试验与统计学方法”英文书籍大放送!
3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!
4. 2006-2019中国卫生统计年鉴合集
5. 不做实验如何利用临床数据库发表论文?精选临床预测模型视频合集
6. 如何制作与分析量表?中英文权威书籍来帮忙。
7. EndNote 和NoteExpress 文献管理软件和视频教程,你还缺吗?
8. SPSS经典教程:张文彤SPSS初级+高级操作视频
9.分别面向医学大数据和社会经济数据的R语言高级建模课程4门
10.精选的meta分析视频来了!返回搜狐,查看更多