Topic 5. 样本量确定及分割

article/2025/3/15 9:15:43

    每次做方案设计的时候,都会涉及到一个尖锐的问题,客户会问我得用多少的样本量才能发文章,这个嘛,事情从理论上回答还是有依据的,但是从实际出发永远都是 “理想很丰满,现实很骨感!” 。不过还是需要从理论上来分析一下,自己需要多少的样本适合构建临床预测模型。

  • 样本容量确定的原因

    临床预测模型旨在预测个体的预后,为医疗保健中的诊断或预后提供信息。每年在医学文献中发表的预测模型数以百计,但许多预测模型使用的数据集太小,无法满足参与者或结果事件的总数。这导致了不准确的预测,从而导致一些人做出不正确的医疗决策。现在,我借用2020年BMJ发表一篇论文的一段文字,来阐述回归分析的样本量估计问题。它解释了10 EPV的概念,指导如何使用10 EPV来测算样本量及计算所需的样本量来开发一个临床预测模型的指导。

3b24e791f459a1c7769bdbe67a46268a.jpeg

    在医疗保健中,需要临床预测模型来告知诊断和预后。著名的例子包括Wells评分,QRISK,和诺丁汉预测指数。此类模型允许卫生专业人员预测个体的预后值,或预测个体的预后存在的风险 (诊断预测模型) 或未来发展的风险 (预后预测模型)。大多数预测模型都是使用回归模型开发的,包括:

  1. 线性回归用于连续结果(如系统评分);

  2. 逻辑回归用于二元结果(疗效的有效、无效),

  3. 比例风险回归模型用于事件时间数据 (如癌症的复发)。

    然后,根据年龄、体重、家族史、共病等基本特征的多种预测因子的值,生成一个可以用来预测个体预后值或预后风险的方程。开发预测模型需要一个训练数据集,该数据集包含来自目标群体的个体样本的数据,包含:

  1. 观察到的预测值 (在预期的预测时刻可用) 

  2. 观察到的结果。

    训练数据集的样本量必须足够大,以便开发出适用于目标群体中的新个体时可靠的预测模型方程。然而,对于模型开发来说,什么构成了一个足够大的样本规模是不清楚的,有各种各样的普遍的 “经验规则” 被提出和辩论。这造成了关于如何为旨在开发预测模型的研究进行样本量计算的混乱。在这篇文章中,提供了实际的指导来计算开发临床预测模型所需的样本量,这建立在我们最近的方法学论文上。

  • 样本容量的确定

上述临床预测模型方法大都是回归分析,那么回归分析建模到底对样本量有何要求呢?目前的最小样本量的经验法则过于简单,并提出了一种更科学的方法,即根据特定的兴趣背景来调整样本量的要求。

在回归分析中,存在着一个样本量是自变量个数10倍以上的概念,英文的意思是10 events per variable (10 EPV)这一概念广为流传,也深受国内外学者认可。近些年有大量的文章认为这种方法不严谨,但在实际应用中,没有更简单的指导回归分析样本量计算的方法了。下面就根据文章内容,举例说明对连续、二进制和生存结果的建议,并以一些扩展进行总结。

1. 对于连续型结局,即定量变量结局,如需开展线性回归分析,有效样本量直接由总的观察对象数决定。比如一项研究如果总样本量200例,如果定量结局为血压值,那么开展线性回归分析时,将允许纳入同时20个自变量进入模型。

2. 对于二分类结局,一般开展 logistic 回归分析。关于样本量,目前网络上流传的概念是logistic 回归要求阳性数的5-10倍以上。其实这个概念不严谨的!真正有效样本量将根据二分类结局中两类结果观察数的最小值而定。比如基于200例研究对象开展分析,120例发生高血压,80例未发生高血压。本案例阳性数是120,但是实际上两类结果中,阴性数量才80,是较小值。因此有效样本量是80例,按照10 EPV原则,logistic 只允许8个(而不是12个)自变量同时进入模型。

3. 对于生存时间结局,则是另外的说法了。生存时间资料回归分析常见采用Cox回归,一般来说生存分析样本量测算是根据事件的发生数!这里的事件发生数则是一般意义上的阳性事件数。比如200例高血压患者,随访5年,其中120人发生心血管病患,那么回归分析时可根据120例的数据作为纳入自变量个数的标准。因此,回归分析的自变量数量不是原始变量的个数,而是回归分析将要呈现出来的数目。

5. 回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响?

回归分析一般有向前逐步、向后逐步、双向逐步一般来说,回归分析对自变量的个数不是建模成功的自变量数,而是候选自变量数,也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法,样本量真的不多时能否通过逐步回归法可以多一些变量进去呢?虽然本系列教程不怎么推荐逐步回归法,但毕竟也是应用比较广泛的方法嘛!逐步法建议选择向前逐步和双向逐步,别选择向后逐步。简单的数据模拟分析显示,如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多,回归分析可以多考虑一些候选自变量。因为,这两种方法建模过程中不是候选自变量一口气全部纳入,因此可以避免样本量过多而超载的现象。

6. 有效样本量一般建议自变量数10倍以上,但这是不绝对。统计学者也提过5-10倍以上的概念,说明5倍以上也可能可以。所以,10倍以上的概念可作为参考,接近或者超过则较为妥当。

7. 针对小样本多自变量,如何进行自变量筛选呢?

对此,常规的方法就是先单因素后多因素。这估计很多人都知道,我也不多说了。反而,我要说的是,先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。

8. 对于小样本量多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。

  • 自动化确定有样本量

    在此,文章中给出来一个可以估计样本量的网站方便大家使用,个人感觉挺好用的,地址如下:https://mvansmeden.shinyapps.io/BeyondEPV/ , 以下两种情况都可以使用该软件:

  1. 当做前瞻性数据收集 (如新队列研究) 时,也就是模型开发之前,这些计算特别有用;

  2. 当做回顾性研究也就是利用现有数据进行模型开发,可用来指导可考虑的预测因子的数量。

    我们看看网页上多需要提供哪些信息,这需要解释一下每个需要给出来值的意思,比如下面的三个值,以及图表的解读。当使用时需要用户输入所需参数的值,如下:

  1. 候选预测器的数量 (Number of candidate);

  2. 预期结果在目标总体中的比例 (Events fraction);

  3. 均方根误差 (Criterion value rMPSE)。

d4418c43fb47845fb072d50a9e3ceb63.png

    当我们输入三个参数之后,下图就会对应给出最小样本量,以及每个自变量的最低倍数,如下图所示:

fd02d1d8c29d608a2916499422b8c7d1.png

    根据上面确定样本容量之后,会出下一张表格,表格中给出了三个模型的性能指标:MaxLik、Ridge 和 Lasso 回归,这样就可以初步获得临床预测模型的理论性能,大概介绍一下指标的意思:

  1. Sample size:根据输入的三个参数,估算出来的样本量;

  2. EPV (Events Per Variable):样本量是自变量个数的倍数;

  3. rMSPE (Root Mean Squared Percentage Error):均方根百分比误差;

  4. MAPE (Mean Absolute Percentage Error):平均绝对误差百分比;

  5. AUC loss (Area Under The Curve):AUC 缺失率;

  6. Calibration slope:标定斜率。

914cf475a669a2d9f4b986298fc7b8ed.png

  • 关于数据分割问题

    当我们数据有限时,但时我们还是希望数据有训练集、测试集以及验证集,那么我们该怎么对数据进行分割,简单的比例方法,如下:

  1. 当数据量比较小时,可以使用 7 :3 训练数据和测试数据,或者 6:2: 2 训练数据,验证数据和测试数据;

  2. 当数据量非常大时,可以使用 98 : 1 : 1 训练数据,验证数据和测试数据。

    在有些数据集的划分中,没有真正的验证集,也就是只有训练集和测试集。利用训练集来训练模型,然后通过测试模型在测试集上的表现来调整超参和采用不同的策略来提高模型在测试集上的表现,而没有真正的验证集来评估模型的性能,缺少真正的验证集可能会导致模型过拟合,使用这种方式在验证集上所获取的模型评估是不可靠的。建议不要省略验证集,利用验证集来调整模型,利用测试集来评估模型的指标。如果模型上线的指标要求比较高时,可以适当的加大测试集的数量以此来获取更高精度的评估指标,建议不要超过30%。

1deb07f369dd1e87d39486809dc3a26c.jpeg

    在上一期有人就提出样本量到底怎么来确定的问题,就这样来定,下期我们将对临床信息缺失,该怎么来处理,进一步讲解一下,关注公众号,发信息可进群学习,获得免费资料。

Rerference:

  1. Riley RD, Ensor J, Snell KIE, et al. Calculating the sample size required for developing a clinical prediction model. BMJ. 2020;368:m441. Published 2020 Mar 18. doi:10.1136/bmj.m441

  2. van Smeden M, de Groot JA, Moons KG, etal . No rationale for 1 variable per 10 events criterion for binary logistic regression analysis. BMC Med Res Methodol 2016;16:163. 10.1186/s12874-016-0267-3 27881078

  3. van Smeden M, Moons KG, de Groot JA, etal . Sample size for binary logistic prediction models: Beyond events per variable criteria. Stat Methods Med Res 2019;28:2455-74. 10.1177/962280218784726. 29966490 

  4. Riley RD, Snell KI, Ensor J, etal . Minimum sample size for developing a multivariable prediction model: PART II - binary and time-to-event outcomes. Stat Med 2019;38:1276-96. 10.1002/sim.7992 30357870 

  5. Riley RD, Snell KIE, Ensor J, etal . Minimum sample size for developing a multivariable prediction model: Part I - Continuous outcomes. Stat Med 2019;38:1262-75. 10.1002/sim.7993 30347470


http://chatgpt.dhexx.cn/article/Dp7tvopF.shtml

相关文章

参数估计-两个参数总体区间估计、样本量确定(三)

2019独角兽企业重金招聘Python工程师标准>>> 一、两个总体均值之差的区间估计 1、大样本估计 两个总体为正态分布,或两个总体不服正态分布但两个样本都为大样本,根据抽样分布知识可知 两个样本均值只差 服从期望为(μ1-μ2)、方差为( )的正态分布,转化为标准…

ABtest如何确定样本量?

如何计算样本量 商业分析的面试,很少会让面试者直接默写公式并进行计算。为啥?一,面试官八成自己也不记得公式。二,真实工作都是用网上的计算器,一键呵成,无需手算。 网上随手找的的sample size计算器 那么…

Topic 5. SCI 文章之样本量确定及分割

**每次做方案设计的时候,都会涉及到一个尖锐的问题,客户会问我得用多少的样本量才能发文章,这个嘛,事情从理论上回答还是有依据的,但是从实际出发永远都是 “理想很丰满,现实很骨感!” 。不过还…

AB实验样本量确定

文章目录 1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量 3. 卡方检验样本量确定3.1 求解样本量 4. 简要总结Reference 在数据分析过程中, 一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设&…

临床试验中样本量确定的统计学考虑

样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量,它是临床试验设计中一个极为重要的环节,直接关系到研究结论…

在前端中的缓存

http缓存 http缓存基本认识 http缓存分为强缓存和协商缓存 1、浏览器在加载资源时,先根据这个资源的一些http header判断它是否命中强缓存,强缓存如果命中,浏览器直接从自己的缓存中读取资源,不会发请求到服务器。比如某个css文…

前端缓存方案

前端几种本地缓存机制_蜗牛小前的博客-CSDN博客_前端本地缓存在漫长的前端开发过程中,我们常用的几种本地缓存机制:Cookie,LocalStorge,SessionStorge 1.Cookie的特点1)cookie的大小受限制,cookie大小被限制在4KB,不能…

【前端】深入浅出缓存原理

缓存的基本原理 对于前端来说,缓存主要分为浏览器缓存(比如 localStorage、sessionStorage、cookie等等)以及http缓存,也是本文主要讲述的。 当然叫法也不一样,比如客户端缓存大概包括浏览器缓存和http缓存 所谓htt…

前端浏览器缓存机制

目录 1 缓存定义及其优点2 强缓存2.1 expires 和 Cache-Control 3 协商缓存4 浏览器缓存位置 1 缓存定义及其优点 什么是缓存? 当我们第一次访问网站的时候,电脑会把网站上的图片和数据下载到电脑上,当我们再次访问的时候,网站就会…

前端缓存机制

目录 前言 目的 缓存过程分析 强制缓存(强缓存) 强制缓存的缓存规则 浏览器的缓存存放在哪里 协商缓存 更新缓存 合理应用缓存 前言 对于浏览器缓存,每个前端开发者应该都不会陌生,同时它也是我们在日常开发中存在的一个…

前端缓存【web缓存】

前端缓存--http缓存 web缓存http缓存定义优点缺点http缓存类型 强缓存Expires实现的强缓存Cache-control实现的强缓存 协商缓存last-modified实现的协商缓存ETag实现的协商缓存缺点 设置缓存文件缓存(html、js、css、png)总结 web缓存 web缓存主要指:浏…

前端缓存(HTTP缓存、浏览器缓存)浅析

前端缓存 文章目录 前端缓存缓存分类1、http缓存(1)强缓存(本地缓存)启发式缓存 (2)协商缓存(弱缓存) 2、浏览器缓存 其他响应头和请求头参数刷新正常重新加载硬性重新加载清空缓存并硬性重新加载 调试缓存 缓存分类 1、http缓存 …

前端缓存最佳实践

点击上方“前端开发博客”,选择“设为星标” 回复“2”加入前端群 作者:黑金团队https://juejin.cn/post/6844903737538920462 前言 缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。本文,重点在与探讨在…

技术点:前端缓存分类及使用

前端缓存 什么是 web 缓存(前端缓存) web 缓存主要指的是两部分:浏览器缓存和 http 缓存 浏览器缓存:比如,localStorage,sessionStorage,cookie 等等。这些功能主要用于缓存一些必要的数据,比如用户信息。比如需要携…

前端缓存详解

目录 前言 一、按缓存位置分类 HTTP状态码及区别 几种状态的执行顺序 Memory Cache Disk Cache Service Worker 请求网络 二、HTTP 缓存 HTTP 缓存分类 强缓存原理 协商缓存原理 更新和废弃缓存 三、缓存小结 四、缓存的优点 五、浏览器缓存策略 五、缓存的应…

一文!彻底弄懂前端缓存

前端缓存 前端缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。今天我们再来总结一下。 分类 前端缓存分为强缓存和协商缓存两种。 强缓存 强缓存主要使用Expires、Cache-Control 两个头字段,两者同时存在Cache-Control 优先级…

【前端页面缓存技术方案】

前端页面缓存技术方案 关于页面缓存数据的纯前端技术方案背景项目存在的现有方案思考🤔其他技术调研react-activationreact-router-cache-route 结论 关于页面缓存数据的纯前端技术方案 背景 为了优化用户的体验,可能会遇到这样的需求:在列…

前端常用缓存技术

http://www.cnblogs.com/belove8013/p/8134067.html 今天刚上班就听到群里的几位大佬在讨论所开发的系统需要重复的登录的恶心之处,听各位大佬争辩的同时,想到了自己以前整理过的缓存技术,算是比较全面的,当然了只是帮助自己理解的…

我的网站心得之缓存技术(前端篇)

在前端面试中,storage是面试官经常问的问题,我先问你几个问题,如果你回答不上来,那么你应该阅读一下:知道storage吗?storage存储的数据类型有什么?sessionStorage的生命周期?你都用l…

中高级前端工程师都需要熟悉的技能--前端缓存

前言 web缓存是高级前端工程师必修技能。是我们变成大牛过程中绕不开的知识点。 文章会尽量用通俗易懂的言语来细说web缓存的概念和用处。 本期文章的大纲是 什么是web缓存(前端缓存) 缓存可以解决什么问题?他的缺点是什么? …