Topic 5. 样本量确定及分割

每次做方案设计的时候，都会涉及到一个尖锐的问题，客户会问我得用多少的样本量才能发文章，这个嘛，事情从理论上回答还是有依据的，但是从实际出发永远都是 “理想很丰满，现实很骨感！” 。不过还是需要从理论上来分析一下，自己需要多少的样本适合构建临床预测模型。

样本容量确定的原因

临床预测模型旨在预测个体的预后，为医疗保健中的诊断或预后提供信息。每年在医学文献中发表的预测模型数以百计，但许多预测模型使用的数据集太小，无法满足参与者或结果事件的总数。这导致了不准确的预测，从而导致一些人做出不正确的医疗决策。现在，我借用2020年BMJ发表一篇论文的一段文字，来阐述回归分析的样本量估计问题。它解释了10 EPV的概念，指导如何使用10 EPV来测算样本量及计算所需的样本量来开发一个临床预测模型的指导。

在医疗保健中，需要临床预测模型来告知诊断和预后。著名的例子包括Wells评分，QRISK,和诺丁汉预测指数。此类模型允许卫生专业人员预测个体的预后值，或预测个体的预后存在的风险 (诊断预测模型) 或未来发展的风险 (预后预测模型)。大多数预测模型都是使用回归模型开发的，包括：

线性回归用于连续结果(如系统评分)；
逻辑回归用于二元结果(疗效的有效、无效)，
比例风险回归模型用于事件时间数据 (如癌症的复发)。

然后，根据年龄、体重、家族史、共病等基本特征的多种预测因子的值，生成一个可以用来预测个体预后值或预后风险的方程。开发预测模型需要一个训练数据集，该数据集包含来自目标群体的个体样本的数据，包含：

观察到的预测值 (在预期的预测时刻可用)
观察到的结果。

训练数据集的样本量必须足够大，以便开发出适用于目标群体中的新个体时可靠的预测模型方程。然而，对于模型开发来说，什么构成了一个足够大的样本规模是不清楚的，有各种各样的普遍的 “经验规则” 被提出和辩论。这造成了关于如何为旨在开发预测模型的研究进行样本量计算的混乱。在这篇文章中，提供了实际的指导来计算开发临床预测模型所需的样本量，这建立在我们最近的方法学论文上。

样本容量的确定

上述临床预测模型方法大都是回归分析，那么回归分析建模到底对样本量有何要求呢？目前的最小样本量的经验法则过于简单，并提出了一种更科学的方法，即根据特定的兴趣背景来调整样本量的要求。

在回归分析中，存在着一个样本量是自变量个数10倍以上的概念，英文的意思是10 events per variable (10 EPV)。这一概念广为流传，也深受国内外学者认可。近些年有大量的文章认为这种方法不严谨，但在实际应用中，没有更简单的指导回归分析样本量计算的方法了。下面就根据文章内容，举例说明对连续、二进制和生存结果的建议，并以一些扩展进行总结。

1. 对于连续型结局，即定量变量结局，如需开展线性回归分析，有效样本量直接由总的观察对象数决定。比如一项研究如果总样本量200例，如果定量结局为血压值，那么开展线性回归分析时，将允许纳入同时20个自变量进入模型。

2. 对于二分类结局，一般开展 logistic 回归分析。关于样本量，目前网络上流传的概念是logistic 回归要求阳性数的5-10倍以上。其实这个概念不严谨的！真正有效样本量将根据二分类结局中两类结果观察数的最小值而定。比如基于200例研究对象开展分析，120例发生高血压，80例未发生高血压。本案例阳性数是120，但是实际上两类结果中，阴性数量才80，是较小值。因此有效样本量是80例，按照10 EPV原则，logistic 只允许8个（而不是12个）自变量同时进入模型。

3. 对于生存时间结局，则是另外的说法了。生存时间资料回归分析常见采用Cox回归，一般来说生存分析样本量测算是根据事件的发生数！这里的事件发生数则是一般意义上的阳性事件数。比如200例高血压患者，随访5年，其中120人发生心血管病患，那么回归分析时可根据120例的数据作为纳入自变量个数的标准。因此，回归分析的自变量数量不是原始变量的个数，而是回归分析将要呈现出来的数目。

5. 回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响？

回归分析一般有向前逐步、向后逐步、双向逐步，一般来说，回归分析对自变量的个数不是建模成功的自变量数，而是候选自变量数，也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法，样本量真的不多时能否通过逐步回归法可以多一些变量进去呢？虽然本系列教程不怎么推荐逐步回归法，但毕竟也是应用比较广泛的方法嘛！逐步法建议选择向前逐步和双向逐步，别选择向后逐步。简单的数据模拟分析显示，如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多，回归分析可以多考虑一些候选自变量。因为，这两种方法建模过程中不是候选自变量一口气全部纳入，因此可以避免样本量过多而超载的现象。

6. 有效样本量一般建议自变量数10倍以上，但这是不绝对。统计学者也提过5-10倍以上的概念，说明5倍以上也可能可以。所以，10倍以上的概念可作为参考，接近或者超过则较为妥当。

7. 针对小样本多自变量，如何进行自变量筛选呢?

对此，常规的方法就是先单因素后多因素。这估计很多人都知道，我也不多说了。反而，我要说的是，先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数，如果是大样本量但自变量数也不多，没有必要采用单因素后多因素，直接多因素回归分析即可。

8. 对于小样本量多自变量数的研究，我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前，必须认真考虑，哪些是结局可能的原因变量，哪些可能是混杂变量，哪些又可能是中介变量。不能什么都不考虑，一股脑全放进来，或者一股脑先单因素再多因素。

自动化确定有样本量

在此，文章中给出来一个可以估计样本量的网站方便大家使用，个人感觉挺好用的，地址如下：https://mvansmeden.shinyapps.io/BeyondEPV/ ，以下两种情况都可以使用该软件：

当做前瞻性数据收集 (如新队列研究) 时，也就是模型开发之前，这些计算特别有用；
当做回顾性研究也就是利用现有数据进行模型开发，可用来指导可考虑的预测因子的数量。

我们看看网页上多需要提供哪些信息，这需要解释一下每个需要给出来值的意思，比如下面的三个值，以及图表的解读。当使用时需要用户输入所需参数的值，如下：

候选预测器的数量 (Number of candidate)；
预期结果在目标总体中的比例 (Events fraction);
均方根误差 (Criterion value rMPSE)。

当我们输入三个参数之后，下图就会对应给出最小样本量，以及每个自变量的最低倍数，如下图所示：

根据上面确定样本容量之后，会出下一张表格，表格中给出了三个模型的性能指标：MaxLik、Ridge 和 Lasso 回归，这样就可以初步获得临床预测模型的理论性能，大概介绍一下指标的意思：

Sample size：根据输入的三个参数，估算出来的样本量；
EPV (Events Per Variable)：样本量是自变量个数的倍数；
rMSPE (Root Mean Squared Percentage Error)：均方根百分比误差；
MAPE (Mean Absolute Percentage Error)：平均绝对误差百分比；
AUC loss (Area Under The Curve)：AUC 缺失率；
Calibration slope：标定斜率。

关于数据分割问题

当我们数据有限时，但时我们还是希望数据有训练集、测试集以及验证集，那么我们该怎么对数据进行分割，简单的比例方法，如下：

当数据量比较小时，可以使用 7 ：3 训练数据和测试数据，或者 6：2: 2 训练数据，验证数据和测试数据；
当数据量非常大时，可以使用 98 : 1 : 1 训练数据，验证数据和测试数据。

在有些数据集的划分中，没有真正的验证集，也就是只有训练集和测试集。利用训练集来训练模型，然后通过测试模型在测试集上的表现来调整超参和采用不同的策略来提高模型在测试集上的表现，而没有真正的验证集来评估模型的性能，缺少真正的验证集可能会导致模型过拟合，使用这种方式在验证集上所获取的模型评估是不可靠的。建议不要省略验证集，利用验证集来调整模型，利用测试集来评估模型的指标。如果模型上线的指标要求比较高时，可以适当的加大测试集的数量以此来获取更高精度的评估指标，建议不要超过30%。

在上一期有人就提出样本量到底怎么来确定的问题，就这样来定，下期我们将对临床信息缺失，该怎么来处理，进一步讲解一下，关注公众号，发信息可进群学习，获得免费资料。

Rerference:

Riley RD, Ensor J, Snell KIE, et al. Calculating the sample size required for developing a clinical prediction model. BMJ. 2020;368:m441. Published 2020 Mar 18. doi:10.1136/bmj.m441
van Smeden M, de Groot JA, Moons KG, etal . No rationale for 1 variable per 10 events criterion for binary logistic regression analysis. BMC Med Res Methodol 2016;16:163. 10.1186/s12874-016-0267-3 27881078
van Smeden M, Moons KG, de Groot JA, etal . Sample size for binary logistic prediction models: Beyond events per variable criteria. Stat Methods Med Res 2019;28:2455-74. 10.1177/962280218784726. 29966490
Riley RD, Snell KI, Ensor J, etal . Minimum sample size for developing a multivariable prediction model: PART II - binary and time-to-event outcomes. Stat Med 2019;38:1276-96. 10.1002/sim.7992 30357870
Riley RD, Snell KIE, Ensor J, etal . Minimum sample size for developing a multivariable prediction model: Part I - Continuous outcomes. Stat Med 2019;38:1262-75. 10.1002/sim.7993 30347470