临床试验中样本量确定的统计学考虑

article/2025/3/15 10:50:06

样本量确定(sample size determination),又称样本量估计(sample size estimation),是指为满足统计的准确性和可靠性(I类错误的控制和检验效能的保证)计算出所需的样本量,它是临床试验设计中一个极为重要的环节,直接关系到研究结论的可靠性、可重复性,以及研究效率的高低。样本量估计也是一个成本-效果和检验效能的权衡过程。ICHE9(1998)指出,临床试验的样本量必须足够大,以可靠地回答研究假设所提出的相关问题;同时又不至于太大而造成浪费。样本量的估计方法应该在研究方案中详细阐述,包括计算样本量所依据的参数,如方差、均数、反应率、阳性事件发生率、差值等。本文适用于确证性试验。

样本量估计需考虑的主要因素

在确定临床研究的目的之后,首先考虑试验设计,包括对照的选择(如标准对照、阳性对照、安慰剂对照、剂量对照等)、比较类型(如优效性试验、非劣效性试验、等效性试验)、设计类型(如平行设计、交叉设计、析因设计、成组序贯设计等)、主要指标(定量、定性、生存时间)等;其次考虑统计分析方法,并提出效应量(effect size)的假定;然后根据试验特点定义统计特征,如统计分布、检验水准(significant level)、检验效能(power)、单双侧和分配比例等;再应用正确的样本量估计方法计算出样本量;最后根据协变量、试验中的脱落率、剔除率和依从性等具体情况进行适当调整。

1.研究目的与试验设计

(1)研究目的

就临床试验而言,在确证性研究中研究目的主要体现在有效性评价和安全性评价两个方面。样本量估计常用于有效性评价。

(2)比较类型及其检验假设临床试验常用的比较类型有优效性试验(superiority trial)、等效性试验(包括生物等效性试验)(equivalence trial)、非劣效性试验(non-inferiority trial)等。下面以两组效应量为均数的正向指标比较为例,设定优效、等效和非劣效的界值为Δ,说明它们的检验假设与推断结论。

优效性试验:试验的目的是验证试验组效应是否优于对照组,如果研究不设定优效界值,其检验假设为:


此时,若P≤α,则可推断试验组疗效优于对照组。等效性试验:试验的目的是验证试验组效应是否与对照组相当。如果研究设定等效界值Δ,其检验假设为:


非劣性试验:试验的目的是验证试验组效应是否非劣于对照组。如果研究设定非劣效界值Δ,其检验假设为:

H0:μT-μC≤-Δ;

H1:μT-μC>-Δ。

此时,若P≤α,则可推断试验组疗效非劣于对照组。

(3)设计类型

临床试验的设计模型相对比较简单,常用的有平行设计、交叉设计、析因设计、序贯设计、群随机设计和适应性设计等。有关这些设计的详细介绍可参考相关文献。

2.主要指标

临床试验的样本量通常依据对主要指标做出相应的假定后进行估计的。在II、III期临床试验中主要指标一般是有效性评价指标,上市后的IV期临床试验主要指标可以是有效性评价指标,也可以是安全性评价指标,或兼而有之。如果样本量估计应同时依据主要有效性指标和主要安全性指标,在设计时应针对有效性和安全性分别提出统计假设,逐一计算样本量,最终样本量取其中最大者。主要指标应在研究方案中明确定义,通常需根据专业知识确定,应是专业领域具有共识的或认可程度较高的指标,一般源于某一标准或指南,或源于专业领域公开发表的权威论著或专家共识等。主要指标不宜太多,一般只有一个。当主要指标有多个时,样本量估计要考虑假设检验的多重性问题。

在定义主要指标过程中,不仅要说明指标的含义,其测量时点、测量手段以及计算方法都应注明。指标的类型要明确,这一点非常重要,因为样本量估计和数据分析都需要依此进行。例如,某些指标可以有定量、定性(如有效和无效)、等级(如痊愈、显效、有效、无效)、生存时间等不同类型。对应于指标的不同类型,样本量估计方法亦不相同。所以,方案中对主要指标的定义要具体到指标类型上。

3.效应量

效应量是样本量估计所需的最重要参数之一,根据不同的指标类型,常见的效应量有:均数的组间差值或标准化差值,率的组间差值或比值(RR、HR)、OR,或相关系数、回归系数等。效应量参数的确定主要基于下述三种途径:

(1)本项目的任何既往研究结果。即源于同一项目的预试验、探索性试验(I期或II期临床试验)、单中心试验的结果等作为确定参数的依据。由于此类研究结果属于内部证据,因此是首选途径。

(2)基于他人的研究结果。当本项目的先前研究无法提供确切的参数数据,或尚未开展研究时,参数的确定可以以公开发表的研究结果作为依据。由于此类研究结果属外部证据,因此是次选途径。若公开发表的同类研究报道不止一个,最好是经meta分析所得合并效应量作为样本量估计的参数。

(3)基于本试验的预期结果。如果本试验没有任何之前的研究结果可以借鉴(无论是自己的还是他人的),或以往的研究数据不能得到本试验设计所需的参数(如本试验采用交叉设计,而以往研究数据均来自两平行组设计的研究),可以用预期的形式进行预设,通常以广义效应量表达。若对试验药物或器械有充足信心,则预期效应量较大(如设为0.8),此时所需样本量较小。若对试验药物或器械信心不足,则预期效应量较小(如设为0.2),此时所需样本量较大。若对试验药物或器械的信心尚可,则预期效应量为中等水平(如设为0.5),此时所需样本量也是中等大小。

此外,对于单臂设计或配对双臂设计,若涉及标准对照参数(或目标值)的确定,其途径的优先顺序大致为国际标准、国家标准、行业标准(含指南等)、被权威机构认可的企业标准、外部证据(同类研究的综合结果,如meta分析结果)。

4.统计特征

样本量估计需要考虑的统计特征主要有统计分布、检验水准、检验效能、单双侧和平衡与否等。

统计分布:样本量估计方法的选择与主要指标的统计分布假定密切相关,基于正态分布的假定会选择参数方法,基于非正态分布的假定会选择非参数方法。同样,生存分析的样本量估计方法会因Weibull分布族的假定有所不同。

检验水准:检验水准也就是I类错误概率,用α表示,以双侧0.05的水准最为常用。对于优效性检验设定单侧α=0.025的情形,以及等效性或非劣效性检验设定双单侧的α=0.025的情形,其本质仍然是双侧0.05的检验水准。但在某些情况下检验水准的设定会有所不同。例如,为控制整体I类错误概率α,涉及多重检验时(如定义多个主要指标),每次检验的名义检验水准α*将小于或等于α;涉及期中分析时,考虑α消耗,每次检验的α*将小于α。此外,对于生物等效性检验,习惯取双侧α为0.1。

检验效能:用1-β表示,β代表II类错误概率。检验效能是指在设定的α基础上,原假设H0为假且检验结果拒绝了H0的概率。检验效能越高,发现差别的可能性越大,但同时所需样本量也越大。临床试验中,检验效能通常不得低于80%。在样本量估计过程中,可通过对检验效能的敏感性分析提供不同的样本量方案,供研究人员选择。

单侧和双侧检验:单侧检验的样本量会明显小于双侧检验的样本量。一般而言,医学研究领域的统计检验约定俗成地使用双侧检验,如果采用单侧检验,需要给出充足的理由。需要指出,对于一般意义的检验水准0.05而言,如果取单侧水准为0.025的话,其实质仍然是双侧0.05水平。

平衡或非平衡设计:所谓平衡设计,即每组的样本量相同。在其他条件不变时,各组样本量相同时平衡设计效率最高,即试验所需总样本量最小。因此,研究设计应尽可能采用平衡设计。非平衡设计是指比较组间的样本量有明显差别,习惯上这种差别成倍数关系,例如,新药III期临床试验,因为安慰剂对照的疗效相对可以确定,同时出于伦理考虑,安慰剂对照组的样本量会安排的少一些,而试验组的样本量相对要大一些,比如是对照组的2倍或3倍。

样本量估计原理和方法

1.样本量估计原理

样本量估计的方法通常是从检验统计量计算公式反推而来。一般地,统计推断的效应量可认为是给定模型参数θ的函数f(θ),用T表示f(θ)的一个无偏估计统计量,若数据来自正态分布,或根据中心极限定理,有:


基于t分布,则检验统计量服从非中心t分布,通过迭代计算可求出样本量,即:


当统计量T=logHR时,我们同样可以先求出Var(T),然后代入公式(4)中计算样本量,此时所得样本量计算公式可拆解成一个关于所需阳性事件数(number of events)与个体发生阳性事件概率的表达式,这也是目前最常用的方法。

2.样本量估计方法

样本量估计方法,即样本量的计算公式,应根据研究背景、研究假设、设计模型、主要评价指标的数据特征等做出正确选择。由于样本量计算公式繁多,本文不做详细介绍,读者可参考《中国卫生统计》2012年至2014年连续刊发的“样本量估计及其在nQuery和SAS软件上的实现”系列文章(共19篇)[9]。该系列文章以样本量估计专业软件nQuery Advisor7.0为依据,系统介绍常用的样本量估计方法,给出计算公式及其权威出处,通过实例加以说明,同时还给出了SAS9.2软件实现的程序,便于广大读者应用。表1列出了常用的样本量估计方法,可看作通过统计检验方法正确选择样本量估计方法的一个索引。

样本量估计的其他考虑

1.样本量的调整

根据统计学方法估计出的样本量是在给定条件下满足临床试验所需的最小样本量。实际试验过程中,由于病例的脱落和剔除、病例依从性差等原因,会导致可评价例数的减少。因此,需要在样本量估计基础上适度扩大样本量,以保证最终的有效样本量可以满足最小样本量的要求。从分析角度讲,需保证最终的可评价样本量(即符合方案数据集(per-protocol set)的例数)应大于经样本量估计方法求得的样本量。样本量调整通常会考虑不大于20%的脱落剔除率,具体的脱落剔除率如何确定,将视不同的研究项目而定,确定的依据主要来自专业方面的判断,或经由以往研究数据的meta分析为重要参考。

当亚组分析的结果是主要疗效指标时,则应保证最终的亚组可评价病例达到最小样本量。临床试验结果可能受某些预后因素(协变量)的影响,如年龄、性别、病情程度等。样本量估计时一般不考虑预后因素,主要是因为随机分组可使各组间的协变量达到均衡。

2.样本量再估计

样本量再估计较多地用于适应性设计。适应性设计样本量再估计常用的三种方法如下。

(1)成组序贯设计:每组的样本量固定,每次期中分析的目的是对是否终止试验(成功或失败)或进入下一周期的试验做出决策。

(2)固定期中分析:每次期中分析对参数重新进行估计,并据此对样本量做出新的估计和调整,但不对检验假设进行检验。

(3)上述两种方法的结合:每次期中分析既对参数重新进行估计,并据此对样本量做出新的估计和调整;又对检验假设进行检验,以判断是否终止试验(成功或失败)或进入下一周期的试验。上述三种方法均属于期中分析的样本量估计问题,详细过程可参阅文献[9]。需要指出,基于期中分析的样本量再估计应尽可能地在盲态下进行。

临床试验方案中对样本量估计的要求

在临床试验方案中,需要对样本量估计进行清晰和完整的阐述,应至少包含以下内容:试验的研究假设,对照的类型,比较类型,设计模型,主要指标,将要用到的统计分析方法,参数(包括等效或非劣效界值)的来源以及依据,检验水准(若涉及多重检验或期中分析,需解释确定检验水准的依据),检验效能,单双侧检验,分配比例,样本量估计方法及其出处(列参考文献),所用软件及其版本,样本量调整及其依据,各组以及各中心的样本量分配(列表),若竞争入组需特别说明。

常见问题回答

Q1.样本量估计有哪些专用软件?

目前常用的样本量估计软件有nQuery Advisor+nTerim,PASS,DSTPLAN,G*Power,PC-Size,PS,SAS Power and Sample Size application(PSS),Stata,R。这些软件中,nQuery和PASS是其中最常用的,它们涵盖了几乎所有的样本量统计方法。下面对这些软件做一简要介绍。

nQueryAdvisor+nTerim:爱尔兰Statistical Solutions公司开发的商业软件,由nQuery Advisor 7软件加入nTerim模块组成,前者原先是一独立样本量估计软件,后者是专门用于期中分析的样本量估计模块。目前最新版本为3.0,运行于Windows平台。该软件同时得到美国FDA、欧洲药品管理局、日本、韩国的官方认可,为世界制药企业和生物技术公司50强中的49家所使用。内容几乎已经涵盖了样本量计算的所有方面。《中国卫生统计》连载的系列文献系统介绍了常用的样本量估计方法[9],给出了计算公式及其出处,并附有样本量估计专业软件nQuery Advisor 7.0的操作主界面和样本量估计中参数设置的界面,同时还给出了SAS9.2软件实现的程序,便于广大读者应用。

PASS:美国NCSS公司开发,是一款运行在Windows平台下的商业软件,目前最新版本为13。类似于nQuery,它也覆盖了几乎所有的样本量计算方法,其官方网站宣称用到的统计方法已经超过了230种。DSTPLAN:是一款运行在Windows环境下的免费软件,其本身是基于Fortran语言构造,由安德森癌症中心开发。包括的统计分析方法有t检验、相关分析、率的比较、2×N的列联表检验,以及生存分析的差异性检验。

G*Power:是一款在Windows以及MacOSX环境下运行的免费软件,由德国杜塞尔多夫大学开发。包括的统计分析方法有t检验、One-wayANOVA、回归分析、相关分析以及拟合优度分析。该软件在用户输入关键参数后就会立即给出效应量。PC-Size:是一款运行在Windows环境下免费的DOS命令行软件。包括的统计分析方法有t检验、方差分析、回归分析、相关分析以及率的比较。该软件也可计算效应量。

PS:是一款运行在Windows环境下的免费软件,包括的统计分析方法有t检验、卡方检验、Fisher确切概率法、McNemar检验、回归分析以及生存分析等。

SAS/PowerandSampleSizeapplication(PSS):该软件运行于Windows环境,软件附带在整个SAS系列内随同安装。虽然由SAS公司开发,但包括的统计分析方法非常有限,只有t检验、率的比较、相关分析、回归分析、方差分析以及生存分析。Stata/R:Stata以及R严格说来应该是编程语言而不是现成的软件。理论上只要编程得当,可以实现任何样本量计算的统计方法。

此外,还有大量在线的样本量估计软件或程序,但对于其正确性和权威性难以一一做评,所以还是鼓励示,恶性肿瘤、损伤与中毒、循环系统疾病是中年人的三大主要死亡原因,而且男性死亡人数明显高于女性。作者认为,第一、确实加强环境保护;第二、全社会要从社会、心理和生理的多维角度关爱中年人,使中年人具有健康的身心和良好的生活习惯,减少疾病发生;第三、加强劳动安全、驾驶安全的培训和相关安全制度的落实,安全重于泰山,尽量减少损伤和中毒造成的死亡;第四、医务人员要重视健康教育,防患于未然,努力做到恶性肿瘤等疾病的早发现、早诊断和早治疗,提高医疗质量,延长生存期,减少死亡率。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读


http://chatgpt.dhexx.cn/article/9OIRH1w5.shtml

相关文章

在前端中的缓存

http缓存 http缓存基本认识 http缓存分为强缓存和协商缓存 1、浏览器在加载资源时,先根据这个资源的一些http header判断它是否命中强缓存,强缓存如果命中,浏览器直接从自己的缓存中读取资源,不会发请求到服务器。比如某个css文…

前端缓存方案

前端几种本地缓存机制_蜗牛小前的博客-CSDN博客_前端本地缓存在漫长的前端开发过程中,我们常用的几种本地缓存机制:Cookie,LocalStorge,SessionStorge 1.Cookie的特点1)cookie的大小受限制,cookie大小被限制在4KB,不能…

【前端】深入浅出缓存原理

缓存的基本原理 对于前端来说,缓存主要分为浏览器缓存(比如 localStorage、sessionStorage、cookie等等)以及http缓存,也是本文主要讲述的。 当然叫法也不一样,比如客户端缓存大概包括浏览器缓存和http缓存 所谓htt…

前端浏览器缓存机制

目录 1 缓存定义及其优点2 强缓存2.1 expires 和 Cache-Control 3 协商缓存4 浏览器缓存位置 1 缓存定义及其优点 什么是缓存? 当我们第一次访问网站的时候,电脑会把网站上的图片和数据下载到电脑上,当我们再次访问的时候,网站就会…

前端缓存机制

目录 前言 目的 缓存过程分析 强制缓存(强缓存) 强制缓存的缓存规则 浏览器的缓存存放在哪里 协商缓存 更新缓存 合理应用缓存 前言 对于浏览器缓存,每个前端开发者应该都不会陌生,同时它也是我们在日常开发中存在的一个…

前端缓存【web缓存】

前端缓存--http缓存 web缓存http缓存定义优点缺点http缓存类型 强缓存Expires实现的强缓存Cache-control实现的强缓存 协商缓存last-modified实现的协商缓存ETag实现的协商缓存缺点 设置缓存文件缓存(html、js、css、png)总结 web缓存 web缓存主要指:浏…

前端缓存(HTTP缓存、浏览器缓存)浅析

前端缓存 文章目录 前端缓存缓存分类1、http缓存(1)强缓存(本地缓存)启发式缓存 (2)协商缓存(弱缓存) 2、浏览器缓存 其他响应头和请求头参数刷新正常重新加载硬性重新加载清空缓存并硬性重新加载 调试缓存 缓存分类 1、http缓存 …

前端缓存最佳实践

点击上方“前端开发博客”,选择“设为星标” 回复“2”加入前端群 作者:黑金团队https://juejin.cn/post/6844903737538920462 前言 缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。本文,重点在与探讨在…

技术点:前端缓存分类及使用

前端缓存 什么是 web 缓存(前端缓存) web 缓存主要指的是两部分:浏览器缓存和 http 缓存 浏览器缓存:比如,localStorage,sessionStorage,cookie 等等。这些功能主要用于缓存一些必要的数据,比如用户信息。比如需要携…

前端缓存详解

目录 前言 一、按缓存位置分类 HTTP状态码及区别 几种状态的执行顺序 Memory Cache Disk Cache Service Worker 请求网络 二、HTTP 缓存 HTTP 缓存分类 强缓存原理 协商缓存原理 更新和废弃缓存 三、缓存小结 四、缓存的优点 五、浏览器缓存策略 五、缓存的应…

一文!彻底弄懂前端缓存

前端缓存 前端缓存,这是一个老生常谈的话题,也常被作为前端面试的一个知识点。今天我们再来总结一下。 分类 前端缓存分为强缓存和协商缓存两种。 强缓存 强缓存主要使用Expires、Cache-Control 两个头字段,两者同时存在Cache-Control 优先级…

【前端页面缓存技术方案】

前端页面缓存技术方案 关于页面缓存数据的纯前端技术方案背景项目存在的现有方案思考🤔其他技术调研react-activationreact-router-cache-route 结论 关于页面缓存数据的纯前端技术方案 背景 为了优化用户的体验,可能会遇到这样的需求:在列…

前端常用缓存技术

http://www.cnblogs.com/belove8013/p/8134067.html 今天刚上班就听到群里的几位大佬在讨论所开发的系统需要重复的登录的恶心之处,听各位大佬争辩的同时,想到了自己以前整理过的缓存技术,算是比较全面的,当然了只是帮助自己理解的…

我的网站心得之缓存技术(前端篇)

在前端面试中,storage是面试官经常问的问题,我先问你几个问题,如果你回答不上来,那么你应该阅读一下:知道storage吗?storage存储的数据类型有什么?sessionStorage的生命周期?你都用l…

中高级前端工程师都需要熟悉的技能--前端缓存

前言 web缓存是高级前端工程师必修技能。是我们变成大牛过程中绕不开的知识点。 文章会尽量用通俗易懂的言语来细说web缓存的概念和用处。 本期文章的大纲是 什么是web缓存(前端缓存) 缓存可以解决什么问题?他的缺点是什么? …

ovo svm_反思我在OVO担任远程产品设计实习生的时间

ovo svm In a quiet bedroom accompanied only by the low humming of my laptop fan, I sat before a Google Hangouts meeting, and got to know my colleagues for the first time, unaware of the joy of a ride that was waiting for me at OVO Design. 在一个安静的卧室里…

反思最近这些时日的荒废

为什么80%的码农都做不了架构师?>>> 算是一时兴起,最近lol排位已经将自己的折磨的不成人样。闲了这么久,是时候找份工作了。最近一直没敢跟家里人打电话,实在不知道该说些什么,一开口便是谎言。是否自己真的…

团队愿景_周一的愿景,每日的成果,周五的远程团队管理反思

团队愿景 My friend J.D. Meier has an amazing blog called Sources of Insight and hes written a fantastic book called Getting Results the Agile Way. You can buy his book on Amazon (its free on Kindle Unlimited!). I put J.D. up there with David Allen and Step…

WPBeginner年满10岁-反思,更新和WordPress赠品(奖金124,000美元以上)

Wow, it’s the tenth fourth. Today, WPBeginner is officially 10 years old — feels unreal to type this! 哇,是第十位 今天,WPBeginner正式成立了10岁-键入此图标感到不切实际! Like every year, I want to take a few minutes and d…

误泄露公司代码、疫情期间被裁,一个“菜鸟”程序员的生存日记

作者 | Adam Hughes 译者 | Sambodhi 策划 | Tina 编辑|燕珊 “我是如何从每一次失败中成长起来的。” 身为程序员,我们往往都了解大神级程序员的故事。比如很小就开始编程,在 11 岁时就创建了第一家能盈利的网站,16 岁上大学、17…