生存分析研究

article/2025/10/27 0:25:01

生存分析

  • 生存分析基础知识
    • 生存分析
    • 生存数据
    • 生存函数
      • 1.描述性
    • 生存分析方法
      • 生存分析统计方法
        • 非参数方法
        • 半参数方法
        • 参数方法
      • 生存分析机器学习模型
    • 生存分析研究的内容
        • 1.描述生存过程
        • 2.比较生存过程
        • 3.分析危险因素
        • 4.建立数学模型
    • 研究思路
        • 1.数据
        • 2.模型设计
        • 3.实验部分(对比分析)
        • 4.可解释性

生存分析基础知识

生存分析

定义:将事件结局的出现与否和达到终点所经历的时间结合起来的 统计方法
背景:对于癌症患者,更加关注“生存时间”,比如常常听到的:5年存活率、3年存活率……,且某种治疗方法的价值主要表现在延长患者的存活时间。
比如在一项针对癌症患者的研究中,研究者更加关注的问题在观测时间点发生特定事件的概率,寻找个体协变量与个体生存状态之间的潜在关系(观测时间和观测事件状态)

  • 癌症患者在接受治疗后的生存状况如何
  • 哪种疗法的效果更好
  • 这些患者在接受治疗后的生存状况与哪些因素有关

事件
生存时间
删失问题

生存数据

  1. 兼有时间和结局两种属性的数据,生存数据表示集合A={( x i x_i xi, T i T_i Ti, δ i \delta _i δi)|i=1,…,n}
    n表示数据中观测个数的数目 x i x_i xi 是维度为m的向量,表示第i个个体的协变量 Ti表示该个体最后一次的观测时间(末次随访时间)
    δ i \delta _i δi ∈ \in {0,1}表示在Ti时刻是否观察到该个体有感兴趣的事件发生。
    令Te表示感兴趣的事件的研究终点,则患者集合{i|Ti<Te, δ i \delta _i δi=0}表示右删失的个体集合,即在研究终点之前的最后一次观测未观测到发生事件。
  2. 结局为二分类互斥事件
  3. 一般是通过随访收集得到,随访观察往往是从某统一时间点(如入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止。
  4. 常因失访等原因造成研究对象的生存时间数据不完整,分布类型复杂,不能简中地套用以前的缺失值处理方法。

生存函数

1.描述性

生存函数(survival function):S(t)=Pr(T>t)表示生存时间T超过t的概率,定义了直到t时刻还未发生死亡(或interest感兴趣的事件)的概率
在这里插入图片描述
累积死亡函数 即Pr(T ≤ \leq t),其意义是对象存活时间不超过某一时间t的概率值。它是时间T分布的累计分布函数,F(t) = 1-S(t)
死亡概率分布 是累计分布的导数,意义是对象在某一时刻t的一瞬间死亡的概率

在这里插入图片描述
风险率 比如t时刻之前有100个存活病人,t时刻一瞬间有10个人死亡,这时候风险率是1/10,Cox模型的因变量就是风险率值,精确的定义为
在这里插入图片描述
它与死亡概率函数的定义是有区别的,多了一个条件T>t
风险函数(hazard function):定义了在生存时间大于t的条件下在t时刻发生事件的概率,不是密度也不是概率,可以看作是在t和t+dt之间的一个无限小的时间段内失败的概率,假定受试者一直存活到时间t。故t时刻的风险函数h(t)可以表示为在这里插入图片描述
因此,生存函数S(t)与风险函数h(t)之间的关系如下
在这里插入图片描述
其中,H(t) = ∫ 0 t h ( z ) d z \int_{0}^t h(z)dz 0th(z)dz表示累计风险函数(Cumulative hazard function)。首次发生事件时间的概率密度函数f(t)为其累积分布函数F(t)对事件的导数,所以推导得到
在这里插入图片描述
生存分析中的生存函数S(t)、风险函数h(t)、累积风险函数H(t)、首次发生事件时间的概率密度函数f(t)及其累积分布函数F(t)都可以通过上述公式相互转化得到
在这里插入图片描述

生存分析方法

生存分析统计方法

参数估计与非参数估计
参数估计:我们通过一定的基本假设和建模获得了待估计函数的形式,而有若干控制该函数具体表现的参数。而我们的目的是从形式已知参数未知的模型簇里找出合适的参数。把这个函数当做我们对目标函数的估计。
非参数估计:我们并不对待估计的函数形式做任何假设,而是直接从数据出发去估计它。

非参数方法

非参数的统计生存方法一般只用于直观理解研究对象的整体生存状态,如生存率和风险趋势等,不能用于个性化预测
Kaplan-Meier估计方法
Nelson-Aalen估计方法

半参数方法

考虑了个体协变量对个体生存状态的影响,使用线性模型预测个体的生存状态。

  • Cox比例风险模型,本质上是一个线性模型,假设个体的风险函数与人群的基准函数之比为一个不随时间改变的常数。使用生存数据拟合Cox比例风险模型后,可以通过向模型输入个体协变量来预测其对数风险比例,然后使用下述公式估计该个体的生存函数。类似logistic回归,多个变量对Y的影响,得到一个概率值,只不过加了时间
    在这里插入图片描述
    前半部分是基线风险函数,不需要特定分布,是非参数
    后半部分相当于对多重线性回归的输出进行了次方变换,保证了正值和单调性
    参数说明:
    1. h o ( t ) : h_o(t): ho(t):风险基准函数,就是引子中提到的关于时间t的函数,这个函数只与时间t有关,与特征X无关,并且该模型中没有给出风险基准函数的基本形式,只要满足非负连续即可,当 β X \beta X βX 为0时,Cox模型只与风险基准函数有关。
    2. X : X: X:是引子中提到的主观因素,在Cox模型中叫做协变量,不同的研究个体有不同的协变量,从公式中可以看出他对于风险率是有影响的。
    3. β \beta β:协参数,类似线性回归里的参数向量,他也是一个向量,向量的长度同主观因素的个数是相同的(类似线性回归特征个数和参数个数相同),我们建立模型过程大部分的精力就是放在求解协参数β上,求解用到了部分似然估计
    参数估计:对偏似然函数,采用极大似然估计,使得当前样本出现的概率最大。
    抛开公式 假设研究某个对象在时间t的生存概率,影响生存概率的因素可以总结为两大类,一是时间,二是主观因素。
    时间:
    主观因素:一个
    随着时间的推移,死亡概率一定会不断增大,同时受到主观因素的制约,至于该主观因素是提高死亡率还是降低死亡率,每个个体情况并不相同。
    生存分析之Cox模型简述与参数求解: link.

  • 另一种半参数线性预测模型是ThresReg,主要研究事件首次发生事件FHT(First Hitting Time),与Cox比例风险模型不同的是,假设个体的风险函数是某个固定形式的带参数的随机过程,而不再是一个不随时间变化的风险比例
    在这里插入图片描述
    其中,随机过程P(t)是一个维纳过程(Wiener Process),它含有初始状态参数 S 0 S_0 S0和模型参数 μ \mu μ,这些参数和协变量通过链接函数ln( s 0 s_0 s0)= λ 1 T x \lambda_1^Tx λ1Tx, μ = λ 1 T x \mu=\lambda_1^Tx μ=λ1Tx建立联系。参数 λ 1 , λ 2 ∈ R m \lambda_1,\lambda_2\in\R^m λ1,λ2Rm通过极大化的下式所示的对数似然估计函数估计得到
    在这里插入图片描述
    其中 y ^ t i \widehat{y}_t^i y ti表示FHT模型预测的个体i在t时刻首次发生事件的概率,I()表示指示性函数,FTF模型的输出最终为个体首次发生事件时间的概率分布

参数方法

线性回归和加速失效模型,基于各种分布假设直接研究生存函数,这一类可以用于预测个体生存函数的全参数模型也是线性模型,同样需要承受线性模型带来的限制。

生存分析机器学习模型

传统模型为线性模型,基于机器学习的模型来学习生存数据中协变量与生存状态之间的非线性关系,常见的机器学习模型主要包括 支持向量机决策树模型深度神经网络等。

生存分析研究的内容

1.描述生存过程

研究生存时间的分布特点(可按照年龄、性别等分组),比较不同组件的分布特点,估计生存率及平均存活时间,绘制生存曲线等,根据生存时间的长短,可以估算出各个时点的生存率,并根据生存率来估计中位生存时间,也可以根据生存曲线分析其生存特点,一般使用Kaplan-Meier法和寿命表法。
  Kaplan-Meier法:

2.比较生存过程

可通过生存率及其标准误对各样本的生存率进行比较,以探讨各组间的生存过程是否存在差异,一般使用Log-rank检验和Breslow检验。

3.分析危险因素

是通过生存分析模型来探讨影响生存时间和终点事件的保护因素和不利因素,因素作用的大小及方向,相对危险度的大小,基本使用Cox回归模型。

4.建立数学模型

建立最终的数学模型,也是通过Cox回归模型完成。

研究思路

1.数据

数据集的选取、预处理、数据分布
收集patient的个人信息、临床信息,处理得到模型规定的输入特征
进行表示学习:采用深度学习方法

2.模型设计

复发预后模型设计???
将患者的特征输入至上述建立好的模型,讲过模型内部的判断、计算、决策,输出模型对患者复发概率的估计值
两种策略:

  • sole prediction:一次性预测,结果为二分类,发生或者不发生。输入:五年的生存数据,输出:第五年的生存结果
  • probability dependence on time:随时间变化的概率。输入:五年的生存数据,输出:

3.实验部分(对比分析)

4.可解释性

首先,使用Kaplan-Meier方法估计整个数据集人群总体的生存曲线
建立预后模型,应用:当患者完成初次诊断后,可以收集其个人信息和临床信息,整理得到模型规定的输入特征,然后,将患者的特征输入至上述建立好的早期癌症患者复发预后模型,经过该预后模型内部的判断、计算、决策、输出预后模型对该患者初次诊断后复发概率的估计值。最后,由模型给出的复发概率估计值,经过转化得到该患者的估计生存曲线。该曲线刻画了不同随访时长内,该患者生存(即未出现复发)的概率。最终,医生可以参考由早期乳腺癌患者复发预后模型给出的生存曲线估计,解读该患者5年内出现复发的概率,或者了解该患者的复发风险趋势,从而结合实际情况制定治疗方案或进行提前干预以减轻患者的负担。
因子分析
重要性排序,在进行模型建立后,使用该模型寻找对早期乳腺癌患者初次诊断后复发有重要影响的因子,或者探究不同因子的影响模式,即模型特征解释性在实际生存分析应用中是被要求的。
治疗推荐


http://chatgpt.dhexx.cn/article/3Eu9ATQP.shtml

相关文章

生存分析

1 KM法计算生存率——非参数模型2 log-rank秩检验比较不同组的生存率2.1 输入数据2.2 建立假设2.3 log-rank秩精确性检验2.4 可视化 1 KM法计算生存率——非参数模型 乘积极限法适用于离散数据&#xff0c;它用于建立时刻 t t t 上的生存函数&#xff0c;根据 t t t 时刻之前…

8.常用统计分析方法——生存分析

目录 生存分析基本概念 生存率估计 1. 乘积极限法 2. 寿命表法 3. 生存曲线 生存曲线比较 COX比例风险回归模型 1. 建立COX回归模型 2. 比例风险假定的检验 3. 生存预测 生存分析基本概念 logistic回归中因变量是终点事件发生与否&#xff0c;而生存分析则关注的是终…

生存分析(1)

一、基本概念和名词解释 1.生存分析&#xff08;survival analysis&#xff09; 是研究生存现象和响应时间数据及其统计规律的一门学科。 是将事件的结果&#xff08;终点事件&#xff09;和出现这一结果所经历的时间结合起来分析的一种统计分析方法。 生存分析与其他多因素…

什么是生存分析(survival analysis)?

什么是生存分析(survival analysis)? 用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法 基本概念 失效事件(Failure Event):常被简称为事件,研究者规定的终点结局,医学研究中可以是患者死亡,也可以是疾病的发生、某种治疗的反应、疾病的…

生存分析原理简明教程 单因素生存分析 Kaplan-Meier、LogRank 只能针对单一的变量进行 多因素cox回归分析

一、生存分析 狭义上来说&#xff0c;生存分析用来分析病人的生存和死亡情况。广义上讲的是事件是否发生。在这里就用是否死亡来代替。一般来说&#xff0c;生存的数据一般有两个变量&#xff0c;一个事件是否发生&#xff0c;病人是否死亡&#xff0c;死亡为1&#xff0c;未死…

IRIS 2021 技术文档 First Look 25 -- 数据库加密

本文档向您介绍 InterSystems IRIS数据平台如何处理数据库加密&#xff0c;这是所有企业安全战略的重要组成部分。 本文档介绍了数据库加密的情况&#xff0c;并引导您完成一些与创建加密数据库有关的初始任务。一旦您完成了本指南&#xff0c;您将创建一个密钥文件&#xff0c…

开始使用了

开始了 今天开始用,请大家指教 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown…

Oracle LiveLabs实验:DB Security - Key Vault

概述 此实验关于Oracle Key Vault。 此实验申请地址在这里&#xff0c;时间为55分钟。 实验帮助在这里。 实验生成需要15分钟左右&#xff0c;最终会生成2个虚机&#xff0c;以下为我的专属配置&#xff1a; 129.146.74.138 DBSEC-LAB &#xff08;数据库主机&#xff09;…

idea 启动项目找不到程序包,提示程序包不存在

我是一个父子工程项目,项目在编译,build,rebuild的时候都没用报错,但用idea启动的时候就报错 error:找不到该程序包.或者类… 在网上找了很多方法都没有解决:reimport maven ,rebuild 都不行 .maven实际是完整的,本地也有这个jar包. 现在我在网上找了几种解决方法: 1.是因为id…

docker-compose vmwkmip

vSphere 6.5 中引入了许多 vSphere 安全增强功能,包括备受期待的虚拟机加密功能。为了能够使用新的虚拟机加密功能,您需要先设置一个 密钥管理互操作性协议 (KMIP)服务器(如果您还没有)并将其与您的 vCenter Server 相关联。有很多 3rd 方供应商提供与新的 VM 加密功能互操…

运维实战:Xtrabackup备份与还原

目录 运维实战&#xff1a;percona-xtrabackup备份与还原 一、工作原理 二、版本区别 三、Xtrabckup特点及限制 3.1 特点 3.2 限制 四、xtrabckup安装&#xff08;mariadb5.5 xtrabckup 2.4&#xff09; 4.1 rpm安装xtrabackup 4.2 xtrabackup的rpm包含哪些内容 4.2…

FileNotFoundException: jdcbc.properties (系统找不到指定的文件) 该问题的解决方法

一般遇到这种问题都是我们将properties文件创建在模块下面了, 这时候,由于默认访问路径在项目下面, 所以此时我们应该加上当前模块的路径, 即可解决这个问题

pykmip测试

开源路径:https://github.com/OpenKMIP 创建key并加解密 import ssl from kmip.pie.client import ProxyKmipClient, enums from kmip.pie import objectsclient ProxyKmipClient(hostname127.0.0.1,port5696,cert/home/nxy/PyKMIP/bin/client_cert.pem,key/home/nxy/PyKMIP…

开始使用KMIP4J

开始使用KMIP4J 密钥管理互操作协议&#xff08;KMIP&#xff09;的开源实现 KMIP定义了密钥生命周期管理系统&#xff08;KLMS&#xff09;和其客户之间的沟通。一些公司已经使用专有的KMIP实现&#xff0c;这些KMIP实现使用不同的编程语言&#xff0c;但是到现在为止&#xf…

KMIP4J数据处理流程

Kmip1.0测试环境介绍&#xff1a;http://blog.csdn.net/lihuayong/article/details/25098093 1 测试环境整体结构 系统的结构是基于客户端-服务器体系结构&#xff08;见下图&#xff09;。红色水平虚线显示了KMIP1.0库和测试环境的边界。实现的测试环境由一个客户端和服务器端…

KMIP1.0环境搭建

开发环境&#xff1a;MyEclipse 10 JDK&#xff1a;jdk1.7 Tomcat&#xff1a;apache-tomcat-7.0.6 数据库&#xff1a;H2嵌入式数据库 下载java 实现的KIMP1.0版本的源码包和相关的jar包文件。 下载地址&#xff1a;http://sourceforge.net/projects/kmip4j/files/KMIP4J-V1.0…

kmip4j_KMIP4J入门

kmip4j 有关管理数据安全性和合规性的电子书 组织难以确定多个合规性任务的优先级,并创建数据安全策略来满足这些要求并保护其最敏感的数据。 您可以下载eBook, 管理合规性并保护企业数据 ,以了解在企业数据保护策略中有效管理合规性要求和保护数据的六个基本步骤。 “加密…

KMIP协议/TTLV格式解码

文章目录 KMIP协议官方文档手动解析TTLV格式请求响应 自动解析解析请求和响应 KMIP协议官方文档 KMIP协议官方文档&#xff1a;http://docs.oasis-open.org/kmip/spec/ 打开是这样的&#xff0c;在我写这篇文章的时候 KMIP更新到了1.4版本 以下KIMIP1.0协议为例&#xff1a; …

导入pfx证书

本文分享从Micrsoft Manange Console&#xff08;简写为 MMC&#xff09;中导入PFX证书的内容&#xff0c;您可以按住“Windows R”&#xff0c;从Run对话框中输入mmc&#xff0c;打开MMC界面。 一&#xff1a;添加管理单元&#xff08;snap-in&#xff09; 从File主菜单中选…

关于pfx证书和cer证书

Pfx证书&#xff0c;同时包含了公钥信息和私钥信息&#xff08;用私钥加密进行签名证明是本人签名&#xff0c;用公钥解密对签名进行进行验证&#xff0c;证明签名的合法性&#xff09; PFX也称为PKCS#12(Public Key Cryptography Standards #12&#xff0c;公钥密码技术标准#…