倾向值分析(协变量选择)

article/2025/11/10 5:14:47

Hirano 和 Imbens 基于预设的临界t值来设定预测变量的方法

  1. 逻辑回归:逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。
    a.逻辑回归公式如下:
    在这里插入图片描述
    其中,Y为决策值,x为特征值,e为自然对数。Y(x)的图形如下:
    在这里插入图片描述
    对于常见二分类,逻辑回归通过一个区间分布进行划分,即如果Y值大于等于0.5,则属于正样本,如果Y值小于0.5,则属于负样本,这样就可以得到逻辑回归模型,判别函数如下:
    在这里插入图片描述
    在模型参数w与b没有确定的情况下,模型是无法工作的,因此接下来就是在实际应用期间最重要的是模型参数w和b的估计。其代价函数如下:
    在这里插入图片描述
    给定y值为1时,代价函数曲线横坐标为决策函数Y(x)的值越接近1,则代价越小,反之越大。当决策函数Y(x)的值为1时,代价为0。类似的,当给定y值为0时有同样的性质。
    b.Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。
    c.odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。
    OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)。
    d.最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。
    e.可以通过逻辑回归系数衡量自变量对分类因变量的影响。详见链接中包含一个连续变量的模型部分
    http://blog.sina.com.cn/s/blog_44befaf60102vznn.html
    f.关于逻辑回归的代码分析见链接
    https://baijiahao.baidu.com/s?id=1628902000717534995&wfr=spider&for=pc
  2. 利用python实现一元线性回归https://blog.csdn.net/LULEI1217/article/details/49385531
  3. T检验
    a.T检验是假设检验的一种,又叫student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
    b. T检验用于检验两个总体的均值差异是否显著。
    c. T检验使用了样本方差估计总体方差。
  4. 两样本均数比较
    两独立样本均数 T 检验用于比较两样本所分别代表的总体均数是否有统计学差异。理论上,即使样本量很小时,也可以进行 T 检验, 如样本量为 10。一些学者声称甚至更小的样本也行,只要每组中变量呈正态分布,两组方差不是明显不同。正态分布假设可以通过观察数据的分布(如直方图、箱体图、Q-Q图)或进行正态性检验来测量。方差齐性的假设可进行 F 检验,或进行更有效的 Levene’s 检验。如果不满足这些条件,使用非参数检验代替 T 检验进行两组间均值的比较。如果呈正态分布,但方差不齐,可采用 Welch’s t test 方法。
  5. 配对 t 检验的基本原理是计算每对的差值(X= X1-X2),然后采用单样本 T 检验方法,检验差值是否等于 0,以此推断配对样本间是否有显著差异。
  6. 两独立样本t检验:
    第一步:零假设:H0 μ1=μ2
    第二步:判断两总体方差是否相等。(F检验,如果F对应的p值小于0.05,则方差不等;若果F对应的p值大于0.05,则方差相等)
    第三步:构造t统计量并计算t和p值
    第四步:判断,若p<0.05,则两总体均值存在显著差异,反之则不存在。
    两独立样本及两配对样本t检验 :http://blog.sina.com.cn/s/blog_5d188bc40101p6xu.html
  7. T检验的原理:在原假设成立的基础上,求出”取得样本均值或者更极端的均值”的概率,如果概率很大,就倾向于认为原假设H0是正确的,如果概率很小,就倾向于认为原假设H0是错误的,从而接受备择假设H1。
    https://blog.csdn.net/m0_37777649/article/details/74937242
    http://blog.sina.com.cn/s/blog_5d188bc40101p6xu.html
  8. T检验、F检验及统计学意义
    https://wenku.baidu.com/view/0ff60f5def06eff9aef8941ea76e58fafab045cb.html
  9. 由于样本的随机性,回归系数估计出的结果肯定和真实值β之间有误差, 而且这一误差的分布会服从一定的规律,回归系数的标准差就是用来描述这个误差的波动的。
  10. t检验是对单一系数的假设检验,F检验是对多个系数的joint hypothesis test,所以可以说t检验是F检验的一种特例。t检验也不一定要在多元线性回归中啦,一元线性也可以。
  11. 线性回归系数方差的计算:
    在这里插入图片描述
  12. 回归:通过显著性检验判断因变量对结果变量的影响(假设真实回归系数为0后得到通过样本计算所得到回归系数出现的概率很小,则拒绝原假设)
  13. 多元线性回归中的 T 检验怎样理解?其 p 值为什么划定在 0.05?
    https://www.zhihu.com/question/30753175
  14. T值检验回归系数是否等于某一特定值,在回归方程中这一特定值为0,因此T值=回归系数/回归系数的标准误差,因此T值的正负应该与回归系数的正负一致,回归系数的标准误差越大,T值越小,回归系数的估计值越不可靠,越接近于0。另外,回归系数的绝对值越大,T值的绝对值越大。
    回归分析中15个统计量解释 http://www.sohu.com/a/278722118_556897
  15. 我们在估计的时候都是用样本估计的,抽取一个样本就可以得到一个估计系数,再抽取一个还可以得到一个不同的估计系数,所以估计系数本身就是随机变量。而这种随机变量(由于是通过抽样获得的)的标准差就叫做标准误差。

逐步回归法

  1. 一个好的回归模型并不是考虑的自变量越多越好。在建立回归模型时选择自变量的指导思想是“少而精”。
  2. 无偏估计:估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
  3. 关于自变量选取的几个准则(abc适用于自变量个数较少的情况,d适用于自变量个数较多的情况):
    a. 自由度调整复相关系数达到最大
    b. 赤池信息量AIC达到最小
    c. Cp统计量达到最小
    d. 前进法,后退法,逐步回归法
  4. Pearson相关系数的适用范围:
    a. 两个变量之间是线性关系,都是连续数据;
    b. 两个变量的总体是正态分布,或接近正态分布;
    c. 两个变量的观测值是成对的,每对观测值之间相互独立。
  5. 为什么进行显著性检验:
    要从样本系数判断总体中是否也有这样的关系,则需要对相关系数进行统计检验后才能得出结论。
  6. T检验与F检验的由来:一般为确定从样本统计结果推至总体时所犯错的几率,我们会利用统计学家开发的统计方法(F检验,T检验)进行统计检定。F值和T值就是对应的统计检定值,与他们相对应的分布就是F分布和T分布。统计显著性(sig)就是目前出现样本这结果的几率。
  7. F检定的作用:均数差别的显著性检验,分离各有关因素并估计其对总变异的作用,分析因素之间的交互作用。
  8. 逐步回归法:逐步回归的基本思想是“有进有出”。具体做法是将变量一个个引入,当每引入一个变量后,对已选入的变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不显著时,样将其剔除。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著的变量从回归方程中剔除为止。
    自变量的选择与逐步回归分析
    https://wenku.baidu.com/view/561ec3e4793e0912a21614791711cc7931b778e6.html

OLS线性回归法

  1. 正态分布与T分布的关系:t分布的自由度趋于无穷时,t分布就服从正态分布所以,正态分布可以看做t分布的一个特例。
  2. 假设检验
    a. 基本思想是概率性质的反证法,即小概率事件原理:该原理认为小概率事件在一次实验中是不可能发生的。那么,在假定原假设是正确的条件下构造的一个检验统计量是小概率事件,如果小概率事件发生了,说明原假设是错误的,因为不该出现的小概率事件出现了,应该拒绝原假设。
    b. 假设检验包含两种方法:
    ①置信区间检验法
    ②t检验(单个变量系数的显著性检验)或F检验(多个变量系数的联合性显著检验)
    在这里插入图片描述
    最小二乘线性(OLS)回归模型
    http://blog.sina.com.cn/s/blog_17bf54ea20102x70y.html

使用 psestimate 这一命令来选择能最好拟合处理变量 (treat) 的协变量的一阶及二阶形式

https://blog.csdn.net/arlionn/article/details/90108138

逻辑回归计算特征重要度

变量贡献率,反应各自变量对因变量影响程度的相对大小,计算步骤如下:

  1. 对所有自变量标准化;

  2. 对标准化后的自变量建逻辑回归模型,取各变量回归系数的绝对值;

  3. 计算各变量回归系数绝对值的占比即为特征贡献率。
    注:虚拟变量,也叫哑变量,可用来表示分类变量、非数量因素可能产生的影响。在计量经济学模型,需要经常考虑属性因素的影响。例如,职业、文化程度、季节等属性因素往往很难直接度量它们的大小。只能给出它们的“Yes—D=1”或”No—D=0”,或者它们的程度或等级。为了反映属性因素和提高模型的精度,必须将属性因素“量化”。通过构造0-1型的人工变量来量化属性因素。
    Python实现逻辑回归:https://blog.csdn.net/t15600624671/article/details/77992969

随机森林输出特征重要度

  1. 用随机森林进行特征重要性评估的思想其实很简单,通俗来讲就是看每个特征在随机森林中的每颗树上做了多大的贡献,取平均值,然后比较特征之间的贡献大小。
  2. 常见的计算方法有两种,一种是平均不纯度的减少(mean decrease impurity),常用gini /entropy /information gain测量,现在sklearn中用的就是这种方法;另一种是平均准确率的减少(mean decrease accuracy),常用袋外误差率去衡量。
  3. 平均准确率的减少(mean decrease accuracy)即对每个特征加躁,看对结果的准确率的影响。影响小说明这个特征不重要,反之重要。
  4. 风险:随机森林的变量重要性衡量的并不完全是变量对目标变量预测的贡献能力,而是在这个模型中对目标变量预测的贡献能力,所以单纯用来评价变量的重要性值得探究。例如:我们有A和B两个变量,且A和B之间有较强的相关性,如果A对模型贡献度较大,由于B很像A,所以B也应该对模型贡献较大,但实际上若在随机森林中输出A的特征重要度得分高,B得分往往会很低。
    特征重要度整理 - 随机森林、逻辑回归:
    https://blog.csdn.net/weixin_39795364/article/details/82956118

http://chatgpt.dhexx.cn/article/Gi2yh2TY.shtml

相关文章

使用aPCoA包实现校正协变量的主坐标分析(aPCoA)以排除混杂协变量的影响

使用aPCoA包实现校正协变量的主坐标分析&#xff08;aPCoA&#xff09;以排除混杂协变量的影响 主坐标分析&#xff08;PCoA&#xff09;广泛用于生态学和微生物学等领域&#xff0c;以描述样本之间的差异&#xff0c;例如群落的beta多样性等。然而混杂的协变量可能会使与感兴趣…

多变量时间序列、预训练模型和协变量

darts官方地址 GitHub&#xff1a;https://github.com/unit8co/darts文档&#xff1a;https://unit8co.github.io/darts/index.html 本笔记可作为以下内容的教程&#xff1a; 在多个时间序列上训练单个模型使用预训练模型来获得训练期间看不到的任何时间序列的预测训练和使用…

协变量偏移_恶意软件分类的协变量偏移

协变量偏移 介绍 (Introduction) Covariate shift in the data-generating distribution lowers the usefulness of generalization error as a measure of model performance. By unpacking the definitions, the previous sentence translates to “high accuracy on the dis…

matlab 去除协变量,求助协变量调整

花了一个礼拜的时间重新学习了一下协方差&#xff0c;回归&#xff0c;感觉自己的理解很多都是不对的。 协方差分析是方差分析线性回归&#xff0c;但它要求很多&#xff0c;比如至少有两个分组(一个分组就是线性回归了)&#xff0c;协变量要是连续变量自变量和因变量要有线性关…

自变量/解释变量/因变量/响应变量/协变量等变量相关概念探析

概念探析 一般科学实验主要涉及以下三种变量&#xff1a; 自变量/独立变量&#xff08;independent variable&#xff09;&#xff1a;自变量是指在实验中由实验者操作的变量&#xff0c;它被认为不会受其他变量的影响&#xff08;即独立性&#xff09;。 因变量&#xff08…

爬虫-猫眼电影票房

背景 最近也不知道咋了&#xff0c;一直遇到 字体反爬手段&#xff0c;起点中文网&#xff0c;抖音等等吧&#xff0c;猫眼我一直想搞&#xff0c;只是没有精力了&#xff0c;前面搞了2个了&#xff0c;不差这一个。搞完这个&#xff0c;不在搞字体反爬了。 目标网站 猫眼票房…

python爬虫实例——中国电影票房

刚好最近在做一个关于中国电影市场的分析&#xff0c;所以这篇实例就诞生啦&#xff01;&#xff01;&#xff01; 一、观察网页 我所爬取的网站是&#xff1a;中国票房——年度票房。 网址甩出来&#xff1a;http://www.cbooo.cn/year?year2019 我们需要的数据是从2015年到…

python爬虫实战——猫眼电影案例

python爬虫实战——猫眼电影案例 背景 笔者上一篇文章《基于猫眼票房数据的可视化分析》中爬取了猫眼实时票房数据&#xff0c;用于展示近三年电影票房概况。由于数据中缺少导演/演员/编剧阵容等信息&#xff0c;所以爬取猫眼电影数据进行补充。关于爬虫的教学内容&#xff0c…

猫眼app产品分析和原型绘制

本项目为学习产品知识和技能过程中的一个小结&#xff0c;针对猫眼电影app的简单产品分析&#xff0c;顺便巩固xmind和axure技能。 项目名称 &#xff1a;猫眼电影app 产品背景&#xff1a;中国电影市场近10年&#xff08;2009年-2019年&#xff09;由高速增长阶段过渡到低速增…

Python爬虫实战+数据分析+数据可视化(猫眼电影)

一、爬虫部分 爬虫说明&#xff1a; 1、本爬虫是以面向对象的方式进行代码架构的 2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 代码展示 import re import timefrom pymongo import MongoClient import requests from lxml import html from urllib …

python爬虫基础案例——爬取猫眼电影并保存数据到excel

好久没更新博文了&#xff0c;最近忙于学习scrapy框架和微信小程序开发&#xff0c;今天看到一个自己之前写的但是中途放弃的爬虫小案例——爬取猫眼电影TOP100榜的相关数据&#xff0c;现在将它写好并分享给大家。 爬虫的套路就是通过url发送请求&#xff0c;获取数据&#x…

采集电影票房实时数据

网址&#xff1a;aHR0cDovL3BmLmZlLnN0Lm1hb3lhbi5jb20vZGFzaGJvYXJk 抓包分析 根据数据包可以发现&#xff0c;该网站在发送了ajax请求的同时又请求了一份woff文件&#xff0c;基本上可以确定这里使用了字体文件加密的方式了。 分析请求参数 不难看出&#xff0c;只有timestam…

【Python爬虫】猫眼电影榜单Top100

这是一个入门级的Python爬虫&#xff0c;结构易于理解。本文对编写此爬虫的全过程进行了讲述。希望对大家的Python爬虫学习有所帮助。 一、目标 爬取猫眼电影榜单Top100&#xff0c;将数据存入Excel文件中&#xff0c;并利用pyecharts库进行数据可视化得到.html文件和.png文件…

python爬虫阶段性总结和项目实操——爬取猫眼票房Top100

本博客通过爬取猫眼票房Top100来简要复习一下网页的HTML获取&#xff08;requests库&#xff09;解析&#xff08;Beautiful Soup库&#xff09;和数据保存&#xff08;csv库&#xff09;以及总结一下爬取过程中遇到的问题和解决方法 运行结果如下 1.获取网页源代码 def get_…

猫眼产品分析

一、前言 本文试图通过对猫眼电影的版本迭代历程分析、用户分析、功能分析、运营分析以及数据表现来回答以下几个问题&#xff1a; &#xff08;1&#xff09;猫眼电影的产品定位&#xff1f; &#xff08;2&#xff09;猫眼电影产品设计及运营中有哪些亮点和策略&#xff1f…

详解用爬虫批量抓取猫眼电影票房数据

"大数据"是一个体量特别大&#xff0c;数据类别特别大的数据集&#xff0c;并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)大&#xff0c;指代大型数据集&#xff0c;一般在10TB规模左右&#xf…

基于Python的电影票房爬取与可视化系统的设计与实现

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

猫眼 — 破解数字反爬获取实时票房

From&#xff1a;https://zhuanlan.zhihu.com/p/33112359 js分析 猫_眼_电_影 字体文件 font-face&#xff1a;https://www.cnblogs.com/my8100/p/js_maoyandianying.html 解析某电影和某招聘网站的web-font自定义字体&#xff1a;https://www.jianshu.com/p/5400bbc8b634 Font…

猫眼电影票房爬取到MySQL中_爬取猫眼电影top100,request、beautifulsoup运用

这是第三篇爬虫实战&#xff0c;运用request请求&#xff0c;beautifulsoup解析&#xff0c;mysql储存。 如果你正在学习爬虫&#xff0c;本文是比较好的选择&#xff0c;建议在学习的时候打开猫眼电影top100进行标签的选择&#xff0c;具体分析步骤就省略啦&#xff0c;具体的…

python 抢票代码 猫眼演出_Python爬虫-猫眼电影排行

爬虫的目标 爬取猫眼电影TOP100的电影名称,时间,评分,图片等信息 抓取分析 查看网页源代码,找到对应的目标信息,发现一部电影对应的源代码是一个dd节点 抓取首页 为了方便,这里先抓取第一页的内容,运行之后,可以查看到网页的源代码,之后需要对页面进行解析。 import re…