03 常用统计模型简述

article/2025/11/5 9:48:29

逻辑回归模型(LR)

 

原理:分类模型,依据逻辑斯蒂分布,将线性模型转化为逻辑回归模型,使结果分布0~1之间。

前置条件:

自变量为连续变量,分类变量转为虚拟变量(哑变量)使用

自变量与因变量存在相关性

自变量之间不存在共线性

参数求解:极大似然估计

优化算法:拟牛顿法,梯度下降法

R方:模型中自变量对因变量的解释程度

聚类模型(Kmean)

原理:选取k个实例作为质心,计算所有实例到质心的距离,根据距离划分实例所属的质心,再对每个分类计算新的质心(中心点),再次求取距离划分所属质心,直至质心不再发生改变或达到最大迭代次数。

前置条件:数据无量纲化(正则化或归一化)

距离:余弦相似度,欧式距离

k值:先预设一个k值,聚类结束观察各类之间属性是否区分明显,若不明显则调整k值

决策树(CART)

原理:计算所有特征的可能切分点的基尼指数,选取最小基尼指数进行切分,直至所有特征都进行划分,再计算每个节点的损失函数(即预剪枝前后的基尼指数之差),选取最小的进行剪枝,采用交叉验证法选出整体基尼指数最小的树作为最优树

基尼指数:类似信息熵,用于衡量不确定性,1-各类概率的平方和

关联规则(Apriori)

原理:构成候选1项集,根据支持度删减,再将剩余的频繁1项集组成候选2项集,再进行删减,直至无法再生成候选项集,选取最终的频繁项集中置信度最高的子项

支持度:项集的发生概率(出现频率)

置信度:条件概率

支持向量机(SVM)

原理:生成随机平面,计算各实例点到平面的几何距离,调整平面参数,使得几何距离到达最大

与感知机的区别:感知机的目标是分对实例点,而支持向量机的目标是产生最大间隔

协同过滤算法(CF)

原理:

基于商品的协同过滤:计算用户对商品的偏好,再根据商品的偏好特征向量之间的余弦相似度,找到最相似的产品关系,依据这层偏好关系推送对应产品。

基于用户的协同过滤:计算用于对商品的偏好,再根据用户的偏好特征向量之间的余弦相似度,找到最相似的用户关系,依据这层偏好关系推送对应产品。

一般选取基于商品的协同过滤,因为商品的相似度要高于人的相似度。

分类模型通用的效果评估

指标

描述

Scikit-learn函数(python)

评估方式

计算方式

Precision

精准度

from sklearn.metrics import precision_score

正预测中预测对的比例

TP/(TP+FP)

Recall

召回率

from sklearn.metrics import recall_score

真正例中预测对的比例

TP/(TP+FN)

ROC

ROC曲线

from sklearn.metrics import roc

ROC曲线越凸向左上方向效果越好;越靠近对角线,分类器越趋向于随机分类器

x:TP/(TP+FN)

y:FP/(FP+TN)

AUC

ROC曲线下的面积

from sklearn.metrics import auc

0-0.6 差

0.6-0.8 较好

0.8-1 好

T/F:预测结果正确/错误 P/N:预测值正类/负类

注意:

测试集准确率高但auc低:因为测试集中因变量分布极度不均匀,例如因变量(99个0,1个1),但预测值全部要选向0,则准确率有0.99

解决方法1(欠采样):

剔除多数类样本,使得分类样本分布均匀。缺点:由于样本减少导致信息缺失

解决方法2(过采样):

复制少数类样本,使得分类样本分布均匀。缺点:数据量增加,训练复杂度加大(对于大数据而言可以忽略);过拟合,重复数据导致少数类样本特征过于集中

解决方法3(代价敏感学习)【通过调整FN/FP的敏感比例,提高少数类错判的权重】:


http://chatgpt.dhexx.cn/article/XKNVNqi0.shtml

相关文章

不可不知的七大统计模型

一、多元回归 1、概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可…

数学建模笔记(十一):统计模型(MATLAB计算,函数参数解释待补充)

文章目录 一、概述二、参数估计——区间估计1.糖果称重(求总体均值 μ \mu μ的双侧置信区间)(一)根据公式计算结果(二)直接使用 t t e s t ( ) ttest() ttest()函数 2.灯泡寿命( μ \mu μ的单…

scss和sass的区别,scss的基本使用

scss的官方文档 https://www.sass.hk/ sass和scss有什么关系? 1、sass和scss其实是一样的css预处理语言,SCSS 是 Sass 3 引入新的语法,其后缀名是分别为 .sass和.scss两种。 2、SASS版本3.0之前的后缀名为.sass,而版本3.0之后…

vue 安装 scss

安装scss (安装sass-loader node-sass 前者依赖于后者) sass-loader:把 sass编译成css node-sass:nodejs环境中将sass转css npm install sass-loader --save-dev npm install node-sass --sava-dev 安装指定版本:当由于版本过高报错时&#…

scss、sass 和 css 的区别

项目中,会经常使用诸如scss、sass的style样式,它们和css有什么区别呢? less大家应该都不陌生,同样的scss、sass一样,它们都可以称为:CSS预处理器语言。 简单来说,scss和sass的区别,就…

Scss 基本使用(变量、嵌套)

1. Scss 简介 Sass (Syntactically Awesome Stylesheets) 是一种动态样式语言,Sass 语法属于缩排语法,比 css 比多出好些功能 (如:变量、嵌套、运算,混入(Mixin)、继承、颜色处理,函数等),更容易阅读。 Sass 的缩排语…

sass与scss的区别

用了很久css预编译器,但是一直不太清楚到底用的sass还是scss,直到有天被问住了有点尴尬,找了个教程撸了遍。。。 异同:简言之可以理解scss是sass的一个升级版本,完全兼容sass之前的功能,又有了些新增能力。…

SCSS的基本用法-入门篇

文章目录 前言一、什么是Sass二、SASS 和 SCSS 的区别三、Scss的基本语法1、声明变量 $2、默认变量 !default3、变量调用4、局部变量和全局变量5、嵌套5.1、选择器嵌套5.2、属性嵌套5.3、伪类嵌套 6、混合宏6.1、声明6.1.1、不带参数混合宏6.1.2、带参数混合宏 6.2、调用6.3、混…

Sass 和 SCSS

▣Sass (Syntactically Awesome StyleSheets),是由buby语言编写的一款css预处理语言,和html一样有严格的缩进风格,和css编写规范有着很大的出入,是不使用花括号和分号的,所以不被广为接受。 Sass 是一款强化 CSS 的辅助…

scss的基本使用

文章目录 SCSS-了解和基本使用sass、scss、less、css的区别 SCSS-基本语法1. 嵌套语法2. 变量3. 父选择器 &4. 混合 mixins5. 模块 SCSS-了解和基本使用 总结一些scss基本使用 具体详情请看官网 sass、scss、less、css的区别 less, sass, scss都是css预处理语言&#xf…

scss理解及用法

1.scss是什么 scss是css的一种预处理语言 scss是一门很好用的类css,在现实中的工作当中几乎都是不采用css的,而是使用类css语言。 例如:scss、less、stylus等,所以学习一门css语言是必须得,由于我用的比较多的就是scss…

程序员那些你不知道的事:高收入程序员年薪高于50万,近四成程序员单身

本文转自:人民网 原文地址:《互联网从业者生活品质报告》发布:近四成程序员单身--IT--人民网 人民网北京10月24日(记者毕磊)10月23日,《互联网从业者生活品质报告》。据悉,该报告是基于挖财记…

程序员年薪30万,被准丈母娘各种刁难,网友说:分手吧!

这是一个很现实的社会,你没钱没车没房,很可能连老婆都讨不到,即使你收入不错潜力很大,但如果手头拿不出车房,丈母娘很可能一句话就把你怼得无话可说:没车没房我女儿跟你喝西北风? 这也是一名女…

python大神年薪_我程序员年薪 80 万被亲戚鄙视不如在二本教书的博士生?

但是毕业后,在父母辈的眼里似乎只有公务员、律师、教师这三大铁饭碗是他们心中的最佳职业,我第一次跟我妈说我从事的是IT行业程序员,她回答道:那是修电脑的吗?然后程序员行业被外界吐槽似乎司空见惯了,今日…

八年跳槽五次,程序员年薪4万变92万,引热议

本文转载自 程序员编程社区 很多时候,虽然跳槽可能带来降薪的结果,但依然有很多人认为跳槽可以涨薪。近日,看到一则帖子,发帖的楼主表示,自己8年5跳,年薪4万到92万,现在环沪上海各一套房&#…

2020年程序员年薪、婚恋、跳槽等报告出炉,说的是你吗?

黑马程序员 微信号:heiniu526 传智播客旗下互联网资讯,学习资源免费分享平台 程序员一直都是一个备受人们关注的群体,随着互联网的飞速发展,市场对程序员的需求尤为庞大。但是2020年,因为疫情影响,许多企业…

滴滴程序员年薪80万却被亲戚鄙视:钱多有啥用,我儿子二本大学教师

作者:胡多钱 From:程序员小乐 正文 说到教师和程序员这两个职业来说,很多人都会偏向于教师,毕竟从长远角度看,不管是地位还是工作稳定性来说,教师更加有优势,如果让你从程序员年薪80万和教师15…

程序员年薪45万,国企年薪20万,该不该跳槽去国企?

现如今很多在互联网的程序员,其实都是比较向往去国企的,尤其是那种年龄超过35岁的程序员,他们追求的可能不是高收入,而且稳定的工作以及能有时间陪家人。毕竟这些程序员打拼多年,多少都有一点身价了。 近日&#xff0c…

年薪100万和10万程序员的差距

点击蓝字关注,回复“职场进阶”获取职场进阶精品资料一份 我们看武侠大片,经常有那种本来可以练就绝世武功的大虾。 阴差阳错练的走火入魔。 一开始还可以硬撑,还能打败一些虾兵蟹将。 遇见真正的高手,这些大虾们立马就败下阵来。…

Github上Python超越Java,应届人工智能程序员年薪30w+

GitHub 2017年年度报告发布:有70万来自中国的新用户加入,占据Github新人总数70%。Python超越Java成为第二最受欢迎的语言,TensorFlow依然是最受欢迎的深度学习库。 人世间,流浪人归,亦若回流川 《深夜食堂2》 Python…