Logistic逻辑回归模型(LR)基础

article/2025/9/2 16:10:42

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。

1 逻辑回归模型

    回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

    最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤hθ(x)≥.05为恶性,hθ(x)<0.5为良性。

clip_image002

图1 线性回归示例

    然而线性回归的鲁棒性很差,例如在图1.b的数据集上建立回归,因最右边噪点的存在,使回归模型在训练集上表现都很差。这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如图2所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。

clip_image004图2 逻辑方程与逻辑曲线

    逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,逻辑回归成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。对于多元逻辑回归,可用如下公式似合分类,其中公式(4)的变换,将在逻辑回归模型参数估计时,化简公式带来很多益处,y={0,1}为分类结果。
clip_image006

    对于训练数据集,特征数据x={x1, x2, … , xm}和对应的分类数据y={y1, y2, … , ym}。构建逻辑回归模型f(θ),最典型的构建方法便是应用极大似然估计。首先,对于单个样本,其后验概率为:

clip_image008    那么,极大似然函数为:

clip_image010    log似然是:

clip_image012

2 梯度下降

    由第1节可知,求逻辑回归模型f(θ),等价于:

clip_image014    采用梯度下降法:

clip_image016     从而迭代θ至收敛即可:

clip_image018

3 模型评估

    对于LR分类模型的评估,常用AUC来评估,关于AUC的更多定义与介绍,可见参考文献2,在此只介绍一种极简单的计算与理解方法。

    对于下图的分类:

clip_image020     对于训练集的分类,训练方法1和训练方法2分类正确率都为80%,但明显可以感觉到训练方法1要比训练方法2好。因为训练方法1中,5和6两数据分类错误,但这两个数据位于分类面附近,而训练方法2中,将10和1两个数据分类错误,但这两个数据均离分类面较远。

    AUC正是衡量分类正确度的方法,将训练集中的label看两类{0,1}的分类问题,分类目标是将预测结果尽量将两者分开。将每个0和1看成一个pair关系,团中的训练集共有5*5=25个pair关系,只有将所有pair关系一至时,分类结果才是最好的,而auc为1。在训练方法1中,与10相关的pair关系完全正确,同样9、8、7的pair关系也完全正确,但对于6,其pair关系(6,5)关系错误,而与4、3、2、1的关系正确,故其auc为(25-1)/25=0.96;对于分类方法2,其6、7、8、9的pair关系,均有一个错误,即(6,1)、(7,1)、(8,1)、(9,1),对于数据点10,其正任何数据点的pair关系,都错误,即(10,1)、(10,2)、(10,3)、(10,4)、(10,5),故方法2的auc为(25-4-5)/25=0.64,因而正如直观所见,分类方法1要优于分类方法2。

4 演算手稿

    附演算手稿如下:

IMG20131204_223442

 

参考文献:

1  Andrew NG. Logistic Regression Classification

2 http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html

----

只能永远把艰辛的劳动看作是生命的必要;即使没有收获的指望,也能心平气和的继续耕种。

分类: 数据挖掘与推荐

标签: 数据挖掘, 机器学习, 逻辑回归

好文要顶关注我 收藏该文

 

文墨
关注 - 12
粉丝 - 53

+加关注

1

0

«上一篇:简单的基于地理图片的旅行路线还原
»下一篇:谱聚类算法(Spectral Clustering)优化与扩展


http://chatgpt.dhexx.cn/article/M68FfAGS.shtml

相关文章

模型压缩一-知识蒸馏

一、知识蒸馏简介 知识蒸馏是模型压缩方法中的一个大类&#xff0c;是一种基于“教师-学生网络&#xff08;teacher-student-network&#xff09;思想”的训练方法&#xff0c; 其主要思想是拟合教师模型&#xff08;teacher-model&#xff09;的泛化性等&#xff08;如输出概率…

推荐系统之GBDT+LR

前言 前面讲过的FM与FFM模型虽然增强了模型的交叉能力&#xff0c;但是不管怎样都只能做二阶的交叉&#xff0c;如果想要继续加大特征交叉的维度&#xff0c;那就会出大计算爆炸的情况。所以Facebook提出了梯度提升树&#xff08;GBDT&#xff09;逻辑回归&#xff08;LR&…

使用Keras进行单模型多标签分类

原文&#xff1a;https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras/ 作者&#xff1a;Adrian Rosebrock 时间&#xff1a;2018年5月7日 源码&#xff1a;https://pan.baidu.com/s/1x7waggprAHQDjalkA-ctvg &#xff08;wa61&#xff09; 译者&…

LR模型常见问题小议

&#xfeff;&#xfeff; LR模型常见问题小议 标签&#xff1a; LR机器学习 2016-01-10 23:33 671人阅读 评论(0) 收藏 举报 本文章已收录于&#xff1a; 分类&#xff1a; 机器学习&#xff08;10&#xff09; 作者同类文章 X 版权声明&#xff1a;本文为博主原创文章&…

信用评分卡(A卡) 基于LR模型的数据处理及建模过程

数据来自&#xff1a;魔镜杯风控算法大赛&#xff08;拍拍贷&#xff09;。有关数据的具体描述可以看比赛页面。 0. 数据集的关键字段及描述&#xff1a; Master&#xff1a;每一行代表一个样本&#xff08;一笔成功成交借款&#xff09;&#xff0c;每个样本包含200多个各类…

机器分类---LR分类+模型评估

文章目录 数据集ROC曲线与AUC理论知识曲线理解实例计算 代码 更详细的数据集介绍&#xff08;有图形分析&#xff0c;应该比较好理解&#xff09; https://blog.csdn.net/weixin_42567027/article/details/107416002 数据集 数据集有三个类别&#xff0c;每个类别有50个样本。…

python机器学习算法(赵志勇)学习笔记( Logistic Regression,LR模型)

Logistic Regression(逻辑回归) 分类算法是典型的监督学习,分类算法通过对训练样本的学习,得到从样本特征到样本的标签之间的映射关系,也被称为假设函数,之后可利用该假设函数对新数据进行分类。 通过训练数据中的正负样本,学习样本特征到样本标签之间的假设函数,Log…

推荐系统实战中LR模型训练(二)

背景&#xff1a; 上一篇推荐系统实战中LR模型训练&#xff08;一&#xff09; 中完成了LR模型训练的代码部分。本文中将详细讲解数据准备部分&#xff0c;即将文本数据数值化为稀疏矩阵的形式。 文本数据&#xff1a; 稀疏矩阵&#xff1a; 实现过程&#xff1a; 文本数据格…

机器学习 | LR逻辑回归模型

逻辑回归(Logistic Regression,简称LR)名为“回归”却是用来分类工作、在线性数据上表现优异的分类器。 视频教程:第07讲:逻辑回归是线性分类器的佼佼者 LR是数据挖掘领域常用的一种分类模型,常用于解决二分类问题,例如垃圾邮件判定、经济预测、疾病诊断(通过年龄、性…

推荐系统实战中LR模型训练(一)

背景&#xff1a; 在“批量导入数据到Redis” 中已经介绍了将得到的itema item1:score1,item2:score2…批量导入到Redis数据库中。本文的工作是运用机器学习LR技术&#xff0c;抽取相应的特征&#xff0c;进行点击率的估计。 点击率&#xff08;Click-Through-Rate, CTR&#…

Prometheus TSDB存储原理

Python微信订餐小程序课程视频 https://blog.csdn.net/m0_56069948/article/details/122285951 Python实战量化交易理财系统 https://blog.csdn.net/m0_56069948/article/details/122285941 Prometheus 包含一个存储在本地磁盘的时间序列数据库&#xff0c;同时也支持与远程…

数据库必知必会:TiDB(8)TiDB 数据库 SQL 执行流程

数据库必知必会&#xff1a;TiDB&#xff08;8&#xff09;TiDB 数据库 SQL 执行流程 数据库 SQL 执行流程DML语句读流程概述SQL的Parse与CompileSQL的Execute DML语句写流程概述执行 DDL语句流程概要执行 知识点回顾 数据库 SQL 执行流程 在TiDB中三个重要组件&#xff1a; …

时不我待,TSDB崛起正当时

近期有小伙伴问Jesse&#xff0c;为什么你们要在现在这个时点做TSDB&#xff0c;这是个好时点吗&#xff1f;我认为这是个挺好的问题&#xff0c;因为再强的个人也比不上一个团队&#xff0c;再牛的团队也需要顺势而为。我们其实一直在深度思考“Why Now”的问题&#xff0c;因…

时间序列数据库TSDB排名

DB-Engines 中时序列数据库排名 我们先来看一下DB-Engines中关于时序列数据库的排名&#xff0c;这是当前&#xff08;2016年2月的&#xff09;排名情况&#xff1a; 下面&#xff0c;我们就按照这个排名的顺序&#xff0c;简单介绍一下这些时序列数据库中的一些。下面要介绍的…

TiDB Server

目录 TiDB Server架构 Online DDL GC 缓存管理 热点小表缓存 例题 TiDB Server架构 Protocol Layer&#xff1a;负责处理客户端的连接 Parse&#xff0c;Compile&#xff1a;负责SQL语句的解析与编译&#xff0c;并生成执行计划 Executor&#xff0c;DistSQL&#xff0…

Prometheus TSDB

TSDB 概述&#xff1a; Head: 数据库的内存部分 Block: 磁盘上持久块&#xff0c;是不变的 WAL: 预写日志系统 M-map: 磁盘及内存映射 粉红色框是传入的样品&#xff0c;样品先进入Head中存留一会&#xff0c;然后到磁盘、内存映射中&#xff08;蓝色框&#xff09;。然后当内…

TiDB体系结构之TiDB Server

TiDB体系结构之TiDB Server TiDB ServerTiDB Server主要组成模块SQL语句的解析和编译行数据与KV的转化SQL读写相关模块在线DDL相关模块TiDB的垃圾回收TiDB Server的缓存 TiDB Server TiDB Server的主要作用如下&#xff1a; 处理客户端连接SQL语句的解析和编译关系型数据与KV…

TSDB助力风电监控

各位小伙伴大家好&#xff0c;本期Jesse想再来跟大家聊聊TSDB的应用场景&#xff0c;在此也感谢尹晨所著的《时序数据库在风电监控系统中的应用》一文&#xff0c;其为我们探究TSDB在风电系统中的应用提供了重要的帮助。 本文仅代表个人观点&#xff0c;如有偏颇之处&#xff…

dbt-tidb 1.2.0 尝鲜

作者&#xff1a; shiyuhang0 原文来源&#xff1a; https://tidb.net/blog/1f56ab48 本文假设你对 dbt 有一定了解。如果是第一次接触 dbt&#xff0c;建议先阅读 官方文档 或 当 TiDB 遇见 dbt 本文中的示例基于官方维护的 jaffle_shop 项目。关于此项目的细节介绍&a…

为啥用 时序数据库 TSDB

前言 其实我之前是不太了解时序数据库以及它相关的机制的&#xff0c;只是大概知晓它的用途。但因为公司的业务需求&#xff0c;我意外参与并主导了公司内部开源时序数据库influxdb的引擎改造&#xff0c;所以我也就顺理成章的成为时序数据库“从业者”。 造飞机的人需要时刻…