【机器学习】浅析机器学习各大算法的适用场景

article/2025/10/14 16:59:44

最近在参加一个分类算法竞赛,也正好整理各个分类机器学习算法的简单介绍,应用场景和优缺点。资源来自网上和自己个人理解。

一、逻辑回归模型

1、理解逻辑回归模型(LR)

逻辑回归是一种分类算法,其原理是将线性回归预测出来的数据映射到logit 函数上,从而完成对事件发生概率的预测(最终输出预测标签 0,1)。

2、逻辑回归模型的应用场景

LR 是很多分类算法的基础组件,它的好处是输出值自然地落在 0 到 1 之间,并且有概率意义。因为 LR 本质上是一个线性的分类器,所以处理不好特征之间相关的情况。

虽然预测效果一般,但胜在模型清洗,背后的概率学经得起推敲。它拟合出来的参数就代表了每一个特征对结果的影响。也是一个理解数据的好工具。

使用条件:当数据线性可分,特征空间不是很大的情况,不用在意新数据的情况,后续会有大量新数据的情况。

小结:

  • 用于分类:适合做很多分类算法的基础组件。

  • 用于预测:预测事件发生的概率(输出)。

  • 用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值)。

3、逻辑回归的优缺点

优点:

  • 从整体模型来说,模型清洗,背后的概率推导经得住推敲;

  • 从输出值来说,输出值自然落在 0 到 1 之间,并且有概率意义;

  • 从模型参数来说,参数代表每个特征对输出的影响,可解释性强;

  • 从运行速度来说,实施简单,非常高效(计算量小、存储占用低),可以在大数据场景中使用;

  • 从过拟合角度来说,解决过拟合的方法很多,如 L1、L2正则化;

  • 从多重共线性来说,L2 正则化就可以解决多重共线性问题;

缺点:

  • (特征相关情况)因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况;

  • (特征空间)特征空间很大时,性能不好;

  • (预测精度)容易欠拟合,预测精度不高;

二、树模型

1、理解树模型

决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择下一比较分支,直至叶节点作为最终的决策结果

2、树模型的应用

树模型可以生成清晰的基于特征选择不同预测结构的树状结构,当你希望可以更好的理解手上的数据的时候往往可以使用决策树。同时它也是相对容易被供给的分类器(因为这里认为的改变一些特征,是的分类器判断错误。常见于垃圾邮件躲避检测中,因为决策树最终在底层的判断是基于单个条件,攻击者往往只需要改变很少的特征就可以躲过监测)。

小结:

  • 受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石;

3、树模型的优缺点

优点:

  • 容易理解、可读性强,比较直观;

  • 自变量/特征可以是连续变量,也可以是分类变量;

  • 可处理缺失值;

  • 基本不用做原始数据的预处理,如标准化等;

  • 可以建立非线性模型;

  • 即使是较大的数据及,其训练时间也很短;

劣势:

  • 大型的决策树较难解释;

  • 方差大的决策树会导致模型表现较差;

  • 容易出现过拟合;

三、集成模型

通过组合多个学习器来完成任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好。

集成方法主要包括 Bagging 和 Boosting,Bagging 和 Boosting 都是将已有的分类或回归算法通过一定方式组合起来,最终得到不一样的效果。

常见的基于 Bagging 思想的集成模型有:随机森林、

基于 Boosting 思想的集成模型有:Adaboost、XgBoost、LightGBM 等。

Bagging 和 Boosting 的区别总结如下:

  • **在样本选择上:**Bagging 方法的训练集是从原始集中有放回的选取,所以原始集中选出的各轮训练集之间是独立的;而 Boosting 方法需要每一轮的训练集不变,知识训练集中每个样本在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整;

  • **在样例权重上:**Bagging 方法使用均匀取样,所以每个样本的权重相等;而 Boosting 方法根据错误率不断调整样本的权重,错误率越大则权重越大;

  • 在预测函数上:Bagging 方法中所有预测函数的权重相等;而 Boosting 方法汇总每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重;

  • 并行计算上:Bagging 方法中各个预测函数可以并行生成;而 Boosting 方法各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果;

1、基于 bagging 思想的集成模型——随机森林模型

随机森林是一种集成算法。它首先随机选取不同的特征和训练样本,生成大量的决策树,然后综合这些决策树的结果来进行最终的分类。

随机森林在现实分析中被大量使用,相对于决策树,在准确性有了很大的额提升,同时一定程度上改善了决策树容易被攻击的特点。

随机森林的应用:

  • 当数据维度相对低(几十维),同时对准确性有较高要求时;

  • 因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候可以先试一下随机森林;

随机森林的优缺点:

优点:

  • 在所有的算法中,随机森林具有极好的准确率;

  • 能够运行在大数据集上;

  • 能够处理具有高维特征的输入样本,而且不需要降维;

  • 能够评估各个特征在分类问题上的重要性;

  • 在生成过程中,能够获取内部生成误差的一种无偏估计;

  • 对于缺失值也能够获得很好的结果;

缺点:

  • 据观测,如果一些分类/回归问题的训练数据中存在噪音,随机森林中的数据集中会出现过拟合的现象;

  • 相对决策树来说,随机森林算法更复杂,计算成本更高(因为 RF 是有多个决策树组成);

  • 由于其本身的复杂性,它们比其他类似的算法需要更多的时间来训练;

2、基于 boosting 思想的集成模型

XGBoost 模型

XGBoost 即梯度提升机器算法,其基本思想是把成百上千个分类准确率较低的树模型组合成一个准确率较高的模型,该模型不断迭代,每次迭代生成一颗新的树,如何在每一步生成合理的树是 Boosting 分类器的核心。

XGBoost 模型的应用:

  • 在不确定使用哪种模型时,可以使用 xgboost 模型跑看下效果(很多竞赛的 top 都有用 xgboost);

  • 特征选择,可以根据模型输出的特征重要性,来选择相关的特征;

XGBoost 的优缺点:

优点:

  • XGBoost 支持多样,并加入了正则项,支持 shrinkage 缩减(相当于学习率),增加了列抽样来防止过拟合,能够处理缺失值,并且支持并行;

缺点:

  • 对所有叶子节点一视同仁,有些叶子节点影响不大,从这方面来说加重了计算,还有就是预排序会消耗很大空间,且要保存特征的排序索引,消耗很多时间,计算量大;

LightGBM 模型

LGB 的应用场合:

  • 当数据量较大的时候,使用 xgboost 需要更长的时间,可以考虑用 LGB;

  • 不想对类别特征进行 one hot encoding 时,可使用 LGB;

LGB 的优缺点:

优点:

  • 内存和计算上现象对 xgb 有明显优势,支持多线程优化;

  • 支持直接输入类别特征,不需要虚拟化;

缺点:

  • leaf-wise 的建树策略很容易过拟合,需要限制最大深度;

  • 相对 XGB 来说,LGB 较为粗糙,会损失一定精度;

本文来源:

https://www.zhihu.com/question/26726794/answer/1494975658

 
 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

2b1bbd221d771e5093a7f0fc1c02866d.png


http://chatgpt.dhexx.cn/article/CcFqfpYt.shtml

相关文章

什么是机器学习?有哪些应用?终于有人讲明白了

作者:星环科技人工智能平台团队 来源:大数据DT(ID:hzdashuju) 导读:人工智能的快速发展,带动了相关技术的繁荣。近些年,国内外的科技公司对机器学习人才都有大量需求。怎样入行机器学…

各种机器学习的应用场景分别是什么?

[转] https://www.leiphone.com/news/201712/RqsxWpjPOPFy6Qm4.html 关于这个问题我今天正好看到了这个文章,讲的正是各个算法的优劣分析,很中肯。 正好14年的时候有人做过一个实验[1],比较在不同数据集上(121个)&…

【机器学习】机器学习在社会科学中的应用

机器学习在社会科学中的应用 在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文&#xff0c…

机器学习应用

监督学习和非监督学习 监督学习: 有标签的,回归和分类,场景:用户流失预测 非监督学习:无标签,聚类和降维,场景:用户细分 数据不平衡 类别不平衡。数据在某些维度上多,…

【机器学习】为什么机器学习难于应用

摘要: 本文主要讲述了如何管理机器学习应用方面的棘手问题 应用机器学习是有挑战性的。 在机器学习领域,你必须要在没有正确答案的问题上做出很多决定!例如: 用什么框架? 用什么数据作为输入,要输出什么数…

机器学习在社会科学中的应用

本文把目前机器学习技术在社会科学研究中的应用分成三类:第一,数据生成(Data Generating Process):机器学习可以帮助学者获得以前很难或无法获得的数据;第二,预测(Prediction&#x…

【Machine Learning】20.应用机器学习的一些建议

20.应用机器学习的一些建议 1.导入包2. 评估学习算法(以线性回归为例)2.1 分离数据集可视化数据集 2.2 误差计算2.3 比较模型在训练集和测试集上的表现 3.Bias and Variance3.1 可视化数据集3.2 找到optimal degree最佳次数3.3 Tuning Regularization调整…

机器学习之应用举例

#Photo OCR Photo Optical Character Recognition(照片光学字符识别),注重的问题是如何让计算机读出图片中的文字信息。 1、给定某种图片,它将图像扫描一遍,然后找出照片中的文字信息; 2、重点关注这些文…

机器学习的应用–大数据

说完机器学习的方法,下面要谈一谈机器学习的应用了。无疑,在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后&#xf…

什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了

导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解大数据生态中的机器学习,并按照传统机器学习(包括分类、聚类、回归、关联规则、协同过滤、数据降维…

1.2 机器学习的应用

机器学习无处不在。 问:为什么机器学习已经成为人工智能的一个子领域? 答:通过编程能够让机器做一些事情,比如:如何找到从A到B的最短距离,现实生活对应着GPS导航。但是,有时候编程也存在难点&…

什么是机器学习?应用场景以及未来趋势

机器学习 (ML) 被定义为人工智能 (AI) 的一门学科,它使机器能够自动从数据和过去的经验中学习,以识别模式并在最少的人工干预下做出预测。本文介绍了机器学习的基础知识、其类型以及最重要的五个应用程序。它还分享了 2022 年机器学习的十大趋势。 目录…

学机器学习有什么用?机器学习可以应用哪些领域?

机器学习的目前在各个领域都非常实用,可以带来很多好处,包括以下几点: 学机器学习有什么用? 自动化:机器学习可以帮助自动处理大量数据和任务,减少人工处理的工作量。 预测性能:机器学习模型可…

机器学习有哪些应用场景?机器学习有什么用?

机器学习是一种广泛应用于各个领域的技术,以下列举几个机器学习的应用场景: 机器学习有哪些应用场景?机器学习有什么用? 金融领域:机器学习可以应用于信用评估、风险管理、欺诈检测等方面,帮助银行和保险公…

机器学习实战 | Python机器学习算法应用实践

作者:韩信子ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/201 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 引言 …

机器学习的应用方面,主要有哪些?

1、图像处理\识别(人脸识别、图片分类) 2、自然语言处理 3、网络安全(垃圾邮件检测、恶意程序\流量检测) 4、自动驾驶 5、机器人 6、医疗拟合预测 7、神经网络 8、金融高频交易 9、互联网数据挖掘/关联推荐 人工智能、大…

机器学习在各个领域的实际应用

机器学习在各个领域的实际应用 经常会被问到,现在机器学习、人工智能这么火,那么它到底有什么实际应用呢,在本文中,分享了一个来自Github的项目,这个项目整理了包括机器学习等数据科学技术在工业界的开源项目&#xff…

机器学习的应用——关于正确应用机器学习

引言 前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,尤其是能够对整个模型的解释方面,要想能够对模型…

机器学习在生活中的九大有趣应用

No1:虚拟个人助理 Siri、小冰、度秘是现在虚拟个人助理的典型例子。顾名思义,当你通过语音询问时,他们便会找寻相应的信息,比如你问“我今天的日程安排是什么?”“从德国到伦敦的航班是什么?”等类似的问题…

机器学习可以应用在哪些场景?机器学习有什么用?

我们在说机器学习分类的时候,简单介绍了一下不同机器学习方法,主要是解决是什么问题,在本节中具体介绍一些常用的应用场景,主要说明这些应用到底怎么用,不对其中的算法以及原理做深入的介绍。 机器学习的应用 1. 分类…