机器学习面试题目整理

article/2025/9/9 14:10:20

0 调参技巧

  1. 清洗数据,数据预处理,数据增广
  2. 是否使用预训练模型
  3. 使用BN
  4. 在过拟合后,使用正则化技巧如L1、L2、Dropout
  5. 对于不均匀样本,使用重采样
  6. 使用合适的优化器。第一,如果你关心快速收敛,使用自适应优化器,如Adam,但它可能会陷入局部极小,提供了糟糕的泛化。第二,SGD+momentum可以实现找到全局最小值,但它依赖于鲁棒初始化,而且可能比其他自适应优化器需要更长的时间来收敛。我建议你使用SGD+动量,因为它能达到更好的最佳效果。
  7. 学习率不小于1e-3,可以考虑使用学习率衰减
  8. early stop

1 使用归一化/标准化会改变数据原来的规律吗?

归一化:将数据映射到指定的范围,如:把数据映射到0~1或-1~1的范围之内处理。作用:有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。简化计算。
min-max 归一化,也叫 0-1 标准化。
在这里插入图片描述
标准化:将数据变换为均值为0,标准差为1的分布,切记,并非一定是正态的。作用:提升模型的收敛速度(加快梯度下降的求解速度)。提升模型的精度(消除量级和量纲的影响)。简化计算(与归一化的简化原理相同)。
z-score 标准化
在这里插入图片描述
robust 标准化(RobustScaler)
MaxAbs 标准化(最大值绝对值标准化),MaxAbs具有不破坏数据结构的特点,可以用于稀疏数据。
归一化/标准化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。

2 如果是单纯想实现消除量级和量纲的影响,用Min-Max还是用Z-Score?

数据的分布本身就服从正态分布,使用Z-Score。有离群值的情况:使用Z-Score。
这里不是说有离群值时使用Z-Score不受影响,而是,Min-Max对于离群值十分敏感,因为离群值的出现,会影响数据中max或min值,从而使Min-Max的效果很差。相比之下,虽然使用Z-Score计算方差和均值的时候仍然会受到离群值的影响,但是相比于Min-Max法,影响会小一点。

3 离群值的应对措施

当数据中有离群点时,我们可以使用Z-Score进行标准化,但是标准化后的数据并不理想,因为异常点的特征往往在标准化后容易失去离群特征,此时就可以用RobustScaler 针对离群点做标准化处理。

4 One-hot编码的定义与作用

定义:

  1. one-hot标签则是顾名思义,一个长度为n的数组,只有一个元素是1.0,其他元素是0.0。用N位状态寄存器来对N个状态进行编码。
  2. 将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
  3. 输入输出的one-hot编码。

作用:

  1. 独热编码用来解决类别型数据的离散值问题。
  2. 提升模型的非线性能力。比如用LR算法做模型,在数据处理过程中,可以先对连续变量进行离散化处理,然后对离散化后数据进行one-hot编码,最后放入LR模型中。这样可以增强模型的非线性能力。
  3. 为什么要特征向量要映射到欧式空间?将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

优缺点

  1. 优点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
  2. 优点:非线性能力。
  3. 缺点:高维稀疏矩阵。一般可以用 PCA + one-hot encoding。

什么场景下使用one-hot编码

  1. 用:独热编码用来解决类别型数据的离散值问题。
  2. 用:在很多学习任务中,特征并不总是连续值,而有可能是分类值。
  3. 用:离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码。
  4. 不用:将离散型特征进行one-hot编码的作用,是为了让距离计算更合理,但如果特征本身是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。 Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度。

5 梯度消失 梯度爆炸

梯度消失:梯度趋近于零,网络权重无法更新或更新的很微小,网络训练再久也不会有效果。

梯度爆炸:梯度呈指数级增长,变的非常大,然后导致网络权重的大幅更新,使网络变得不稳定。

解决方法

  • 使用BN

6 Batch Normalization

BN可以固定小批量中的均值和方差,再学习出合适的偏移和缩放(可学习参数为 gamma,beta)。作用在全连接层的输出之后,激活函数前。也可以作用在全连接层的输入上。可以加速收敛速度,但是一般不改变模型精度。一般不配合dropout使用。用了BN后学习率可以稍微调大。

7 sigmoid激活函数

sigmoid激活函数

8 准确率

在这里插入图片描述
准确率(accuracy)=(TP+TN)/(TP+FN+FP+TN),在所有样本中,预测正确的概率
精确率(precision)=TP/(TP+FP),你认为的正样本中,有多少是真的正确的概率
召回率(recall)=TP/(TP+FN),正样本中有多少是被找了出来


http://chatgpt.dhexx.cn/article/S5yZjtJf.shtml

相关文章

面试 | 22道机器学习常见面试题目

(1) 无监督和有监督算法的区别? 有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类&#xf…

最基本的25道深度学习面试问题和答案

近年来,对深度学习的需求不断增长,其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中,将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作&a…

机器学习高频面试题(41道)

Q1: What’s the trade-off between bias and variance? 问题1: 什么是偏差(bias)、方差(variable)之间的均衡? Bias 是由于你使用的学习算法过度简单地拟合结果或者错误地拟合结果导致的错误。它反映的是模型在样本…

总结了200道经典的机器学习面试题(附参考答案)

刷题,是面试前的必备环节。本文总结了往年BAT机器学习面试题,干货满满,值得收藏。 想要入职大厂可谓是千军万马过独木桥。 为了通过层层考验,刷题肯定是必不可少的。本文根据网络在线发布的BAT机器学习面试1000题系列&#xff0…

微信小程序—域名配置(图文)

微信小程序—域名配置 1、微信公众平台登录 进入后选择‘开发’ 选择‘开发设置’ 域名配置,输入easy-mock即可(因为我用的地址就是easy-mock,如果用的是豆瓣接口就直接域名配置成豆瓣的就行) 2、打开右上角的详情 选择不校验…

微信小程序:小程序服务器域名配置合法域名

微信小程序开发过程中,微信小程序只要有网络请求就必定要用到服务器接口,这样的话就需要在微信小程序管理平台里面添加服务器的域名,而且添加的这个域名一定是合法有效的域名,不然就不会设置成功的。 微信小程序在生产环境下如果没有配置合法域名,是不能正常访问的,那就…

tomcat 配置域名

Tomcat 配置域名 在windows中首先找到conf下面的server.xml 把Connector 标签中的端口改成80 然后把添加一个Host name为域名appBase为路径 如下 Engine 标签也是 最后在C盘 windows\System32\drivers\etc 下面的hosts添加下面这行 127.0.0.1 www.test.com 重新启动tomcat …

vuepress(六)阿里云二级域名配置与添加SSL证书

文章目录 写在前面第一类:用来存放网站第二类:自定义 OSS对象存储 的图片路径 写在前面 这里是小飞侠Pan🥳,立志成为一名优秀的前端程序媛!!! 本篇博客收录于我的github前端笔记仓库中&#x…

前端nginx配置并且同一域名配置多个项目以及nginx跨域设置

前端nginx配置并且同一域名配置多个项目 前端nginx配置并且同一域名配置多个项目first of all下载配置nginx配置nginx开机自启动nginx -t 找不到nginx的修复nginx进行重启Nginx同一个域名配置多个项目nginx按不同的目录分发给不同的项目启用二级域名,不同的项目分配…

vhosts.conf域名配置

DocumentRoot "网站目录" ServerName 域名(比如www.baidu.com) ServerAlias 域名别名(www.baidu.com www.baidu.cn) Directory 得与DocumentRoot目录相同

uniapp:小程序体验版和预览,云函数不响应,小程序域名配置

uniapp槽点 uniapp还是很便利的,为大家免费提供了低代码平台,很多插件和实现方案。使用过程中也有很多想吐槽的,我是第一次接触跨平台,文档上有的地方很笼统,比如这域名配置,文档就没说我应该配置哪个域名…

云服务器配置和域名配置

阿里云服务器 之前在阿里云上买了域名和云服务器,挂放博客和常的小项目,买的最低配的,但是内存太小,另外买了一个硬盘。 我所使用的是windows系统的,方便快捷操作。 远程桌面连接 windows自带的远程桌面连接功能&…

linux安装nginx并配置ssl证书 HTTPS和域名配置

1.下载安装包 cd /usr/local/src/wget http://nginx.org/download/nginx-1.21.3.tar.gz2.解压。tar -xzf nginx-1.21.3.tar.gz 3.cd nginx-1.21.3 4.yum install openssl openssl-devel 5.安装ssl证书需要的模块。 ./configure --with-file-aio --with-threads --with-http_…

Windows配置域名

Windows配置域名 最近想在Windows 电脑玩玩 Apache2,想用域名来完成做代理,所以涉及Windows配置域名,来记录一下 Apache Linux 的安装查看:Apache2的安装与介绍 Apache Windows 的安装请查看:Apache2 Windows 安装 …

微信公众号网页授权域名和JS接口安全域名配置攻略

这篇博文跟大家分享下如何配置微信公众号网页授权域名和JS接口安全域名配置。 打开微信公众平台 https://mp.weixin.qq.com/ 登陆成功后进入微信公众平台后台管理,在最底部可以看到 开发—》接口权限 我们可以看到正如下图所示有两个非常常用的接口:微…

域名——host配置

httpd-vhosts.conf 配置 在D:\xampp\apache\conf\extra中打开httpd-vhosts.conf文件&#xff0c;找到文件末尾&#xff0c;添加 <VirtualHost *:80> DocumentRoot "D:\work\Lianxi" ServerName mydemo <Directory "D:\work\Lianxi"> Opti…

支付宝小程序H5域名配置

位置&#xff1a; 支付宝开放平台--【控制台】--【开发设置】--【开发设置】--【H5域名配置】 提示 1、下载校验文件是一个.html文件&#xff0c;放到前端项目根目录 2、点击这里&#xff0c;可能有bug,不用管&#xff0c; 3、把域名https://xxx.com添加点确定&#xff0c;可…

阿里云申请域名及域名配置https

1、阿里云域名申请 买到域名之后&#xff0c;要对域名进行实名认证&#xff08;上传身份证并拍照&#xff09;&#xff08;阿里云审核一天&#xff09; 2、域名工信部备案 1、阿里云域名备案&#xff0c;这个也要实名认证&#xff0c;其中阿里云员工审核并打电话&#xff08;…

微信小程序服务器域名怎么填,微信小程序合法域名配置方法

在微信小程序的开发过程中&#xff0c;当需要请求第三方网站数据时。各种教程就直接说调用wx.request接口即可。但是当初学者自己用的时候就会出现问题。比如我们这里请求聚合数据的API(里边有不少免费的数据申请就可以使用)。调用邮编查询的接口。 getPostInfo: function (nu,…

微信socket服务器配置,微信小程序socket合法域名配置指南

微信小程序WebSocket接口和HTML5的WebSocket基本一样&#xff0c;是HTTP协议升级来的&#xff0c;做为一个新的Socket在B/S上使用&#xff0c;它实现了浏览器与服务器全双工通信。 不过很多开发者在配置微信小程序socket合法域名是总是会遇到些问题&#xff0c;今天小编就为大家…