机器学习(吴恩达)简要总结

article/2025/9/19 14:22:24

机器学习知识简要总结

这里写目录标题

  • 机器学习知识简要总结
    • 梯度下降法
    • 矩阵和向量
    • 多元线性回归:
    • 正规方程Normal equation
    • logistic回归
    • 过拟合问题
    • 正则化
    • 卷积神经网络
    • 模型选择和训练、验证、测试集
    • 评价指标
    • 无监督学习
    • 主成分分析

监督学习:给算法一个数据集,其中包含正确答案(有标记),数据集中的每个样本都给出正确答案,算法的目的是给出更多的正确答案。
无监督学习:对于给定的数据集,在未给出正确答案(无标记)的情况下将其分为不同的类,比如聚类算法。
回归:设法预测连续值的输出。
分类:预测离散值的输出。

线性回归:
拟合曲线Hypothesis: y = θ 0 + θ 1 x y=\theta_0+\theta_1x y=θ0+θ1x
平方误差代价函数Cost function: J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 J(θ0,θ1)=2m1i=1m(hθ(x(i))y(i))2 m m m为点的个数, y i y^i yi为真实值, y ( x i ) y\left(x^i\right) y(xi)表示函数值。
目标Goal: m i n J ( θ 0 , θ 1 ) min J(\theta_0,\theta_1) minJ(θ0,θ1)

梯度下降法

θ j : = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 ) ( f o r j = 0 a n d j = 1 ) \theta_j:=\theta_j-\alpha\frac{\partial }{\partial \theta_j}J(\theta_0,\theta_1) \quad (for \quad j=0 \quad and \quad j=1) θj:=θjαθjJ(θ0,θ1)(forj=0andj=1)
α \alpha α表示学习率,用来控制梯度下降步子大小。先计算 θ 0 \theta_0 θ0 θ 1 \theta_1 θ1,再同时更新 θ 0 \theta_0 θ0 θ 1 \theta_1 θ1,不能先计算 θ 0 \theta_0 θ0,再带回式子计算 θ 1 \theta_1 θ1
在梯度下降的过程中,当接近极值时,导数值会自动变的越来越小。

矩阵和向量

矩阵Matrix:行数×列数。
A i j A_{ij} Aij i t h i^{th} ithrow, j t h j^{th} jthcolumn
向量Vector:n×1 matrix
例: h θ ( x ) = − 40 + 0.25 x h_\theta(x) = -40+0.25x hθ(x)=40+0.25x,x值:2 3 4 5
[ 1 2 1 3 1 4 1 5 ] × [ − 0.40 0.25 ] = [ − 40 × 1 + 2 × 0.25 − 40 × 1 + 3 × 0.25 − 40 × 1 + 4 × 0.25 − 40 × 1 + 5 × 0.25 ] \begin{bmatrix} 1 & 2 \\ 1 & 3 \\ 1 & 4 \\ 1 & 5 \end{bmatrix} × \begin{bmatrix} -0.40 \\ 0.25 \end{bmatrix} = \begin{bmatrix} -40×1+2×0.25 \\ -40×1+3×0.25 \\ -40×1+4×0.25 \\ -40×1+5×0.25 \end{bmatrix} 11112345×[0.400.25]=40×1+2×0.2540×1+3×0.2540×1+4×0.2540×1+5×0.25
矩阵乘法特征:
一般情况下, A × B ≠ B × A A×B \neq B×A A×B=B×A 。特殊: A × I = I × A = A A×I = I×A = A A×I=I×A=A I I I为单位矩阵。
结合律
单位矩阵Identity Matrix: I n × n I_{n×n} In×n例如:
[ 1 0 0 1 ] \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} [1001] [ 1 0 0 0 1 0 0 0 1 ] \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 &0 \\ 0 & 0 & 1 \end{bmatrix} 100010001
矩阵的逆运算: A A − 1 = A − 1 A = I AA^{-1}=A^{-1}A=I AA1=A1A=I
没有逆矩阵的矩阵叫做奇异矩阵,例如零矩阵。
矩阵转置Matrix Transpose:设 A A A m × n m×n m×n的矩阵, B = A T B=A^T B=AT,则 B B B n × m n×m n×m的矩阵,并且 B i j = A i j B_{ij}=A_{ij} Bij=Aij

多元线性回归:

多特征向量: n n n = 特征个数, x ( i ) x^{(i)} x(i)表示第 i i i组特征向量, x j ( i ) x_j^{(i)} xj(i) = 第 i i i个特征向量的第 j j j个特征的值。
拟合函数Hypothesis: h θ ( x ) = θ T x = h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_\theta(x)=\theta^Tx=h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n hθ(x)=θTx=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn
参数Parameters: θ 0 , θ 1 , . . . , θ n \theta_0,\theta1,...,\theta_n θ0,θ1,...,θn
代价函数Cost Function: J ( θ 0 , θ 1 , . . . , θ n ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 J(θ0,θ1,...,θn)=2m1i=1m(hθ(x(i))y(i))2

特征缩放Feature Scaling:将特征值缩小到-1到1之间,目的是为了使梯度下降的收敛速度更快,迭代次数更少。
均值归一化Z-Score:将 x i x_i xi变为 x i − μ i σ \frac{x_i-\mu_i}{\sigma} σxiμi, σ \sigma σ为该特征的标准差。

正规方程Normal equation

X X X是一个 m × ( n + 1 ) m×(n+1) m×(n+1)的矩阵,m表示样本的个数,n表示特征个数, y y y是一个m维的向量,则可通过式子: θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)1XTy计算 θ \theta θ参数。
∂ ∂ θ j J ( θ ) = 0 ( j = 1 , 2 , . . . , n ) \frac{\partial}{\partial\theta_j}J(\theta)=0(j=1,2,...,n) θjJ(θ)=0(j=1,2,...,n)时,求出的n个参数 θ j \theta_j θj就是最合理的参数,即能使代价函数最小的参数。
正规方程与梯度下降法的区别:
正规方程不需要选择学习率,也不需要迭代,但是对于多特征来说计算量很大,比如当有上万个特征时。而梯度下降法需要选择学习率和多次迭代,但适合于多特征。

logistic回归

Sigmoid function/Logistic function: g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1只要z大于0,则g(z)就会大于0.5,预测值为1,小于0.5,预测值为0.
如何选择参数 θ \theta θ?假设 h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+eθTx1
代价函数: C o s t ( h θ ( x ) , y ) = { − l o g ( h θ ( x ) ) if  y = 1 − l o g ( 1 − h θ ( x ) ) if  y = 0 Cost(h_\theta(x),y)=\begin{cases} -log(h_\theta(x)) &\text{if } y=1 \\ -log(1-h_\theta(x)) &\text{if } y=0 \end{cases} Cost(hθ(x),y)={log(hθ(x))log(1hθ(x))if y=1if y=0
可简化为: C o s t ( h θ ( x ) , y ) = − y l o g ( h θ ( x ) ) − ( 1 − y ) l o g ( 1 − h θ ( x ) ) Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)) Cost(hθ(x),y)=ylog(hθ(x))(1y)log(1hθ(x))

过拟合问题

减少过拟合现象:
1、减少选取变量的数量:选取重要的变量。
2、正则化:保留所有特征变量,但是减少量级或参数\theta的大小。

正则化

正则化:修改代价函数中参数大小——在代价函数后面加一个正则化项,以缩小每一个参数。因为有正则化参数的存在,为了让代价函数最小化,必须让对应的参数尽可能的小甚至趋于0。
J θ 0 , θ 1 , . . . , θ n ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + λ ∑ j = 1 m θ j 2 ] J\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{m}\theta_j^2] Jθ0,θ1,...,θn)=2m1[i=1m(hθ(x(i))y(i))2+λj=1mθj2],不给 θ 0 \theta_0 θ0添加项。如果正则化参数 λ \lambda λ太大,则会使代价函数的参数几乎接近于0,容易产生欠拟合现象。
线性回归正则化:
1.梯度下降: θ 0 = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x 0 i \theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{{i}} θ0=θ0αm1i=1m(hθ(x(i))y(i))x0i
θ j = θ j ( 1 − α λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j i \theta_j=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{{i}} θj=θj(1αmλ)αm1i=1m(hθ(x(i))y(i))xji
2.正规方程(不要求掌握): θ = ( X T X + λ [ 0 0 . . . 0 0 1 . . . 0 . . . . . . . . . . . . 1 ] ) − 1 X T y \theta=(X^TX+\lambda\begin{bmatrix} 0 & 0 &... &0 \\ 0 & 1 & ... & 0 \\ & & ... \\ ... & ... & ... & 1 \end{bmatrix} )^{-1}X^Ty θ=(XTX+λ00...01...............001)1XTy计算 θ \theta θ参数。
∂ ∂ θ j J ( θ ) = 0 ( j = 1 , 2 , . . . , n ) \frac{\partial}{\partial\theta_j}J(\theta)=0(j=1,2,...,n) θjJ(θ)=0(j=1,2,...,n)
逻辑回归正则化:
代价函数: J ( θ ) = − 1 m [ ∑ i = 1 m y ( i ) l o g ( h θ ( x ( i ) ) ) − ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] + λ 2 m ∑ j = 1 n θ j 2 J(\theta)=-\frac{1}{m}[\sum_{i=1}^my^{(i)}log(h_\theta(x^{(i)}))-(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2 J(θ)=m1[i=1my(i)log(hθ(x(i)))(1y(i))log(1hθ(x(i)))]+2mλj=1nθj2

卷积神经网络

前向传播:逻辑回归。
在这里插入图片描述在这里插入图片描述
卷积神经网络中的代价函数:
在这里插入图片描述
代价函数最小化:反向传播Backpropagation
在这里插入图片描述
在这里插入图片描述
总误差对权重求偏导
在这里插入图片描述注意!!不懂可以看这篇文章:https://blog.csdn.net/weixin_38347387/article/details/82936585

卷积神经网络训练步骤:
1.随机初始化权重,通常把权重初始化为很小的值,接近于0。
2.执行前向传播算法。
3.计算代价函数。
4.反向传播。
5.使用梯度检查比较已经计算得到的偏导数项,将反向传播得到的篇导数值与用数值方法得到的估计值进行比较。
6.用梯度下降算法或者更高级的优化算法和反向传播算法进行结合,来最小化代价函数。

模型选择和训练、验证、测试集

一般来说,60%训练集、20%验证、20%测试,训练集用来训练每个模型,验证集用来选择模型,测试集用来评估泛化误差,相当于学习、模拟考、高考的关系。

评价指标

准确率(Accuracy) = (TP + TN) / 总样本,
精确率(Precision) = TP / (TP + FP)
召回率(Recall) = TP / (TP + FN)

无监督学习

K-means:随机生成两点(聚类中心),遍历每个数据,看该数据和哪个聚类中心近,就分到哪一类。所有数据点都测过后,找到每一类的均值中心,将聚类中心移到均值中心,再重新开始新一轮的归类,直到每个点到该点所属的 聚类中的距离平方和最小。
选择聚类中心的个数:肘部法则

主成分分析

主成分分析(PCA):找一个投影平面,对数据进行投影,使得数据点到投影面的垂直距离最小。在PCA之前,先对数据进行归一化和标准化,使得数据的均值为0,且在合适的范围内。PCA也可用于降维。
PCA与线性回归不同的是:PCA是数据点到直线的垂直距离(是倾斜的),线性回归是数据点到直线的距离。


http://chatgpt.dhexx.cn/article/B8I53QOF.shtml

相关文章

吴恩达机器学习--线性回归

文章目录 前言一、单变量线性回归1.导入必要的库2.读取数据3.绘制散点图4.划分数据5.定义模型函数6.定义损失函数7.求权重向量w7.1 梯度下降函数7.2 最小二乘法 8.训练模型9.绘制预测曲线10.试试正则化11.绘制预测曲线12.试试sklearn库 二、多变量线性回归1.导入库2.读取数据3.…

吴恩达《机器学习》笔记

引言:个人当前研究倾向是智慧医疗,旨在通过信息科技的数据处理手段,解决当前医学界的问题。 学习初步思路:在师兄的指导下,初步的学习计划为理论与竞赛并行,即一方面补充基础知识,另一方面竞赛实…

吴恩达机器学习课程笔记一

吴恩达机器学习课程笔记 前言监督学习---Supervised learning无监督学习---Unsupervised learning聚类异常检测降维 增强学习---Reinforcement learning Linear regression一些机器学习的名词参考博客损失函数参考博客梯度下降的实现学习率alpha的选择学习率过小学习率过大 线性…

吴恩达机器学习--学习笔记

1. Introduction 1.1 Welcome 如今机器学习被大规模应用于: 数据挖掘(网站点击,医学记录,生物学,工程)一些无法通过编程实现的功能(自动驾驶,手写识别,NLP&#xff0c…

【吴恩达机器学习2022学习笔记】课程1 -- 机器学习基础

吴恩达大佬又重新录了机器学习视频,借此机会重温并做笔记简单记录一下。课程共分成三门,首先是机器学习基础。 课程链接:https://www.bilibili.com/video/BV19B4y1W76i/?spm_id_from333.788.recommend_more_video.1&vd_source337295bc6e…

机器学习(吴恩达)

定义:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高,以跳棋游戏为例,经验E就是程序与自己下几万次跳棋,任务T就是玩跳棋,性能度量P就…

【机器学习】吴恩达机器学习Deeplearning.ai

机器学习已经强大到可以独立成为人工智能的一个子领域。 可以通过对机器编程实现比如执行网络搜索、理解人类语言、通过x光诊断疾病,或制造自动驾驶汽车。 机器学习定义 一般来说,给一个算法学习的机会越多,它的表现就越好。 机器学习的两种…

吴恩达机器学习(一)—— 简介

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的…

吴恩达机器学习课后作业

目录 01-linear regression线性回归预备知识单变量线性回归( 一个特征值)单变量线性回归( 多个特征值)单变量线性回归( 正规方程) 01-linear regression 线性回归预备知识 假设函数与损失函数&#xff1a…

【吴恩达机器学习笔记】七、神经网络

✍个人博客:https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📣专栏定位:为学习吴恩达机器学习视频的同学提供的随堂笔记。 📚专栏简介:在这个专栏,我将整理吴恩达机器学习视频的所有内容的笔记&…

吴恩达机器学习 2022新版

2022吴恩达机器学习 第一周 一. 机器学习的定义二. 机器学习的分类2.1. 监督学习【回归算法】【分类算法】 三. loss function3.1.损失函数公式 四. 梯度下降4.1.梯度下降算法4.2.理解梯度下降4.3.学习率的选择4.5.如何计算导数项? 一. 机器学习的定义 Arthur Samu…

【经典】吴恩达《机器学习》课程

如果要推荐《机器学习》的学习课程,那必然首选吴恩达的《机器学习》课程,无论是国内还是国外,这是最火的机器学习入门课程,没有之一。吴恩达老师用易于理解、逻辑清晰的语言对机器学习算法进行介绍,无数新手正是通过这…

吴恩达机器学习系列课程笔记——第一章:什么是机器学习(Machine Learning)

1.1 欢迎 https://www.bilibili.com/video/BV164411b7dx?p1 第一节主要讲了什么是机器学习,机器学习能做些什么事情。 机器学习是目前信息技术中最激动人心的方向之一。在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的…

机器学习——吴恩达

机器学习——吴恩达 inductionSupervised learningUnsupervised learning modelexamplehow to workdefine cost functiongradient descent for minimizing the cost functionGradient descent for linear regression Matrix and Vector定义运算multiple feature linear regress…

吴恩达—机器学习的六个核心算法

吴恩达,华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。他是百度的前副总裁兼首席科学家,最受欢迎的机器学习在线课程之一的创建者&#xf…

【机器学习】机器学习笔记(吴恩达)

文章目录 中文笔记地址视频地址第1章 引言1.1 欢迎1.2 机器学习是什么1.3 监督学习1.4 无监督学习 第2章2.1 模型展示单变量线性回归 2.2 代价函数2.3-2.4 代价函数理解2.5-2.6 梯度下降算法,梯度下降算法理解 第3章第4章4.2 多元(多变量)梯度…

python编码无法使用turtle库_使用Turtle库教Python

Python是一种流行的基于文本的编程语言,程序员每天都在使用它。使用Turtle库(Turtle Library)教Python可以激发对STEM的兴趣。 Turtle库是用于控制机器人Turtle的功能的集合。这些命令可以与Python结合使用,以构建精美作品和原创游戏的程序。The Turtle …

turtle库的介绍

一、turtle库概述: turtle(海龟)库是turtle绘图体系python的实现; turtle绘图体系:1969年诞生,主要用于程序设计入门; turtle库是python的标准库之一;属于入门级的图形绘制函数库…

python turtle库下载_python3中安装turtle库

开始在网上找资料安装的时候踩了一点坑,来总结一下经验 直接安装 安装 pip install turtle 会提示错误:Command "python setup.py egg_info" failed with error code 1 解决方法 1.直接找到turtle 0.0.2(地址是这个),把turtle…

python基础之 turtle 库总结

python基础之 turtle 库总结 文章目录 python基础之 turtle 库总结1. 准备工作1.1 准备画布1.2 画笔设置 2. 画笔运动函数2.1 向前:forward() | fd()2.2 向后:backward() | bk() | back()2.3 向右:right() | rt()2.4 向左:left() …