【机器学习】python实现吴恩达机器学习作业合集(含数据集)

article/2025/9/19 14:23:30

学习感言

从3.7第一天开始,到今天4.4,一个多月的时间,陆续完成了听课,代码实现和总结博客,过程些许艰难,作为一个刚入门的学习者,收获了很多。总结一下这一段时间的学习过程吧。后面的学习方向还在思考。

目录

1.0 线性回归预测

2.0 线性可分logistic逻辑回归

2.1 线性不可分logistic逻辑回归

3.0 logistic逻辑回归手写多分类问题

3.1 神经网络正向传播

4.0 神经网络反向传播(BP算法)

5.0 方差与偏差

6.0 SVM支持向量机

7.0 kmeans聚类

7.1 PCA主成分分析

8.0 异常检测

8.1 推荐系统(协同过滤算法)


作业涉及到的数据集:

之前的数据集过期了,重新更新

链接:https://pan.baidu.com/s/14gmrdWvIYopPWK_qsJHq5w?pwd=ifuf 
提取码:ifuf

Ng课程大纲总结 

无监督学习

线性规划,逻辑回归,神经网络,SVM

无监督学习

K-means , PCA , 异常检测

应用

推荐系统,

大规模机器学习

映射化简和数据并行:

将我们的数据集分配给不多台 计算机,让每一台计算机处理数据集的一个子集,然后我们将计所的结果汇总在求和。这样 的方法叫做映射简化。如果任何学习算法能够表达为,对训练集的函数的求和,那么便能将这个任 务分配给多台计算机(或者同一台计算机的不同 CPU 核心),以达到加速处理的目的。

构建机器学习系统tips

方差/偏差 ,正则化

决定下一步做什么:

算法评估,学习曲线(判断高偏差/高方差问题),误差分析

上限分析:机器学习的应用中,我们通常需要通过几个步骤才能进行最终的预测,我们如何能够 知道哪一部分最值得我们花时间和精力去改善呢?这个问题可以通过上限分析来回答。

问题描述和流程图

滑动窗口分类算法(CV)

获取大量数据和人工数据

以下是零碎:

现有的机器学习种类繁多,我们一般可以进行如下的分类标准:

  • 是否在人类监督下学习(监督学习、非监督学习、半监督学习和强化学习)
  • 是否可以动态的增量学习(在线学习和批量学习)
  • 是简单的将新的数据点和已知的数据点进行匹配,还是像科学家那样对训练数据进行模型检测,然后建立一个预测模型(基于实例的学习和基于模型的学习)

 一 、监督学习与无监督学习

  •  监督学习(Supervised Learning):对于数据集中每一个样本都有对应的标签,包括回归(regression)和分类(classification);

  • K近邻算法
  • 线性回归
  • logistic回归
  • 支持向量机(SVM)
  • 决策树和随机森林
  • 神经网络
  • 无监督学习(Unsupervised Learning):数据集中没有任何的标签,包括聚类(clustering),著名的一个例子是鸡尾酒晚会。实现公式:[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);

  • 聚类算法
    • K均值算法(K-means)
    • 基于密度的聚类方法(DBSCAN)
    • 最大期望算法
  • 可视化和降维
    • 主成分分析(PCA)
    • 核主成分分析
  • 关联规则学习
    • Apriori
    • Eclat
  •  异常检测
  • 半监督学习 有些算法可以处理部分标记的训练数据,通常是大量未标记的数据和少量标记的数据,这种成为半监督学习。

  • 如照片识别就是很好的例子。在线相册可以指定识别同一个人的照片(无监督学习),当你把这些同一个人增加一个标签的后,新的有同一个人的照片就自动帮你加上标签了。

  • 强化学习

    强化学习,它的学习系统能够观测环境,做出选择,执行操作并获得回报,或者是以负面回报的形式获得惩罚。它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回 

二、在线学习 

    如果你有一个由连续的用户流引发的连续的数据流,进入你的网站,你能做的是使用一个在线学习机制,从数据流中学习 用户的偏好,然后使用这些信息来优化一些关于网站的决策。

    在线学习算法指的是对数据流而非离线的静态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不将数据存储到数据库中便顺利地进行算法学习。

  • 在线学习:产品搜索界面   产品推荐 

三、模型训练及选择(model selection)

可以依据训练误差和测试误差来评估假设hθ(x);
一般来说,我们将数据集划分成训练集(60%)、验证集(20%)和测试集(20%);

  • 训练集

训练集用来训练模型,学习参数θ :minJ(θ);即确定模型的权重和偏置这些参数,通常我们称这些参数为学习参数。

  • 验证集

验证集用于模型的选择,更具体地来说,验证集并不参与学习参数的确定,也就是验证集并没有参与梯度下降的过程。用训练集对模型训练完毕后,再用验证集对模型测试,测试模型是否准确而不是训练模型的参数。

  • 测试集

测试集只使用一次,即在训练完成后评价最终的模型时使用。它既不参与学习参数过程,也不参数超参数选择过程,而仅仅使用于模型的评价。
不能在训练过程中使用测试集,而后再用相同的测试集去测试模型。这样做其实是一个cheat,使得模型测试时准确率很高。

四、模型优化

欠拟合,高偏差:说明没有很好的拟合训练数据 

过拟合,高方差:拟合训练数据过于完美,J(θ)≈0,导致模型的泛化能力很差,对于新样本不能准确预测

五、机器学习系统设计

不对称分类的误差评估(skewed classes)

错误率:有多少比例的西瓜被判断错误;

查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜;

查全率(recall):所有的好西瓜中有多少比例被算法跳了出来。

  • 如果我们想要比较确信为正例时才判定为正例,那么提高阈值,模型会对应高查准率,低召回率;
  • 如果希望避免假阴性,那么降低阈值,模型会对应低查准率,高召回率

六、高级优化算法:

  • 共轭梯度算法
  • BFGS
  • L-BFGS

        优点:无需人工选择参数α;运算速度比梯度下降更快 

        缺点:更加复杂

最后:放一下Ng的结语,激励自己继续前进吧~  感谢老师


http://chatgpt.dhexx.cn/article/DmbbmZ30.shtml

相关文章

机器学习(吴恩达)简要总结

机器学习知识简要总结 这里写目录标题 机器学习知识简要总结梯度下降法矩阵和向量多元线性回归:正规方程Normal equationlogistic回归过拟合问题正则化卷积神经网络模型选择和训练、验证、测试集评价指标无监督学习主成分分析 监督学习:给算法一个数据集…

吴恩达机器学习--线性回归

文章目录 前言一、单变量线性回归1.导入必要的库2.读取数据3.绘制散点图4.划分数据5.定义模型函数6.定义损失函数7.求权重向量w7.1 梯度下降函数7.2 最小二乘法 8.训练模型9.绘制预测曲线10.试试正则化11.绘制预测曲线12.试试sklearn库 二、多变量线性回归1.导入库2.读取数据3.…

吴恩达《机器学习》笔记

引言:个人当前研究倾向是智慧医疗,旨在通过信息科技的数据处理手段,解决当前医学界的问题。 学习初步思路:在师兄的指导下,初步的学习计划为理论与竞赛并行,即一方面补充基础知识,另一方面竞赛实…

吴恩达机器学习课程笔记一

吴恩达机器学习课程笔记 前言监督学习---Supervised learning无监督学习---Unsupervised learning聚类异常检测降维 增强学习---Reinforcement learning Linear regression一些机器学习的名词参考博客损失函数参考博客梯度下降的实现学习率alpha的选择学习率过小学习率过大 线性…

吴恩达机器学习--学习笔记

1. Introduction 1.1 Welcome 如今机器学习被大规模应用于: 数据挖掘(网站点击,医学记录,生物学,工程)一些无法通过编程实现的功能(自动驾驶,手写识别,NLP&#xff0c…

【吴恩达机器学习2022学习笔记】课程1 -- 机器学习基础

吴恩达大佬又重新录了机器学习视频,借此机会重温并做笔记简单记录一下。课程共分成三门,首先是机器学习基础。 课程链接:https://www.bilibili.com/video/BV19B4y1W76i/?spm_id_from333.788.recommend_more_video.1&vd_source337295bc6e…

机器学习(吴恩达)

定义:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高,以跳棋游戏为例,经验E就是程序与自己下几万次跳棋,任务T就是玩跳棋,性能度量P就…

【机器学习】吴恩达机器学习Deeplearning.ai

机器学习已经强大到可以独立成为人工智能的一个子领域。 可以通过对机器编程实现比如执行网络搜索、理解人类语言、通过x光诊断疾病,或制造自动驾驶汽车。 机器学习定义 一般来说,给一个算法学习的机会越多,它的表现就越好。 机器学习的两种…

吴恩达机器学习(一)—— 简介

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的…

吴恩达机器学习课后作业

目录 01-linear regression线性回归预备知识单变量线性回归( 一个特征值)单变量线性回归( 多个特征值)单变量线性回归( 正规方程) 01-linear regression 线性回归预备知识 假设函数与损失函数&#xff1a…

【吴恩达机器学习笔记】七、神经网络

✍个人博客:https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📣专栏定位:为学习吴恩达机器学习视频的同学提供的随堂笔记。 📚专栏简介:在这个专栏,我将整理吴恩达机器学习视频的所有内容的笔记&…

吴恩达机器学习 2022新版

2022吴恩达机器学习 第一周 一. 机器学习的定义二. 机器学习的分类2.1. 监督学习【回归算法】【分类算法】 三. loss function3.1.损失函数公式 四. 梯度下降4.1.梯度下降算法4.2.理解梯度下降4.3.学习率的选择4.5.如何计算导数项? 一. 机器学习的定义 Arthur Samu…

【经典】吴恩达《机器学习》课程

如果要推荐《机器学习》的学习课程,那必然首选吴恩达的《机器学习》课程,无论是国内还是国外,这是最火的机器学习入门课程,没有之一。吴恩达老师用易于理解、逻辑清晰的语言对机器学习算法进行介绍,无数新手正是通过这…

吴恩达机器学习系列课程笔记——第一章:什么是机器学习(Machine Learning)

1.1 欢迎 https://www.bilibili.com/video/BV164411b7dx?p1 第一节主要讲了什么是机器学习,机器学习能做些什么事情。 机器学习是目前信息技术中最激动人心的方向之一。在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的…

机器学习——吴恩达

机器学习——吴恩达 inductionSupervised learningUnsupervised learning modelexamplehow to workdefine cost functiongradient descent for minimizing the cost functionGradient descent for linear regression Matrix and Vector定义运算multiple feature linear regress…

吴恩达—机器学习的六个核心算法

吴恩达,华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。他是百度的前副总裁兼首席科学家,最受欢迎的机器学习在线课程之一的创建者&#xf…

【机器学习】机器学习笔记(吴恩达)

文章目录 中文笔记地址视频地址第1章 引言1.1 欢迎1.2 机器学习是什么1.3 监督学习1.4 无监督学习 第2章2.1 模型展示单变量线性回归 2.2 代价函数2.3-2.4 代价函数理解2.5-2.6 梯度下降算法,梯度下降算法理解 第3章第4章4.2 多元(多变量)梯度…

python编码无法使用turtle库_使用Turtle库教Python

Python是一种流行的基于文本的编程语言,程序员每天都在使用它。使用Turtle库(Turtle Library)教Python可以激发对STEM的兴趣。 Turtle库是用于控制机器人Turtle的功能的集合。这些命令可以与Python结合使用,以构建精美作品和原创游戏的程序。The Turtle …

turtle库的介绍

一、turtle库概述: turtle(海龟)库是turtle绘图体系python的实现; turtle绘图体系:1969年诞生,主要用于程序设计入门; turtle库是python的标准库之一;属于入门级的图形绘制函数库…

python turtle库下载_python3中安装turtle库

开始在网上找资料安装的时候踩了一点坑,来总结一下经验 直接安装 安装 pip install turtle 会提示错误:Command "python setup.py egg_info" failed with error code 1 解决方法 1.直接找到turtle 0.0.2(地址是这个),把turtle…