书籍及视频:周志华 机器学习
公式推导:github地址
代码讲解:机器学习实战
第1章 绪论
相关术语:数据、算法、模型、预测(测试样本、泛化能力)
模型:有监督学习(分类、回归)、无监督学习(聚类)
第2章 模型评估与选择
怎样去评估和选择模型,分为几种不同的情况
1.一种训练集一种算法
(1)经验误差与过拟合
样本个数m、输入x、期望输出y、实际输出y’、错误个数a
错误率error rate: E = a/m
accuracy精度:1-E
error误差:|y-y‘|
(2)评估方法(测试泛化能力)
训练集
测试集:留出法、交叉验证法、自助法
验证集(调参)
(3)性能度量 公式
均方误差MSE(wi:一定的权重)
错误率与精度(E与1-E)
 查准率P
查全率R

有时候查准率并不有效,所以需要查全率
查准率P与查全率R是反向关系,可以看P-R反向关系图
关于阈值确定,可以看P-R反向关系图,使用平衡点、F1度量(加权)、Fbeta(P和R的加权调和平均)
多分类任务:直接支持多分类的算法、分解成多个二分类问题(度量时的P、R、F1)

2.一种训练多种算法
/1 PR曲线
比较多个模型,可以先看面积
无法比较可以再看F1、Fbeta
/2 ROC曲线 AUC曲线
ROC曲线越饱满越好
AUC = 1 - rank loss

3.多种训练集一种算法

/1 代价敏感函数的错误率计算 = 1/m(圈2 *cost01+圈3 *cost10)
/2 代价曲线
x轴 p 不断变化
y轴 想要总代价(损失期望)最小
4.比较检验(大量的概率论知识)
测试集的泛化 不等于 实际泛化
所以要进行检验

( 建议刷视频,本文只是提纲)
















