关于交叉验证

关于交叉验证

article/2025/9/11 23:54:56

1、一文看懂 AI 数据集：训练集、验证集、测试集：

https://zhuanlan.zhihu.com/p/98532085

2、机器学习之K折交叉验证 - 吉什么的文章 - 知乎 https://zhuanlan.zhihu.com/p/38121870

注意：cross_val_score() 传入的 X 和 y 是原始特征和标签，而非经过 train/test split 的训练集。

划分过程由 cross_val_score() 函数内完成。

3、Cross-validation: evaluating estimator performance

训练集

训练集用来训练模型，即确定模型的权重和偏置这些参数，通常我们称这些参数为学习参数。

验证集

而验证集用于模型的选择，更具体地来说，验证集并不参与学习参数的确定，也就是验证集并没有参与梯度下降的过程。验证集只是为了选择超参数，比如网络层数、网络节点数、迭代次数、学习率这些都叫超参数。比如在k-NN算法中，k值就是一个超参数。所以可以使用验证集来求出误差率最小的k。

测试集

测试集只使用一次，即在训练完成后评价最终的模型时使用。它既不参与学习参数过程，也不参数超参数选择过程，而仅仅使用于模型的评价。
值得注意的是，千万不能在训练过程中使用测试集，而后再用相同的测试集去测试模型。这样做其实是一个cheat，使得模型测试时准确率很高。

4、Plotting Cross-Validated Predictions

5、Tuning the hyper-parameters of an estimator

It is possible and recommended to search the hyper-parameter space for the best cross validation score.

scikit-learn中提供了两种对搜索候选对象进行采样的通用方法：对于给定值，GridSearchCV穷举考虑所有参数组合，而RandomizedSearchCV可以从具有指定分布的参数空间中采样给定数量的候选对象。

请注意，通常这些参数的一小部分会对模型的预测或计算性能产生较大影响，而其他参数则可以保留其默认值。建议阅读估计器类的文档字符串，以更好地了解其预期行为，这可能是通过阅读随附的文献参考来实现的。

6、时序问题中的交叉验证怎么做？ - Alex的文章 - 知乎 https://zhuanlan.zhihu.com/p/141542218

preview

preview

7、干货笔记：过拟合处理 - AtomPai的文章 - 知乎 https://zhuanlan.zhihu.com/p/38947625

http://chatgpt.dhexx.cn/article/64woCRG2.shtml

相关文章

Python 交叉验证模型评估

Python 交叉验证模型评估

Python 交叉验证模型评估 1 声明本文的数据来自网络，部分代码也有所参照，这里做了注释和延伸，旨在技术交流，如有冒犯之处请联系博主及时处理。 2 交叉验证模型评估简介交叉验证（Cross Validation）是机…

阅读更多...

交叉验证应用

交叉验证应用

交叉验证另一种常用的模型选择方法是交叉验证( cross validation)。如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集(training set)、验证集(validation set）和测试集(testset)。训练集用来…

阅读更多...

肝！交叉验证

肝！交叉验证

概述Holdout 交叉验证K-Fold 交叉验证Leave-P-Out 交叉验证总结概述交叉验证是在机器学习建立模型和验证模型参数时常用的办法。顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集。用训练集来训练模型&…

阅读更多...

深度学习：交叉验证（Cross Validation）

深度学习：交叉验证（Cross Validation）

首先，交叉验证的目的是为了让被评估的模型达到最优的泛化性能，找到使得模型泛化性能最优的超参值。在全部训练集上重新训练模型，并使用独立测试集对模型性能做出最终评价。目前在一些论文里倒是没有特别强调这样的操作，很多研究使…

阅读更多...

【笔记】【机器学习基础】交叉验证

【笔记】【机器学习基础】交叉验证

（一）交叉验证交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。在交叉验证中，数据被多次划分，并且需要训练多个模型。最常用的…

阅读更多...

入坑codewars

入坑codewars

前几天做LeetCode上的大数乘法，代码没错，可就是提交不成功，显示SyntaxError: Unexpected token var我把所有代码都注释掉，只留下return 1，依然报同样的错误。。。感觉LeetCode对JSer不是特别友好刚刚在node社区看到有人…

阅读更多...

CodeWars 我二了

CodeWars 我二了

昨天刷题，不经意间刷出来一个小彩蛋👇 今天醒来便发现，卧槽，自己出现在解答列表第二，这lima，我一个小辣鸡也上榜了？🐂 话不多说，看键警告，长文劝退，不是我啰嗦，是这题目一直在bibi赖赖 Simple Fun #345: The Original Numbers Task Some players are playin…

阅读更多...

codewars题目

codewars题目

codewars题目解答 1.Calculating with Functions2.Sum of Pairs3.Maximum subarray sum4.Rot135.Calculating with Functions 1.Calculating with Functions 我的解决方案（粗糙的一批） function common(n, val) {var a, b;for (var key in n) {a key;b …

阅读更多...

编程刷题平台Codewars初体验-Java

编程刷题平台Codewars初体验-Java

点此欢迎光临我的个人网站【一几文星球】最近发现了一个很多网友都在推荐的编程刷题平台Codewars，作为一个对啥都好奇（啥都学不深 ）的编程菜鸟，我二话不说直接开始注册体验。网站一进，嘿，全英文&#x…

阅读更多...

Codewars | 使用入门

Codewars | 使用入门

https://jingyan.baidu.com/article/adc81513864eebf723bf73ab.html https://www.codewars.com/trainer/setup 注册以后，大家的编程段位是8段。段位越高，段数越小。目前笔者的段位是6段。通过解决难度在6段和6段以上的问题可以获得段位的提升。当然&…

阅读更多...

梯度提升树(GBDT)

梯度提升树(GBDT)

提升树模型提升树是以分类数或回归树为基本分类器的提升方法。提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法，以决策树为基函数的提升方法为提升树（boosting tree）。基本分类器 x < v x<v x<…

阅读更多...

机器学习：提升

机器学习：提升

文章目录 Github提升的概念理解与随机森林的比较提升算法 GBDT参数设置和正则化 XGBoostAdaboost算法总结 Github 系列文章 pdf 版本已经上传至： https://github.com/anlongstory/awsome-ML-DL-leaning/tree/master/xiaoxiang-notes 欢迎 Star 和下载 ? 提升的概…

阅读更多...

多模态深度学习综述：网络结构设计和模态融合方法汇总

多模态深度学习综述：网络结构设计和模态融合方法汇总

点击上方“机器学习与生成对抗网络”，关注"星标" 获取有趣、好玩的前沿干货！ 作者丨小奚每天都要学习知乎编辑丨极市平台来源丨https://zhuanlan.zhihu.com/p/152234745 一、简介从2010年开始，深度学习方法为语音识别&#xff0…

阅读更多...

回归分析（数据拟合---MATLAB和1stopt软件）

回归分析（数据拟合---MATLAB和1stopt软件）

回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析； 按照因变量的多少，可分为简单回归分析和多重回归分析&#xf…

阅读更多...

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性

利用Excel的LINEST计算线性拟合的斜率和截距的不确定性

目录线性拟合的斜率和截距的不确定性Excel数组函数LINESTLINEST结果的含义LINEST输出的10个统计参数含义如下： 模型预测 y ^ \widehat{y} y m x b mxb mxbReferences 线性拟合的斜率和截距的不确定性利用熟悉的Excel绘图功能，可以根据距离-高程散…

阅读更多...

机器学习算法——Kmeans

机器学习算法——Kmeans

1.k-mean算法的原理 1、选取K个点做为初始聚集的簇心 2、分别计算每个样本点到K个簇核心的距离（这里的距离一般取欧氏距离或余弦距离)，找到离该点最近的簇核心，将它归属到对应的簇 3、所有点都归属到簇之后，M个点就分为了K个簇…

阅读更多...

【时序】Reformer：局部敏感哈希（LSH）实现高效 Transformer 论文笔记

【时序】Reformer：局部敏感哈希（LSH）实现高效 Transformer 论文笔记

论文名称：Reformer: The Efficient Transformer 论文下载：https://arxiv.org/abs/2001.04451 论文年份：ICLR2020 论文被引：706（2020/04/20） 论文代码：https://github.com/google/trax/tree/mast…

阅读更多...

损失函数MSE和MAE的区别以及如何选择

损失函数MSE和MAE的区别以及如何选择

1、均方误差（L2损失） 均方误差(MSE)是最常用的回归损失函数，计算方法是求预测值与真实值之间距离的平方和，公式如下： M S E 1 m ∑ m i 1 ( y i − y ^ i ) 2 MSE\frac{1}{m} \sum_{m}^{i1}\left(y_{i}-\hat{y}_{i}…

阅读更多...

连载｜GBDT如何进行回归和分类

连载｜GBDT如何进行回归和分类

GBDT 在前几年的机器学习竞赛以及工作中，人们使用着各种传统算法进行调参取得性能的提升，突然有一天杀出了一种名为GBDT的算法，改变了当前的格局，该算法在不同的场景中总是能够产生很好的效果，本文就让我们来了解一下…

阅读更多...

最小二乘法多项式曲线拟合数学原理及其C++实现

最小二乘法多项式曲线拟合数学原理及其C++实现

目录 0 前言1 最小二乘法概述2 最小二乘法求解多项式曲线系数向量的数学推导2.1 代数法2.2 矩阵法 3 代码实现4 总结参考 0 前言自动驾驶开发中经常涉及到多项式曲线拟合，本文详细描述了使用最小二乘法进行多项式曲线拟合的数学原理，通过样本集构造范德…

阅读更多...

推荐文章