smote算法_海量样本无从下手?这五种抽样算法分分钟搞定

article/2025/11/11 10:24:16
全文共 1854字,预计学习时长 4分钟

数据科学是研究算法的学科。本文介绍了一些常见的用于处理数据的抽样技术。

d2d60a1c27ec3e5817ea9c39310188da.png

图片来源:unsplash.com/@gndclouds

3f508bfc2d830ef82c2440974641472a.png

简单随机抽样

假设要从一个群体中选出一个集合,该集合中的每个成员选中的概率相等。

下列代码演示了如何从数据集中选择100个采样点。

sample_df = df.sample(100)
3f508bfc2d830ef82c2440974641472a.png

分层抽样

2f0d836531c87e0910669a1cc5cbb4a2.png

假设需要估计选举中每个候选人的平均票数。并且假设该国有3个城镇:

A镇有100万名工人,B镇有200万名工人,C镇有300万名退休人员。

在所有选民中抽取60个随机样本,但随机样本有可能不能很好地与这些城镇的特征相适应,因此会产生数据偏差,从而导致估算结果出现重大错误。

相反,如果分别从A,B和C镇抽取10,20和30个随机样本,那么,在相同的样本数的情况下,用该种方法估算的结果误差较小。

使用python可以很容易地做到这一点:

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,  test_size=0.25)
3f508bfc2d830ef82c2440974641472a.png

水塘抽样

b4d2aab47fdafdc9cc27c81e2cc557fc.png

假设有未知数量的大项目流,并且只供迭代一次。

数据科学家可以创建一个算法,从项目流中随机选择一个项目以使每个项目抽中的概率相等。

如何实现这一步骤?

假设必须从无限大的项目流中抽取5个对象,这样每个对象被抽中的概率都相等。

import randomdef generator(max): number = 1 while number < max: number += 1 yield number# Create as stream generatorstream = generator(10000)# Doing Reservoir Sampling from the streamk=5reservoir = []for i, element in enumerate(stream): if i+1<= k: reservoir.append(element) else: probability = k/(i+1) if random.random() < probability: # Select item in stream and remove one of the k items already selected reservoir[random.choice(range(0,k))] = elementprint(reservoir)------------------------------------[1369, 4108, 9986, 828, 5589]

从数学上可以证明,在样本中,每个元素从项目流中被抽中的概率相等。

怎么做呢?

涉及到数学时,从小的问题着手总是有用的。

所以,假设要从一个只有3个项目的数据流中抽出其中2个。

由于水塘空间充足,可将项目1放入列表,同理,由于水塘空间仍然充足,可将项目2也放入列表。

再看项目3。事情就变得有趣了,项目3被抽中的概率为2/3.

现在来看看项目1被抽中的概率:

项目1被抽中的概率等于项目3被抽中的概率乘以项目1被随机选为数据流中其他两个项目的候补的概率,即:

2/3*1/2 = 1/3

因此,抽中项目1的概率为:

1–1/3 = 2/3

数据科学家可以对项目2使用完全相同的参数,并且将该参数运用于数据流中的其他更多项目。

因此,每个项目被抽中的概率相同:2/3或一般式k/n

bb6214e5530851c57197e69aee82773c.png

随机欠采样和过采样

2bfec4701edef8ecef148cc2c0d7050b.png

事实上,不均衡数据集十分常见。

重抽样是一种广泛用于处理极度不均衡数据集的技术。它指从多数类样本中排除部分样本(欠采样)和/或从少数类样本中添加更多样本(过采样)。

首先,创建一些不均衡数据的示例。

from sklearn.datasets import make_classificationX, y = make_classification( n_classes=2, class_sep=1.5, weights=[0.9, 0.1], n_informative=3, n_redundant=1, flip_y=0, n_features=20, n_clusters_per_class=1, n_samples=100, random_state=10)X = pd.DataFrame(X)X['target'] = y

现可以使用以下方法进行随机过采样和欠采样:

num_0 = len(X[X['target']==0])num_1 = len(X[X['target']==1])print(num_0,num_1)# random undersampleundersampled_data = pd.concat([ X[X['target']==0].sample(num_1) , X[X['target']==1] ])print(len(undersampled_data))# random oversampleoversampled_data = pd.concat([ X[X['target']==0] , X[X['target']==1].sample(num_0, replace=True) ])print(len(oversampled_data))------------------------------------------------------------OUTPUT:90 1020180
bb6214e5530851c57197e69aee82773c.png

使用Imbalanced-learn进行欠采样和过采样

Imbalanced-learn(imblearn)是一个解决不均衡数据集的Python语言包。

可提供多种方法进行欠采样和过采样。

1. 使用Tomek Links进行欠采样:

Imbalanced-learn提供的方法之一是Tomek Links,指的是在两个不同类的样本中最近邻的对方。

在这个算法中,最终要将多数类样本从Tomek Links中移除,这为分类器提供了一个更好的决策边界。

f4f5734c38cfb4932f048daa6ac7893d.png
from imblearn.under_sampling import TomekLinkstl = TomekLinks(return_indices=True, ratio='majority')X_tl, y_tl, id_tl = tl.fit_sample(X, y)

2. 使用SMOTE算法进行过采样

SMOTE算法(合成少数类过采样技术),即在已有的样本最近邻中,为少数类样本人工合成新样本。

dd4086dffea1d6b72bc7255a4cf78236.png
from imblearn.over_sampling import SMOTEsmote = SMOTE(ratio='minority')X_sm, y_sm = smote.fit_sample(X, y)

Imblearn包中还有许多其他方法可用于欠采样(Cluster Centroids,NearMiss等)和过采样(ADASYN和bSMOTE)。

bb6214e5530851c57197e69aee82773c.png

结语

算法是数据科学的生命线。

抽样是数据科学中的一个重要课题。一个好的抽样策略有时可以推动整个项目发展。而错误的抽样策略可能会带来错误的结果。因此,应当谨慎选择抽样策略。

843ffecffc49aeba5150117e7fc3034a.png

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”


http://chatgpt.dhexx.cn/article/O9ZVWiUs.shtml

相关文章

smote算法_探索SMOTE算法

SMOTE是一种综合采样人工合成数据算法,用于解决数据类别不平衡问题(Imbalanced class problem),以Over-sampling少数类和Under-sampling多数类结合的方式来合成数据。本文将以 Nitesh V. Chawla(2002) 的论文为蓝本,阐述SMOTE的核心思想以及实现其朴素算法,在传统分类器(贝…

[12]机器学习_smote算法

1、smote原理介绍 在两个点连线中间取点 2、smote算法实现 import random from sklearn.neighbors import NearestNeighbors import numpy as np import matplotlib.pyplot as pltclass Smote(object):def __init__(self, N50, k5, r2):# 初始化self.N, self.k, self.r, sel…

过采样:SMOTE算法

前言&#xff1a;在比赛中遇到关于样本不均衡问题&#xff0c;特地过来补补知识点&#xff01; 1、smote原理 过采样的技术有非常多,最常见的就是随机过采样和SMOTE过采样。 随机过采样就是从少的类中进行随机进行采样然后拼接上去,这种效果很多时候和加权差不大。还有一种较…

SMOTE算法

SMOTE算法的思想是合成新的少数类样本&#xff0c;合成的策略是对每个少数类样本a&#xff0c;从它的最近邻中随机选一个样本b&#xff0c;然后在a、b之间的连线上随机选一点作为新合成的少数类样本。 如图所示&#xff1a; 算法流程&#xff1a; 1、对于少数类中每一个样本a&…

SMOTE算法及其python实现

SMOTE&#xff08;Synthetic Minority Oversampling Technique&#xff09;&#xff0c;合成少数类过采样技术&#xff0e;它是基于随机过采样算法的一种改进方案&#xff0c;由于随机过采样采取简单复制样本的策略来增加少数类样本&#xff0c;这样容易产生模型过拟合的问题&a…

SMOTE算法(人工合成数据)

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术&#xff0c;它是基于随机过采样算法的一种改进方案&#xff0c;由于随机过采样采取简单复制样本的策略来增加少数类样本&#xff0c;这样容易产生模型过拟合的问题&#xff0c;即使得模型学习到的…

SMOTE算法原理 易用手搓小白版 数据集扩充 python

前言 为啥要写这个呢&#xff0c;在做课题的时候想着扩充一下数据集&#xff0c;尝试过这个过采样降采样&#xff0c;交叉采样&#xff0c;我还研究了一周的对抗生成网络&#xff0c;对抗生成网络暂时还解决不了我要生成的信号模式崩塌的问题&#xff0c;然后就看着尝试一下别…

机器学习_SMOTE:简单原理图示_算法实现及R和Python调包简单实现

一、SMOTE原理 SMOTE的全称是Synthetic Minority Over-Sampling Technique 即“人工少数类过采样法”&#xff0c;非直接对少数类进行重采样&#xff0c;而是设计算法来人工合成一些新的少数样本。 SMOTE步骤__1.选一个正样本 红色圈覆盖 SMOTE步骤__2.找到该正样本的K个近…

Hash碰撞(冲突)

2019独角兽企业重金招聘Python工程师标准>>> 什么是哈希&#xff08;哈希算法&#xff09; 哈希算法是将任意长度的二进制值映射为较短的固定长度的二进制值&#xff0c;这个小的二进制值称为哈希值。 哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明…

Hash 碰撞是什么?如何解决(开放寻址法和拉链法)?hash链表和红黑树知识扩展?

一、什么是Hash碰撞 hash碰撞指的是&#xff0c;两个不同的值&#xff08;比如张三、李四的学号&#xff09;经过hash计算后&#xff0c;得到的hash值相同&#xff0c;后来的李四要放到原来的张三的位置&#xff0c;但是数组的位置已经被张三占了&#xff0c;导致冲突 二、Ha…

hash碰撞解决方法

Hash碰撞冲突 我们知道&#xff0c;对象Hash的前提是实现equals()和hashCode()两个方法&#xff0c;那么HashCode()的作用就是保证对象返回唯一hash值&#xff0c;但当两个对象计算值一样时&#xff0c;这就发生了碰撞冲突。如下将介绍如何处理冲突&#xff0c;当然其前提是一…

Java 集合深入理解 (十一) :HashMap之实现原理及hash碰撞

文章目录 前言哈希表原理实现示例HashMap实现原理全篇注释分析实现注意事项默认属性分析属性分析构造方法分析重要的put方法总结 前言 哈希表&#xff08;hashMap&#xff09;又叫散列表 是一种非常重要的数据结构基于map接口实现应用场景及其丰富&#xff0c;本地临时缓存&a…

java基础篇 - HashMap 理解Hash碰撞

HashMap是大家都在用&#xff0c;面试的时候也经常会被考的考点&#xff0c;在这篇文章中说下HashMap的hash碰撞和减轻碰撞的优化。 1、什么是hash碰撞 在解释Hash碰撞之前先说一下hashmap的存储结构、添加和检索是怎么实现的 1.1HashMap的存储结构 HashMap的存储结构是En…

大白话解释hash碰撞是什么以及如何解决

一、Hash如何存数据 hash表的本质其实就是数组&#xff0c;hash表中通常存放的是键值对Entry。 这里的id是个key&#xff0c;哈希表就是根据key值来通过哈希函数计算得到一个值&#xff0c;这个值就是下标值&#xff0c;用来确定这个Entry要存放在哈希表中哪个位置。 二、Ha…

hash碰撞的概率推导(生日攻击生日问题)

1.关于hash碰撞 哈希碰撞是指&#xff0c;两个不同的输入得到了相同的输出&#xff1b; hash碰撞不可避免&#xff0c;hash算法是把一个无限输入的集合映射到一个有限的集合里&#xff0c;必然会发生碰撞&#xff1b; 2.碰撞概率的问题描述的其他形式 n个球&#xff0c;&…

Hash碰撞(冲突)的解决方案

hash算法就是&#xff0c;用同一个哈希函数计算&#xff1a; 两个相同的值&#xff0c;计算出的hash值一定相同&#xff0c; 两个不同的值&#xff0c;计算出的hash值可能不同&#xff0c;也可能相同&#xff0c;当相同时就是hash冲突 一、链式寻址法 也叫“拉链法”&#…

MD5 hash碰撞实现解密

目录 1.前言 2.MD5 hash单个碰撞解密 3.MD5 hash批量碰撞解密 1.前言 在日常渗透中,获取到后台密码往往是加密的,常见的就是MD5加密,常见的做法我们会使用在线网站去解密,常用的有cmd5,somd5,cmd5对于一些密文是要收费的,有时我们就想白嫖。 这时我们会用so…

哈希碰撞+mysql_HashMap之Hash碰撞冲突解决方案及未来改进

HashMap位置决定与存储 通过前面的源码分析可知&#xff0c;HashMap 采用一种所谓的“Hash 算法”来决定每个元素的存储位置。当程序执行put(String,Obect)方法 时&#xff0c;系统将调用String的 hashCode() 方法得到其 hashCode 值——每个 Java 对象都有 hashCode() 方法&am…

Hash碰撞概率

计算Hash冲突的概率 虽然已经很多可以选择的Hash函数,但创建一个好的Hash函数仍然是一个活跃的研究领域。一些Hash函数是快的,一些是慢的,一些Hash值均匀地分布在值域上,一些不是。对于我们的目的,让我们假设这个Hash函数是非常好的。它的Hash值均匀地分布在值域上。 在这…

HashMap之Hash碰撞

详细理解了Hash碰撞及处理方法 为什么会出现hash碰撞 在hash算法下,假设两个输入串的值不同,但是得到的hash值相同, 即会产生hash碰撞 一个很简单的例子: 假设你自己设计了一个计算hash的算法toHashValue(String). 是取的输入值的Unicode编码值(当然实际的情况会比这复杂很…