异常数据处理

article/2025/9/22 2:32:04

常用处理方法:

异常值的处理方法常用有四种

1.删除含有异常值的记录

2.将异常值视为缺失值,交给缺失值处理方法来处理

3.用平均值来修正

4.不处理

需要强调的是,如何判定和处理异常值,需要结合实际

 

# 异常数据处理(异常数据过滤)
new_df = df.replace('?', np.nan)#替换非法字符为np.nan
datas = new_df.dropna(axis=0,how = 'any') # 只要有一个数据为空,就进行行删除操作
datas.describe().T#观察数据的多种统计指标

关于replace函数

语法:replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None)

使用方法如下:

1

2

3

4

import numpy as np

import pandas as pd

df = pd.read_csv('emp.csv')

df

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

#Series对象值替换

s = df.iloc[2]#获取行索引为2数据

#单值替换

s.replace('?',np.nan)#用np.nan替换?

s.replace({'?':'NA'})#用NA替换?

#多值替换

s.replace(['?',r'$'],[np.nan,'NA'])#列表值替换

s.replace({'?':np.nan,'$':'NA'})#字典映射

#同缺失值填充方法类似

s.replace(['?','$'],method='pad')#向前填充

s.replace(['?','$'],method='ffill')#向前填充

s.replace(['?','$'],method='bfill')#向后填充

#limit参数控制填充次数

s.replace(['?','$'],method='bfill',limit=1)

#DataFrame对象值替换

#单值替换

df.replace('?',np.nan)#用np.nan替换?

df.replace({'?':'NA'})#用NA替换?

#按列指定单值替换

df.replace({'EMPNO':'?'},np.nan)#用np.nan替换EMPNO列中?

df.replace({'EMPNO':'?','ENAME':'.'},np.nan)#用np.nan替换EMPNO列中?和ENAME中.

#多值替换

df.replace(['?','.','$'],[np.nan,'NA','None'])##用np.nan替换?用NA替换. 用None替换$

df.replace({'?':'NA','$':None})#用NA替换? 用None替换$

df.replace({'?','$'},{'NA',None})#用NA替换? 用None替换$

#正则替换

df.replace(r'\?|\.|\$',np.nan,regex=True)#用np.nan替换?或.或$原字符

df.replace([r'\?',r'\$'],np.nan,regex=True)#用np.nan替换?和$

df.replace([r'\?',r'\$'],[np.nan,'NA'],regex=True)#用np.nan替换?用NA替换$符号

df.replace(regex={r'\?':None})

#value参数显示传递

df.replace(regex=[r'\?|\.|\$'],value=np.nan)#用np.nan替换?或.或$原字符

删除缺失数据
df.dropna(axis=0, how='any')
#any表示删除包含任何NaN值的给定轴,how=all会删除所有元素都是NaN的给定轴


http://chatgpt.dhexx.cn/article/W3pUjUrk.shtml

相关文章

数据以及空值数据处理方法

第四节 数据七十二变 1、对于简单的数据删除空值数据(NaN)——对于简单的数据进行过滤,如果对于负责的 DataFrame对象进行使用则会存在空值数据过滤不干净 import pandas as pd——导入模块 li[2,NaN,4,6,NaN,4]——数据集 sepd…

数据无量纲处理方法

本文转自:https://blog.csdn.net/weixin_39953618/article/details/111101747 在进行数据分析时,数据具有单位是非常常见的,比如说GDP可以以亿作为单元,也可以以百万作为单位,那么此时就会出现由于单位问题导致的数字大…

大数据量的五种处理方式

http://www.51projob.com/a/bishimianshi/hailiangshuju/2012/0322/111.html 处理海量数据问题,无非就是: 分而治之/hash映射 hash统计 堆/快速/归并排序; Bloom filter/Bitmap;Trie树/数据库/倒排索引;外排序&…

Errors while compiling. Reload prevented

Errors while compiling. Reload prevented来自菜鸟的哭诉 在这边吐槽的同时为各位刚上手前端的各位一个经验 报这个东东的时候,你搜了百分百都是说你没安装webpack等相关配置,从而频繁刷新会报错。 没错,的确是的。 但是,我就…

#error 用法

#error命令是C/C语言的预处理命令之一,当预处理器预处理到#error命令时将停止编译并输出用户自定义的错误消息。 #error [用户自定义的错误消息]注:上述语法成份中的方括号"[]"代表用户自定义的错误消息可以省略不写。举例1:#error Sorry,an error has o…

ERROR: Encountered errors while bringing up the project.

ERROR: Encountered errors while bringing up the project. 错误信息 错误出现的原因是,之前启动的 docker-compose 没有关闭。 解决方法 先把之前的 docker-compose 关闭 docker-compose down之后再执行 docker-compose up

R Error: BiocParallel errors 1 remote errors, element index: 1 506 unevaluated and other errors解决办法

我在用minfi包下面这个函数读取甲基化数据的时候&#xff0c; RGset1 <- read.metharray.exp(targetstargets1,force T) 出现了下面这个报错 查看了自己的idat文件地址&#xff0c;没有错 又查看了target1&#xff08;read.metharray.exp函数的参数之一&#xff09;&#…

Error building Player because scripts had compiler errors

Unity打包出现Error building Player because scripts had compiler errors 这里网上有多数解决方案都是说有一些脚本继承了Editor接口的脚本导致的&#xff0c;这里可以先检查一下&#xff0c;如果有这类脚本创建Editor文件夹&#xff0c;把脚本放进去。还不行的话再添加#if …

Errors occurred during the build. Errors running builder 终版解决方案

Errors occurred during the build. Errors running builder 终版解决方案 **项目无法编译可能和这个有关。。。。。。 开发工具 eclipse,JAVA&#xff08;当然idea也会报错&#xff0c;但是错误好像不太一样&#xff09; 解决过程&#xff1a; 注意&#xff1a;*不要再这个问…

ERR Errors trying to SHUTDOWN. Check logs.

使用shutdown命令报错&#xff1a; ERR Errors trying to SHUTDOWN. Check logs. 原因&#xff1a; 我们的日志文件没有配置执行命令&#xff0c;会进行保存&#xff0c;但是权限不够&#xff0c;也就是要给rbd文件赋予权限。 解决办法&#xff1a; 1、进入我们的redis.conf…

CCS报错#10010 errors encountered during linking;

CCS新建F28335工程&#xff0c;运行报错&#xff1a; 解决方案&#xff1a; 1.打开如下路径 2.全部勾选即可 3.运行成功&#xff0c;生成.out文件

Errors报错记录

Errors报错记录 前言Error1Error2Error3Error4Error5Error6Error7Error8Error9Error10Error11总结 前言 记录运行程序时的错误&#xff0c;方便查找&#xff0c;主要包括python深度学习程序错误&#xff0c;opencv(c)程序错误等&#xff0c;没有特定顺序&#xff0c;按照我遇到…

vue项目中Uncaught runtime errors:怎样关闭

使用vue-cli新建的vue项目&#xff0c;当出现编译错误或警告时&#xff0c;在浏览器中显示全屏覆盖&#xff0c;如下图&#xff0c;此报错在生产环境下并不会出现 通过看控制台&#xff0c;找到关键词webpack 可以明显的看出来是webpack-dev-server弄出来的 解决办法 在vue.co…

Errors~kafka.errors.NoBrokersAvailable: NoBrokersAvailable

1. 错误截图 2. 错误说明 kafka服务正常启动kafka-console-producer和kafka-console-consume也好使listeners和advertised.listeners也都配置了本地使用python创建生产者连接broker集群的时候报错 3. 错误原因 创建Kafka.Producer的时候没有指定api_version # 创建Kafka生产…

出现ERROR:怎么解决

此时我刚刚下载完成&#xff0c;怀着两行激动的泪水来分享我的发现&#x1f423;&#x1f425; 我们下载安装包时会出现 1-.通常情况下我们可以切换镜像源 pip install 库包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 当然你也可以切换清华&#…

Go语言的errors

Go语言的errors包有4个方法&#xff1a; errors.Aserrors.Iserrors.Newerrors.Unwrap 本期我们来揭开他们的神秘面纱。俗话说的好&#xff0c;柿子还得挑软的捏&#xff0c;按照国际惯例我们先从最简单的New函数开始。 在 Go 源码目录的 errors 目录下&#xff0c;有errors.g…

no python application found, check your startup logs for errors错误解决

今天在倒腾django项目的时候突然遇到一个bug&#xff0c;一开始报的是内部服务器错误&#xff1a;“Internal Server Error”&#xff0c;此时服务器的状态是Nginx开启了8000端口&#xff0c;uWSGI服务也在启动中&#xff0c;然后开始排查&#xff0c;首先从Nginx下手&#xff…

活动图和流程图的区别

活动图是UML用于对系统的动态行为建模的另一种常用工具&#xff0c;它描述活动的顺序&#xff0c;展现从一个活动到另一个活动的控制流。活动图在本质上是一种流程图。 活动图与流程图的区别 (1)、流程图着重描述处理过程&#xff0c;它的主要控制结构是顺序、分支和循环&#…

活动图详解

活动图 一、活动图概要 ​ ★描述系统的动态行为。 ​ ★包含活动状态(ActionState)&#xff0c;活动状态是指业务用例的一个执行步骤或一个操作&#xff0c;不是普通对象的状态。 ​ ★活动图适合描述在没有外部事件触发的情况下的系统内部的逻辑执行过程&#xff1b;否则…

UML画图之活动图

前言 前面说到活动图与状态图之间是有联系并有区别的。那么现在让我们来认识一下活动图是怎样的吧&#xff01; 活动图 what 阐明了业务的工作流程&#xff0c;业务是由很多活动构成的。 举个栗子&#xff1a;机房上机的活动流程是 登陆→验证→打开qq→发消息。。 活动图…