你的工资是怎样被平均的?终于有人把平均数、中位数和众数讲明白了

article/2025/9/29 22:50:06

722a04c5751af06043adf351ed0833ed.gif

导读:我们在数据处理时,要小心各种陷阱!人们习惯使用统计数据来简化事物描述,但错误的统计方法不仅不能反映事实,还会让数据变得毫无意义。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

a6aff53c39e4d5aca1dd255307216978.png

有人曾统计了某家互联网公司的季度财报。结果显示,该公司员工平均月薪是其他同行的3~4倍。消息一出,立即引起人们热议。虽然后来这家公司出来辟谣,表明公开的酬金成本包括员工培训、福利开支、缴纳税金、商业保险、年终奖,但这并没能让大众信服。人们关心的问题是:统计平均工资的方法是否合理?

如果把一个普通员工和世界首富的工资放在一块取平均值,那么可以想象,普通人的工资几乎可以忽略不计。在一个企业中,20%的人占据了80%的工资总额。高收入的人比例偏少,但对平均工资的影响很大。

平均工资仅仅是经济领域的一个例子。生活中,我们会接触到各式各样的数据,它们以不同的形态展现。在处理一组数据时,平均值可以很好地代表这组数据的平均水平,但由于削峰填谷,它也势必会损失一部分信息,只能反映总体特征的一个方面。

想要掌握数据的全貌,就要了解数据的属性和性质。对于一组数据,我们首先要知道大部分数值落在哪里?也就是说,我们通常选择数据的“中间位置”,即反映数据集中趋势的统计量,来表示数据的中心。这里的度量方法有平均数、中位数、众数等。

01 平均数

平均数也叫平均值、均值,是统计学中最基本、最常用的一种定义一组数据特征的指标,用来描述数据的平均水平。计算平均数可以把所有数据相加再除以数据个数,比如{1,2,3,4,5}的平均数就是3。

尽管平均数是描述数据集最有用的一个统计量,但是它并非总是度量数据中心的最佳方法。最主要问题是平均数对极端值(比如离群点)很敏感,会被少数很低或很高的数值明显影响。为了抵消这种影响,可以使用截尾均值,即丢弃一部分高低极端值后计算均值。比如跳水比赛,就采用去掉最高分和最低分的截尾均值计分法。

02 中位数

中位数是将数据按大小顺序排列后处在中间位置的数,描述数据的中等水平。如果有奇数个数,则中位数是中间值;如果是偶数个数,则中位数一般取两个最中间值的平均值。它适用于对倾斜(非对称)数据的度量。

03 众数

众数是集合中出现频率最高的数值,描述数据的一般水平。众数的个数不一定是唯一的。一组数据中,可能会存在多个众数,也可能不存在众数。众数不仅适用于数值型的数据,对于非数值型的数据也同样适用。例如,{苹果,苹果,苹果,香蕉,梨,梨}这组数据中,没有均值和中位数,但是存在众数—苹果。

04 众数、中位数、均值的关系

如果一组数据的平均值、中位数、众数是同一个数,则说明它的数据分布是对称的。但这种情况不常见,更多情况下,数据是正倾斜负倾斜,如图2-1所示。

9481eefc5c7f420d46fa4eeb805f9422.png

▲图2-1 众数、中位数、均值的关系

收入数据就是典型的偏斜数据,大多数人是工薪阶层或退休老人,只有少数几个亿万富翁。收入数据如图2-1中的正倾斜数据,大多数人的收入集中在左侧,右侧有一条长长的尾巴,表示少数人的收入。这种分布不适合用平均数来描述。因为平均数对极端数据非常敏感,一两个亿万富翁,会拉高整个人群的收入水平线,使得收入均值比人们认知中的平均收入高出很多。

平均工资消除了大量低收入人群和少数巨额收入人群之间的差异。但如果换成众数也不合适,因为低收入人群占了工资比例的大多数区间。统计工资时的合理选择是统计中位数,它揭示了一半人和另一半人收入的分界线。

当然,并不是说中位数就是一个比平均数更好的统计量,只是它更适合工资统计。

引入统计量的意义就在于简化。比如老师告诉你说,孩子考试的排名处于班级里面的后10%,你就应该意识到他的学习成绩不太好,学习上要加把劲。在这个过程中,你不需要知道任何关于考试本身的内容,或孩子在考试中到底答对了多少题。一个排名数字,就能让你了解孩子的学习水平。

不过也正是由于统计量的简化,它不可避免地会丢失一些信息,其优点也是缺点。许多现象是无法只用一个数字来解释的。如果单凭一个统计量描述对象具有局限性,我们就应该尝试获得更多的数据,以及更多的细节。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

60899695ce4816c584d6c978dc25c4ad.png

《大话机器智能:一书看透AI的底层运行逻辑》

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

61b4ddbb9820774d3ee2c874bb2c71c6.gif

更多精彩回顾

书讯 | 4月书讯(上)|  上新了,华章

书讯 | 4月书讯(下)| 上新了,华章

资讯 | 分布式系统一致性的本质,看这篇秒懂

书单 | 知乎高赞:有哪些你看了以后大呼过瘾的数据分析书?

干货 | Go语言精进之路:你知道什么是Go语言编程思维吗?

收藏 | 终于有人把Scrapy爬虫框架讲明白了

上新 | Verilog HDL与FPGA数字系统设计第2版

赠书 | 【第101期】什么是中台架构?真的“烧钱”吗?

活动 | 【向上突破系列】第1期:互联网裁员潮下,去还是留?

直播 |重磅!分布式数据存储与一致性解决方案峰会来袭

7a2b4c2325eeed09b15abce2770a671f.gif


http://chatgpt.dhexx.cn/article/VdYGv45i.shtml

相关文章

计算机软件集成项目工程师上海,上海系统集成项目管理工程师积分政策,可以加多少分?...

系统集成项目管理工程师是计算机技术与软件专业技术资格(水平)考试中级资格里的一项考试,获得系统集成项目管理工程师证书在上海市办理居住证时可以获得100分的积分,具体依据如下: 系统集成项目管理工程师是计算机软件资格(水平)考试里中级的…

23省份2011年平均工资排行 北京最高甘肃垫底

2019独角兽企业重金招聘Python工程师标准>>> 23省份2011年平均工资排行 统计发现,目前全国已有北京等23个省区公布了2011年城镇单位在岗职工平均工资。数据显示,在这23省区中,北京职工月平均工资最高,为4672元/月&…

再见,工资!2020年6月程序员工资统计,平均14404元,网友:又跌了!

Python实战社群 Java实战社群 长按识别下方二维码,按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群▲ 作者丨有数可据 来源丨 https://blog.csdn.net/juwikuang/article/details/106503404 见了鬼! 工资竟然又跌了 #平均工资 2…

上海落户说明

 当前位置:合肥家园网—楼市资讯—家园看房 上海最新户口政策 新闻来源:合肥家园网 2012-02-24 width"100" height"24" src"http://news.hfhome.cn/hits.aspx?NewsID77154" frameborder"0…

2020年6月程序员工资统计,平均14404元,网友:又跌了!

见了鬼! 工资竟然又跌了 #平均工资 2020年6月全国招收程序员313739人。2020年6月全国程序员平均工资14404元,工资中位数12500元,其中95%的人的工资介于5250元到35000元。 虽然收入又下降了,但是岗位比上个月多了起来,随…

上海市职称计算机证明补办,职称证书丢了还能补办吗?上海落户政策详解。

很多朋友们在准备积分申请的时候,由于时间过去太久,等找材料的时候发现,职称证书不见了,这可怎么办呢?别急,职称证书是可以补发的!只需要个人提供以下材料: 1、原《专业技术职务任职…

python一个月工资多少钱_python工资收入

13.9K / 月平均工资 数据统计来自近一年 13903 份样本,截至 2020-11-21 全国python一个月多少钱?平均工资 ¥13.9K/月 其中拿10K-15K工资的人占比最多,达 30.5% 其次拿15K-20K工资的占 20.3%,20K-30K占 19.3% 对比…

2021年全国平均工资出炉,你达标了吗?

我国人的收入是个谜,如果你去各大论坛,就会发现各个都是富人。比如“刚下飞机,人在漂亮国,年入刚过百万”。人均法拉利、劳斯莱斯,以至于中国的法拉利、劳斯莱斯、兰博基尼等豪车的拥有量已经超过了其全球销量。 那么大…

java开发深圳平均工资_深圳2017平均工资100173元!!这次你又又又拖后腿了吗!?...

原标题:深圳2017平均工资100173元!!这次你又又又拖后腿了吗!? 最近深圳的天气 我和烤肉之间真的只差一撮孜然 简直热到原地爆炸 虽然未来的几天即将开启雨雨雨的模式 但是依然湿热 不过大家也不要灰心 毕竟有位名人曾经…

海口java工资水平2017,2019年海口平均工资公布,海口平均工资水平最新数据

海口市平均工资是什么?2017年海口市的平均工资是多少,下面现代语文网小编就关于2017年海口市平均工资相关信息给大家整理下! 平均工资,是一项反映工资总体水平的指标,指企业、事业、机关单位的职工在一定时期内平均每人…

济宁java平均工资,2019年济宁平均工资公布,济宁平均工资水平最新数据

济宁市平均工资是什么?2017年济宁市的平均工资是多少,下面现代语文网小编就关于2017年济宁市平均工资相关信息给大家整理下! 平均工资,是一项反映工资总体水平的指标,指企业、事业、机关单位的职工在一定时期内平均每人…

kali免驱网卡ifconfig不显示?

一、问题现象 1. 插上 kali 免驱网卡后,ifconfig不显示 2. lsusb 显示有网卡的信息 联系了商家远程搞了一天,又是改 USB兼容性 ,又是安装各种包,最后重新装了kali系统还是没成功 二、后来我研究了一下解决了 1. 插上网卡&#x…

Linux下通过iwconfig命令连接无线

在无线抓取报文后,或者未启动图形化桌面,只有命令行的情况下,需要通过命令来配置无线上网。 1、启动无线接口 ifconfig -a ifconfig wlan0 up 2、扫描无线信号,找到要连接的无线 iwlist wlan 0 scanning 3、连接相应的无线ssid i…

kali之iwconfig

工具说明 iwconfig类似于ifconfig(8),但专门用于无线接口。它用于设置特定于无线操作的网络接口的参数(例如:频率)。还可以使用iwconfig来显示这些参数和无线统计信息(从/proc/net/wireless中提取)所有这些参数和统计数据都依赖于设备。每个驱动程序根据硬件支持只…

or会导致MySQL索引失效的原因

此处的失效是指:如果条件中有or,只要其中一个条件没有索引,其他字段有索引也不会使用。 来张图对比下吧 OK,结论有了,但是为什么呢? 个人理解: MySQL优化执行计划目标都是出于成本考虑。OK&…

MySql索引失效的几种原因分析

测试数据准备 建表语句 CREATE TABLE t_user_demo ( id INT(11) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT ‘自增id’, name VARCHAR(20) DEFAULT NULL COMMENT ‘姓名’, phone char(11) DEFAULT NULL COMMENT ‘手机号’, age TINYINT DEFAULT NULL COMMENT ‘年龄’, sex…

MySQL索引失效场景以及解决方案

一、前言 在对SQL语句进行索引查询时会遇到索引失效的时候,对于该语句的可行性以及性能效率方面有至关重要的影响,本篇剖析索引为何失效,有哪些情况会导致索引失效以及对于索引失效时的优化解决方案,其中着重介绍最左前缀匹配原则…

MySQL索引失效的几种场景

我们都知道建立索引能够提高查询效率,那么是不是任何情况下都能提高呢,当然不是的的,下面我们就来列举一些常见的索引失效的场景。 借用上一篇文章的dm_person_info表 在card_code列没加索引的时,查询时间如下,大概都…

mysql索引失效的几种情况(总结)

索引并不是时时都会生效的,比如以下几种情况,将导致索引失效: 1.如果条件中有or,即使其中有条件带索引也不会使用(这也是为什么尽量少用or的原因) 注意:要想使用or,又想让索引生效,只能将or条件…

导致mysql索引失效的原因有哪些

MySQL五种索引类型 sql执行顺序 (根据sql执行顺序来优化,可以把关联表判断条件放到on后面) from on join where group by having select distinct union order by limit一、哪些字段适合建索引 二、范围查询索引失效问…