白话解释正态分布

article/2025/8/30 2:59:54

复习一个统计学方面的课题,想找些资料看看,结果发现,就算是最基本的一些统计学概念,能找到的中文资料,读起来都是这么的佶屈聱牙,似乎都是从教科书里拷贝几个名词解释给放到一起,就算是一篇文章了。

所以我想试试做一个费力但是未必讨好的事,用大白话拆解统计学里面的一些基本概念。

我熟悉医药,就选了个跟医药有关的话题,就是怎么用统计学来判断一种药是不是有疗效。

比如有个新药,卖的人声称吃了它之后让人跑步速度加快。

在统计学上,这叫做一个“假说”。就是说,这人有一个说法,他说他的药物有效,能让人跑得快。但是在没有经过验证之前,我们就没有理由认为这是真的。所以这只能叫做“假说”。

那么我们应该怎么去检验一个假说是不是真的能成立呢?

为了检验,我们可以给10个人吃这种药,然后让他们跑100米,测一下他们的速度。

我们假设测得的结果是:这10个人,跑100米平均需要12秒。

(注意:本文的所有数字都是即兴假设的,就是为了帮助说明问题。请勿就具体数字打假。)

这算是快呢还是算慢呢?

我们需要跟“正常情况”做对比。

就这个课题来说,正常情况就是全体人类的平均跑步速度。

那我们就去查资料,一查之下发现,大众跑100米的平均速度是13秒。

大众跑100米需要13秒,而这10个人吃了这种新药之后,跑100米只需要12秒,少用1秒钟时间就能跑完100米,似乎速度确实是快了,那么这个新药好像真的是有效?

其实我们现在还不能下结论。

因为,我可以争辩说:人的跑步速度本来就不一样。有些人快,有些人慢。所以各次测量的数字是不可能完全一样的。你另外叫10个人来,不吃这种药,跑100米测速,结果可能是12秒,也可能是13秒,甚至可能是14秒,这都不一定的。

因为人类都有个体差异。张三和李四的跑步速度不一样,这个很正常。这种个体差异,就可以让你每次找10个不同的人来测量跑步速度的时候,得到的数字会不一样。这个就是个体差异导致的自然波动。

好,那么现在你怎么能证明吃药的这10个人,跑100米跑出来的这12秒的成绩,不是那种人体差异导致的“自然波动”,而是确实是因为吃了这个药,于是速度增加呢?

这就需要有统计学的判断方法来帮忙。

要做这种判断,需要知道两件事:

一,正常情况下,大家跑步的平均速度是多少。

二,正常情况下,不同的人跑步,个体差异有多大。

人群总体的平均跑步速度,我们可以把它叫做标准速度。而那种自然波动幅度,也就是不同的人跑步速度的个体差异,统计学上会用一个叫做“标准差”单位来衡量。不过统计学专家不用“自然波动”这个词。他们喜欢用的词是“分布状态”。

这个“分布状态”,还有个有意思的现象,就是:两头小,中间大。统计学家管这个叫做“正态分布”。

注意人家说的不是正太。是有人喜欢正太,这个统计学家也不否认。不但不否认,他还能告诉你人群里喜欢正太的占百分之几。问题不是这个。问题是人家说的“正态”跟帅哥没关系。人家说的是:凡事都有标准,可是凡是标准都有例外。不过,标准既然能叫标准,理由就是因为势力大。就是说,在一个群体里,合乎标准的会占多数(咱这儿不讨论山寨产品)。偏离标准的占少数。偏离标准越远,出现的数量就越少。这个叫做事物属性的正常分布状态,简称正态。

正态分布的数字,如果画图来表示,就会像一个寺庙里的吊钟,就是下面这个图的样子。
在这里插入图片描述

[转载]白话统计学:什么叫正态分布

这个图里,横轴上的刻度,从左边往右看,是从-4到0然后到+4.

这啥意思?

意思是说,咱以中点做标准。偏离中点的,我们就说是它跟标准“有差异”。-1是比标准小1,而+1当然就是说比标准大1.
那么-4当然就是说比标准小4了,以此类推。

我们刚才说的跑步速度的例子,也可以画成这样的一个图。图的中点是标准速度13秒的所在地(它跟标准速度13秒的“差距”是0,所以就标注作0了)。大多数人跑出来的都是这个平均速度,所以这个地方的曲线拱得最高,意思就是跑这个速度的人数最多。

然后有人跑得很快,比如能跑9秒,因为9秒比标准速度13“减少了”4秒,所以在这个曲线上,用的是-4来表示。-4那里还有个附加的数字:0.5%。这是什么意思?这是说,跑100米只用9秒的神人很少,在人群里大概只有0.5%。

因为能跑这么快的人很少,所以这里的曲线很低。

这是说跑得快的。另外有一些人跑得特别慢,100米要跑17秒。17秒比标准速度13秒“增加了”4秒,所以在这个图里,就用最右边的那个+4来表示。这里的曲线也是特别低,就是因为跑这么慢的人,数量也很少,大约只占人群的0.5%,所以这里也标注着一个附加数字:0.5%

知道这两个0.5%是什么意思,中间的那两个34%也就容易理解了。那意思就是说,跑100米需要的时间大约是12秒(13-1,所以刻度是-1)的人,占人群总数的34%。而需要时间是14秒(13+1,所以刻度是+1)的,也是占34%。

这两部分的人,一个是比标准速度快一秒,一个是比标准速度慢一秒。虽然一个是快了,一个是慢了,从体育角度看,或是从上公交车抢座的角度看,两者大不相同,但从统计学的角度看,两个都是一样的属性,就是:它们跟标准速度(13秒)的差距都是1秒。

用统计学的术语来说话,就是说这两部分的人,跟标准速度的差别都是一个标准差。

两部分人各占34%,合起来,这些人是占整个人群的68%

这就是图下方的那个68%表示的意思。用比较正经八本的话来表示,就是:跟标准值(13秒)的差距是一个标准差的人,占总人数的68%

如果把差距是两个标准差的人,就是速度比13秒多2秒和少2秒的都收罗进来,那当然包括的人数就更多了,这就会包括95%的人了

如果快3秒的和慢3秒的都收进来,就占到了整个人群的99%。

这个就是100米跑步速度的总体分布状态。而这个钟形曲线就叫“正态分布曲线”

根据这个数字分布状态,我们可以说,你如果跑步速度比平均值少一秒,那你还是在正态分布范围的68%范围里,就是说人体自然差异造成这种速度变化的可能性是68%。

如果你能快3秒,就是说你用少于10秒(就算9.9秒吧)跑100米,那么,按照这个分布状态,这种事,因为人体自然差异而造成的可能性就小很多了,只有1%。

知道了人群跑步速度的这种分布状态,我们现在可以回头再看看那10个人跑出的12秒,算不算药物有效的证明。

这10个人,吃了那种药,他们跑100米的速度是12秒,就是说快了一个标准差,按照跑步速度的正态分布曲线,一个标准差是说这种事情本来就有68%的可能性。就是说即使不吃药,随便抓10个人来跑,也会有大约68%的可能直接跑出12秒的成绩来。

但是如果这10个人跑出少于10秒的成绩,比如说跑了9.9秒,这就是快了不止3个标准差。3个标准差的含义是什么?就是说如果随便抓10个人,不吃药,直接跑,居然跑出9.9秒的成绩,这种事情,正常情况下(就是说,不吃药的情况下),发生几率只有1%。因为,上面说了,99%的人都是在加减3个标准范围之内,就是说都在10–17秒之间。而这10个人能跑9.9秒,这就超出了3个标准差的范围,就是说“咱跟你们那99%不一样”了

这两个例子,第一个,跑12秒的,因为自然波动的关系,它出现机率高达68%,第二个,跑9.9秒的,可能的出现率就只有1%

前一个例子是是一个验证失败的例子。因为,68%这个机率太高,偶然碰上天然快腿的可能性太大,所以那不足以证明这个药有效。

要到多少比率才算有效?

统计学经过大量调查测量,发现真有效和假有效的分界线是5%。就是说,根据你这个测试内容的数据分布状态,如果你的试验组出现的某种变化,“天然发生”的可能小于5%,就可以接受为有效的证明。用统计学的表达习惯说话,就是P<0.05.

如果天然发生的几率是1%,可以说是“很有效”的证明。如果有人能得出0.1%的几率,那就是可以拍着胸口大声说我拿人头担保有效!

所以,我们这个验证新药的例子里,给如果10个人吃了这种药,他们跑100米的速度是12秒,虽然是快了,但是这种事情不吃药自然发生的可能性高达68%,这样的速度改变就没有说服力,结论是药物无效。这10个人只是碰巧跑得比别人稍快而已。

如果他们吃了药,跑的平均速度是9.9秒,这就可以说有效,因为,如果不吃药,随便抓10个人,跑出这种成绩的可能是小于1%,这就基本可以排除巧合了。

这个就是用统计学原理来验证一个假说的方法。就是说,一个假说,要跟大样本测量得到的“正态分布曲线”做对比,来证明你的假说所描述的那些变化,在正常情况下自然发生的可能性小之又小,于是我们就可以有信心说这不是自然的波动,而确实是发生了一种新的变化。如果是关于药效的假说,我们就可以说这个药是真的有效了。

没有经过科学训练的人,容易犯的错误就是不知道如何排除那种自然波动导致的巧合,于是给几个人吃了一种草,发现他们跑步速度加快了一秒,就立刻把这作为定理给记载到典籍里。古代各民族的原始医学里,记载了几万种治疗药物的方子,其中绝大多数是没有作用的,原因之一就是因为古人不知道用这种系统的分析方法来排除事物属性的自然波动。

说明一下:为了方便描述,我这里举的例子,比如这个跑步速度的测定方法,是简化了的。真正做研究,实验的设计当然要比这复杂,比如应该有对照组,应该有条件控制来排除其他因素的干扰。但那个是别的话题了,此处从略。


http://chatgpt.dhexx.cn/article/s5pomGcF.shtml

相关文章

常用分布函数

0-1分布 设随机变量X只可能取0与1两个值&#xff0c;分布律为 则称X服从以p为参数的0-1分布 即 X 0 1 P 1-p p 用于描述: 对新生儿性别进行登记&#xff1b;检查产品质量是否合格&#xff1b;某车间的电力消耗是否超负荷 二项分布 设随机变量X只可能取0和1两个值&…

[R语言]正态分布

目录 分布 连续型变量的分布 正态分布 正态分布的推导 正态分布密度曲线 dnorm 正态分布的概率计算 正态分布累积曲线 总体分位数和尾概率 正态分布案例之一 R语言正态分布函数 正态分布相应的概率计算 正态分布的检验 shapiro.test()函数 Kolmogorov-Smirnov连续…

概率分布汇总

概率分布、总体分布、抽样分布&#xff0c;一开始很容易搞混&#xff0c;还以为是同一个理论&#xff0c;不同的概念&#xff0c;毕竟都是分布&#xff0c;又都是统计学里面的概率。今天就来理解理解这个东西吧。 概率分布是指随机变量的各取值与该取值对应的概率之间呈现的规…

拉普拉斯分布

如果随机变量的概率密度函数分布如下图所示&#xff0c;那么它就是拉普拉斯分布&#xff0c;记为x-Laplace&#xff08;μ,λ)&#xff0c;其中&#xff0c;μ 是位置参数&#xff0c;λ 是尺度参数。如果 μ 0&#xff0c;那么&#xff0c;正半部分恰好是尺度为 1/λ(或者λ&…

高斯分布

正态分布&#xff08;Normal distribution&#xff09;又名高斯分布&#xff08;Gaussian distribution&#xff09;&#xff0c;是一个在数学、物理及工程等领域都非常重要的概率分布&#xff0c;在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准…

机器学习小组知识点23:F分布(F Distribution)-R语言代码

F分布的用途&#xff1a;用于方差分析、协方差分析和回归分析等。 定义 一个 F -分布的随机变量是两个卡方分布变量的比率: U1/d1U2/d2=U1/U2d1/d2 其中&#xff1a; U1和U2呈卡方分布&#xff0c;它们的自由度&#xff08;degree of freedom&#xff09;分别是d1和d2。 …

F分布及其应用

F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。设X服从自由度为n1的卡方分布, Y服从自由度为n2的卡方分布,且X,Y独立,则称随机变量F=(X⁄n1 )/(Y⁄n2 )服从自由度为(n1,n2)的F分布,记为F~F…

TeamTalk各个服务的IP配置方案

本人微信公众号&#xff1a;CPP进阶之旅 如果觉得这篇文章对您有帮助&#xff0c;欢迎关注 “CPP进阶之旅” 学习更多技术干货 TeamTalk各个服务的IP配置方案 1.纯公司内网2.公网ip3.公网ip&#xff0c;路由器映射相关文章重要说明 TeamTalk源码中的IM_SERVER下共有8种服务器&a…

TeamTalk部署详细教程(最全最新TeamTalk部署教程助你一次部署成功)

本人微信公众号&#xff1a;CPP进阶之旅 如果觉得这篇文章对您有帮助&#xff0c;欢迎关注 “CPP进阶之旅” 学习更多技术干货 TeamTalk部署详细教程 背景1、更新操作系统2、删除已经安装的软件3、安装必要的依赖软件4、安装mysql4.1 下载4.2 解压编译4.3 添加mysql用户4.4 修改…

新版TeamTalk部署教程

原文转自蓝狐&#xff08;bluefox&#xff09;的博客&#xff1a;https://blog.csdn.net/simongyley/article/details/45535429。对文中部分问题做了修改。 0、简介 新版TeamTalk已经在2015年03月28日发布了&#xff0c;目前版本定为1.0.0版本&#xff0c;后续版本号会按照如下…

(TeamTalk服务端源码分析一)TeamTalk服务端部署

TeamTalk服务端部署 在分析TeamTalk的各个服务器代码之前&#xff0c;我们先搭建一套服务端环境&#xff0c;结合之前的客户端&#xff0c;看一下一个IM聊天工具的基本功能。 一、部署环境 系统&#xff1a;centos7 X64位 二&#xff0c;部署步骤 1&#xff0c; 安装git gcc …

windows 10 Docker Desktop TeamTalk 安装笔记

目录 1、运行docker centos:7 版本系统 1.1进入 docker系统 1.2更新系统 1.3安装依赖软件 2、安装MySQL 2.1下载解压mysql 2.2解压mysql 2.3 编译安装mysql 2.3创建mysql用户 2.4创建my.cnf配置 2.5初始化 2.6其他配置 2.7启动mysql 2.8修改密码 2.9完成mysq…

VS2013打包teamtalk

1 2. 如果是第一次打包的话&#xff0c;需要下载Installshield&#xff0c;按需下载&#xff0c;第二次打开就是我这样了 3. 4.修改图中箭头的地方&#xff0c;其他看你需求修改 5.因为teamtalk要用到.net4.5 6.重点&#xff01;&#xff01;&#xff01; 首先点击addfolde…

teamtalk mysql.h_TeamTalk安装测试

TeamTalk介绍 项目框架 TeamTalk是蘑菇街的开源项目&#xff0c;github维护的最后时间是2015但是仍然是一款值得学习的好项目&#xff0c;麻雀虽小五脏俱全&#xff0c;本项目涉及到多个平台、多种语言&#xff0c;简单关系如下图 服务端&#xff1a; CppServer&#xff1a;TTC…

TeamTalk消息协议

数据通讯格式封装协议 Protocol Buffer 常用序列化方案比较 参考 https://www.cnblogs.com/johnny666888/p/12841735.html Protocol Buffer Protocol Buffer还有一个非常重要的优点就是可以保证同一消息报文新旧版本之间的兼容性 protobuf协议核心思想 基于128bits的数…

TeamTalk源码分析(1)

一、TeamTalk服务器端以下部署程序&#xff1a; db_proxy_server、file_server、http_msg_server、login_server、msfs、msg_server、push_server、router_server 各个服务程序的作用描述如下&#xff1a; LoginServer (C): 负载均衡服务器&#xff0c;分配一个负载小的MsgSe…

把TeamTalk(即时通讯项目)中的线程池连接池拆出来单独测试。

研究过Teamtalk的伙伴会发现它的线程池和连接池与很多文件有关联&#xff0c; 这篇文章主要写&#xff0c;把它的线程池连接池拆出来需要用到哪些文件。 其实我本来只想测试它的连接池的&#xff0c;但发现连接池里套的有线程池&#xff0c;于是就一起拆出来了。 整个工程的树…

teamtalk原理

再贴一遍架构图 从图中可以看出&#xff0c;对外使用的是http连接&#xff0c;内部使用的是tcp长连接。 类的命名规则&#xff1a;xxxServConn是模块连别的模块&#xff0c;xxxConn是别的模块连它。 协议设计 teamtalk采用protobuf进行序列化 typedef struct {uint32_t le…

TeamTalk源码分析(一)—— TeamTalk介绍

TeamTalk是蘑菇街开源的一款企业内部用的即时通讯软件&#xff08;Enterprise IM&#xff09;&#xff0c;类似腾讯的RTX。网上也有很多的介绍&#xff0c;我这里也有写几遍关于这款产品的“流水账”&#xff0c;一方面对自己这段时间的阅读其代码做个总结&#xff0c;尽量做个…

teamtalk实现即时通讯

即时通讯技术应用非常广泛&#xff0c;涉及教育、电商、金融、泛娱乐、生活服务、医疗健康、政企服务、游戏聊天、在线客服等等行业&#xff0c;不是大家认为仅仅是qq、微信那样。 即时通讯架构 先给张图 客户端与服务器端进行网络通信、收发消息连接层为客户端收发消息提供…