【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误

article/2024/9/7 19:18:51

目录

一、前言

二、总体与样本

1.总体(population)的概念

2.总体的性质与参数

首先是:平均数(mean)µ

标准差(standard deviation,SD)σ希腊字母sigma

3.样本(sample)的概念

3.1.为什么会出现样本的概念?以及抽样

3.2 样本的性质与参数

*****3.3 多样本抽样的概念与性质参数(关键小节)


一、前言

我发现很多人学了很久的统计学,仍然搞不清楚什么事标准差,标准误,什么是样本,什么是总体,总是概念混淆,那今天我们来盘一盘统计推断基础的四个基本概念:总体,样本,标准差,标准误。这个系列统计推断基础5部分分别是:

  1. 总体、样本、标准差、标准误
  2. 样本均值分布、中心极限定理、正态分布
  3. 点估计、区间估计
  4. 假设检验
  5. I型误差,II型误差

重点在基础概念,基础不牢,地动山摇,不关你是做研究还是本科基础学习阶段,基础都是很重要的。

我尽量使用语言来描述这些概念,少量使用数学公式,因为教科书上的公式已经很多了,相信来看博客的基本都是带着疑问来的,那我就用直觉的语言来解释概念,必要时使用数学公式。

二、总体与样本

1.总体(population)的概念

“总体”包含您想要理解的所有观察结果,就是我们的“现实”。

例如,您想知道工厂在一个时间段内生产的所有铅笔的平均长度,以查看输出是否得到控制,以及机器是否需要重新校准。

那么什么是总体呢?

工厂在一个时间段内生产的所有铅笔

这个就应该是你的总体包含的所有对象。

2.总体的性质与参数

总体有一些我们通常感兴趣的参数

首先是:平均数(mean)µ

平均数衡量总体的平均水平

例如:我们的铅笔平均长度为10cm,那么就是说这个工厂生产的铅笔的长度平均水平为10cm,这样能让我们对一个总体有一个大致的感受。

但是,有一个问题是平均数能否真实反映一个整体的平均水平呢?

就像有的公司会公布自己的平均薪资,例如XX公司的员工平均薪资是10w/月,但是实际情况却是这个公司的10名高管(也算员工)每个人的月薪1000w,1000员工每个人的平均工资是((10*1010)-(10*1000))/1000 = 0.1w/月,你会发现一个巨大的差异,你不是说员工的平均工资10w每月么,但是其实这个平均数已经不能反应整体水平了,因为平均数受到了大数影响,从而导致了观察偏差。所以如果你只用平均数来衡量一个整体的平均水平是非常不专业的行为,这已经违背了统计学的科学性。

***然后是容易混淆的概念:

标准差(standard deviation,SD)σ希腊字母sigma

你注意,我说的是标准差,不是标准误。

那么标准差是对数据变化的测量。反映总体的离散程度(或者你可以说是不规则程度)

假设:我们工厂生产的所有铅笔都是这样的:

那么很显然,这是个标准差很高的总体,当然,也说明,我们的生产机器不太行了,可能要换一批新的机器。

如果我们生产的铅笔是这样的:

那这就是个标准差很低的总体。

标准差的公式:

 

3.样本(sample)的概念

3.1.为什么会出现样本的概念?以及抽样

当我们想要测试总体的平均值或者SD时,你需要怎么做?

是不是统计总体中的所有个体,这叫做普查。

但是这是个理想情况下的手段,现实中,当你面对大量个体时,这会极大消耗你的时间。

就例如:中国的人口普查,这是项任务极其繁重的工程

或者假设你的工厂生产了10亿支铅笔,你真的要普查所有的铅笔,每一个都量一量?

实际情况可能是:

工厂的10亿铅笔,你可能会挑选100w支或者1000w支来做一个大致统计,那么问题来了。

你怎么挑选这100w或者1000w?

这就是抽样问题,你的抽样方案就是你的抽样策略

你抽出来的这100w或者1000w的铅笔就是一个样本

通过抽样,然后对样本进行分析,能够极大的减轻我们的时间成本

但是,为什么样本能代表整体呢?这种方法科学么?(下节说)

3.2 样本的性质与参数

样本均值 X bar:

衡量样本的平均水平。

样本的标准差Sample standard deviation (s):

衡量样本的离散程度(或者不规则程度)

嗯?你会发现样本和总体都是标准差,那标准误是什么?

*****3.3 多样本抽样的概念与性质参数(关键小节)

你在抽样的时候为了避免因为各种原因造成的误差,你肯定不会只抽一次样本,你肯定会多次抽样,比如那10亿支铅笔,我第一组抽100w,统计数据记为TS1,放回,再抽100w,再统计记为TS2,...,反复抽了6次。

那么你现在有6个样本数据:TS1,TS2,TS3,TS4,TS5,TS6

每个样本有自己的均值和标准差(SD):

均值标准差
TS1m1s1
TS2m2s2
TS3m3s3
TS4m4s4
TS5m5s5
TS6m6s6

那么这些样本的均值的均值是什么呢?是不是能反映这些样本的平均水平呢?

均值标准差
TS1m1s1
TS2m2s2
TS3m3s3
TS4m4s4
TS5m5s5
TS6m6s6
所有的样本所有样本的均值的均值所有样本的均值的标准差

假设的所有样本的均值的分布:(50个样本为例)

那么所有样本的均值的均值就是多样本的均值

所有样本的均值的标准差就是标准误(Standard error,SE)

所以,注意!

标准差(sd)针对一个样本或是整体,一个!

标准误是多个样本的性质,多个样本的均值的标准差就是标准误(se)!

标准差与标准误转换:

仔细理解

慢点想,看着图想,这其实是个套娃的概念,

我们举个例子:串一下概念

假设有一个数据集总体{1,2,3,4,5,6,7,8,9,10}

抽两次样,每次随机抽4个数,

样本1:sample 1 ={8,2,5,4}

样本2:sample2 = {10,1,5,6}

样本1的平均值:(8+2+5+4)/4 = 19/4 = 4.75

样本2的平均值:(10+1+5+6)/4 = 22/4 = 5.5

样本1的标准差: 2.5

样本2的标准差: 3.69685

两个样本的标准误:2.5/2 = 1.25,    3.69685/2 = 1.84842275107

除了平均值形式,很多还会有概率形式:

我放一个表在这,摘自国外的量化分析的课程,很详细:(本节只需要看,sample size,SD,MEAN,SE这几行就行,前四行)


http://chatgpt.dhexx.cn/article/LlB1np1N.shtml

相关文章

【精算研究01/10】 计量经济学的性质和范围

一、说明 计量经济学是使用统计方法来发展理论或测试经济学或金融学中的现有假设。计量经济学依赖于回归模型和零假设检验等技术。计量经济学也可以用来预测未来的经济或金融趋势。 图片来源:https://marketbusinessnews.com 二、 计量经济之简介 计量经济学是对经济…

信息计量学

目录 第一章 绪论 1.1由来和发展 1.1.1产生背景 1.2概念和内容体系 1.2.1 概念 1.2.2内容体系 1.3与相关学科 1.3.1与数学 1.3.2与文献计量学 1.3.3与科学学 1.4发展趋势和前景 1.4.1进展 1.4.2趋势 第二章 文献信息增长规律 2.1 文献信息流的特性及增长规律研究…

统计学在金融中的应用

统计分析是在一堆独立的、自身没有实际意义的数据中寻找可能存在的趋势、分布、概率等有意义的信息。统计学的目标是探索和把握数据内在的规律。统计学的应用,简单来说就是通过搜集相关数据并进行整理和分析,然后根据数据做出决策。掌握统计学&#xff0…

【定量分析、量化金融与统计学】多元回归模型与回归推理

之前说过了一元线性回归并给出了程序,今天来说说多元回归模型(Multiple Regression Model) 目录 一、多元回归模型的简介 二、求解多元回归模型:我们使用最小二乘法为例 三、评判方法 四、推理和回归 五、模型的优化 1.排…

金融计量学实验报告一

一、实验数据 中国石油天然气集团公司是以油气业务、工程技术服务、石油工程建设、石油装备制造、金融服务、新能源开发等为主营业务的综合性国际能源公司能源公司(代码601857), 数据来源中国石油上市公司在2011/1月到2021/12月的月度收盘价数据,数据来源为大智慧软件下载并…

金融计量学1

第一题 请使用 sysuse nlsw88.dta, clear 命令调入 Stata 数据文件 nls88.dta, 并完成如下统计分析: (1). 统计如下变量的平均值、标准差、中位数、最小值和最大值,并列表呈现出来,并输出为 Excel 或 Word 文档,名称为 Table01.xlsx 或 Table01.docx: age grade wage ho…

金融计量学第2课堂-金融时间序列线性模型

量化策略开发,高质量社群,交易思路分享等相关内容 一、相关性和平稳性 1、相关性 (1)皮尔森相关系数 皮尔森相关系数是最常见、最常用的一个相关系数计算方法。作为衡量两个随机变量x和y线性相关程度的重要指标,在这…

【金融计量学】面板数据(自用笔记,第一次写)

一、简介 面板数据的分类:平衡/非平衡面板数据;动态/静态面板数据。 面板数据中包含两种效应: 1. 个体效应:不随时间推移而明显变化的因素,如消费者的收入、产品的价格、个人消费习惯、社会制度等。 2. 时间效应&#…

金融计量学第1节课:股指收益率序列统计特征

量化策略开发,高质量社群,交易思路分享等相关内容 导论与介绍 大家好,我是Le Chiffre 今天我们来为大家分享金融计量学系列内容,在松鼠量化3年多分享的内容中,大部分以量化策略为主,至今为止,…

Word可折叠多级标题

在修改文章格式时应按照期刊的格式规范,如要使用可折叠的多级标题时,可参考如下方法。 1、规范下图的标题 2、按图顺序点击相应按钮,新建样式 3、依次修改红圈内容。注意:如果是一级标题,相应地,样式基准…

word文档如何设置多级标题

1、设置一级标题 光标放在‘一级标题’内容那,点击‘标题1’ 点击‘多级列表’图标 选中一个列表样式 一级标题设置完毕 当再次设置一级标题的时候,可以通过选中已经设置好的一级标题,然后点击‘格式刷’将样式复制 2、设置二级标题…

处理word 多级标题编号不联动的问题

修改文档时遇到的问题,各种百度没有解决,后来领导指导下弄好了,做个纪录。 问题如下所示 解决办法:需要在开始-多级编号处,将2级标题与3级标题设置成同一样式。 接下来开始演示 目前2级标题是这个样式 3级标题是这…

Mac Office Word设置多级标题

目录 定义新的多级列表 将级别链接到样式 问题解决:在样式中没有对应标题 附:毕业论文格式搞一手 定义新的多级列表 在一个新建文档中,点击顶栏中的多级列表标志,选择定义新的多级列表 注:如果找不到这个符号&…

【WORD】01 多级标题自动编号

需求 在Word中,希望实现多级标题,自动编号,改变章节顺序后,自动改变章节编号这一功能。经过搜索后,摸索出设置方法,设置效果如图。 操作步骤 首先明确标题样式,如图所示 点击段落–>多级…

从根儿上解决Word中标题多级标题编号不联动问题

在日常工作中总是时不时会出现word标题编号相关的问题,不胜其烦。最近终于有时间去排查,找出了解决办法。 以下为我个人总结出的两个问题,如果大家也曾经被困扰过,希望能帮到你们。 一、多余编号 大家请看下图: 如果…

Word文档多级标题设置

1 标题a1 1.1 标题a2 1.1.1 标题a31 1.1.2 标题a32 2 标题b1 2.1 标题b2 2.1.1 标题b31 2.1.2 标题b32 想要标题如上呈现,且二级、三级标题随着上一级标题编号变动操作如下 选中“标题a1”点击定义新的多级列表 上述操作完成后点击确定然后将标题名设置相应的标题…

POI生成Word多级标题格式

文章目录 一、使用模板文件生成标题1、创建模板文件2、获得模板文档的整体样式3、使用标题样式4、结果展示 二、自定义标题1、生成标题方法2、调用生成标题方法3、结果展示 一、使用模板文件生成标题 1、创建模板文件 新建一个doc文件,如format.doc,创…

Word标题样式设置多级自动编号

0x01 问题起源 有时候在写论文时需要设置自动编号,手动标记一来太多,太麻烦,二来牵一发而动全身,不易修改。 Word的标题样式好用(如上图),可以方便设置同一级标题的样式,但是在标题…

wps word设置多级标题及对应目录

■目标是文档含有多级标题,目录只显示到二级标题 原始文件如下: 1.尝试逐个设置不同级别标题,格式刷完成多级标题 按照上述方式,已设置完成三种级别标题,格式刷完成全文标题复制,如下 选择对应标题行设…

Word多级标题以及图片序号管理方法

在写毕业论文时,我们为了更好的管理这样一个庞大的内容,通常需要应用【多级标题】功能。具体使用方法如下所示: Step1:点击【段落】→【多级列表】→【定义多级列表】 Step2:在打开的界面中,点击左下的【更…