【抽样技术】CH2 简单随机抽样

article/2025/9/16 15:45:11

目录

前言

一、定义

二、概述

1.总体

2.单元

3.抽样比

4.样本抽取原则

5.在抽样理论中的地位与作用

三、参数估计

1.参数表示

2.对总体特征的估计思路

3.对总体均值的估计

(1)引理

 (2)对总体均值的估计

4.方差和协方差的估计

5.区间估计

6.样本量的确定

(1)费用

(2)步骤

(3)精度(​编辑 ​编辑 ​编辑)

(4)估计总体均值时样本量的确定方法

 7.对总体比例的估计

(1)总体比例的估计量

(2)总体比例估计量的方差

(3)估计总体比例时样本量的确定

8.总体总值的简单估计

(1)总体总值的简单估计

(2)总体总值简单估计量的性质

(3)估计总体总值时估计量的确定

9.放回简单随机抽样的估计

10.设计效应( )

(1)定义

(2)的作用

(3)设计效应和样本量的确定

四、附表——抽样理论&数理统计的比较


前言

        学习一种抽样方法必须掌握的五个要点:

  • 该抽样方法的定义
  • 实施抽样的方法
  • 利用该抽样方法所得数据进行参数估计的方法
  • 估计量的性质:期望、方差
  • 估计量方差(精度)的估计方法

一、定义

1.从总体的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N个单元中,一次整批抽取gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样成为简单随机抽样(s.r.s)

2.从总体的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N个单元中,逐个不放回地抽取单元,每次抽到尚未入样的任何一个单元的概率都相等,直到抽足gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元为止,这样所得的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元组成一个简单随机样本。(现实中采用的方法)

【注】

  • 对于简单随机抽样,依次抽到一组特定样本单元的概率为:

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%20y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2C%20y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20proof%3A

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2Cy_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29P%28y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29%5Ccdots%20P%28y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%2C%5Ccdots%20%2Cy_%7Bn-1%7D%3DY_%7Bi_%7Bn-1%7D%7D%7D%29%3D%5Cfrac%7B1%7D%7BN%7D*%5Cfrac%7B1%7D%7BN-1%7D*%5Ccdots%20*%5Cfrac%7B1%7D%7BN-n+1%7D%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D

之前课本中gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CYgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.vgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy为其具体值(非随机);在抽样课程中,gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CY为总体真值(非随机),gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy为样本值,是gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.v.。前面提到的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D一般较大,若从gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D种可能的样本中随机抽取一种,需要先列出所有可能的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D种样本,不现实。 

  • 不考虑顺序,则抽中一组特定样本的概率为:

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7Dn%21%3D%5Cfrac%7B1%7D%7BC_%7BN%7D%5E%7Bn%7D%7D

  • 对于样本量n=1和n=2两种特殊情形(N个总体单元中抽取n个样本单元的简单随机抽样)

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Cfrac%7B1%7D%7BN%7D%2CP%28%20y_%7Bk%7D%3DY_%7Bs%7D%2C%20y_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20k%2Cj%3D1%2C%5Ccdots%20%2Cngif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%2Ct%3D1%2C%5Ccdots%20%2CN%2Ck%5Cneq%20j%2Cs%5Cneq%20t

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7Dproof%3A%20%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-1%7D%7Bn-1%7D%28n-1%29%21%3D%5Cfrac%7B1%7D%7BN%7D%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%2Cy_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%2Ci_%7Bj%7D%3Dt%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-2%7D%7Bn-2%7D%28n-2%29%21%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D%7D

不计第几次抽样,抽中某特定单元的概率相等,都为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B1%7D%7BN%7D

二、概述

1.总体

  • 具体总体
  • 有限总体
  • 与抽样框存在一一对应关系的实际调查总体

2.单元

        构成抽样总体的抽样单元并不总是等同于个体,个体是不可再分的单元,抽样单元可能包含很多个体。

3.抽样比

        样本容量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n相对于总体规模gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N的比例gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20f%3D%5Cfrac%7Bn%7D%7BN%7D

4.样本抽取原则

  • 排除主观因素,按随机原则取样
  • 每个抽样单元被抽中的概率都是已知或事先可以计算的
  • 总体各单元的入样概率相等
  • 对于不放回抽样,总体各单元的入样概率之和等于样本量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n

5.在抽样理论中的地位与作用

优点:

  • 简单直观、理论成熟
  • 抽样调查的基础

缺点:

  • N很大时难以获得抽样框
  • 样本分散时不易实施
  • 很少单独使用,除非没有其他信息(常结合其他抽样方法使用)

三、参数估计

1.参数表示

总体真值样本值
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7BY%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3D%5Cfrac%7BY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20%2CY_%7BN%7D%7D%7BN%7Dgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7By%7D%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3D%5Cfrac%7By_%7B1%7D+y_%7B2%7D+%5Ccdots%20%2Cy_%7Bn%7D%7D%7Bn%7D
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3DY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20+Y_%7BN%7Dgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20y%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3Dy_%7B1%7D+y_%7B2%7D+%5Ccdots+%20y_%7Bn%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%3D%5Cfrac%7BA%7D%7BN%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D

示性变量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7B1%7D%3D0gif.latex?%5Cdpi%7B100%7D%20%5Csmall%201(当gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7Bi%7D符合条件时取值为1)

1
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20R%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7BY%7D%7D%7B%5Cbar%7BX%7D%7Dgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Chat%7BR%7D%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dx_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7By%7D%7D%7B%5Cbar%7Bx%7D%7D
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Csigma%20%5E2%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%20%5E2%3D%5Cfrac%7B1%7D%7Bn-1%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%28y_%7Bi%7D-%5Cbar%7By%7D%29%5E2
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20S%20%5E2%3D%5Cfrac%7B1%7D%7BN-1%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2%3D%5Cfrac%7BN%7D%7BN-1%7D%5Csigma%20%5E2

【注】总体参数上面带符号“^”表示由样本得到的总体参数的估计。估计量的方差用大写的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V表示,对gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28Y%29的样本估计值用gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28%5Chat%7BY%7D%29表示。

2.对总体特征的估计思路

  • 利用样本的目标变量观测值对其总体参数进行直接估计
  • 借助与目标变量高度相关的辅助变量对目标变量总体参数进行区间估计,如比率估计、回归估计等

3.对总体均值的估计

(1)引理

  • 【引理2.1】从大小为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元入样的概率为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7Bn%7D%7BN%7D,两个特定单元都入样的概率为\pi _{i}=\frac{n(n-1)}{N(N-1)}

{\color{Blue} proof:}

{\color{Blue} \pi_{ij}=\frac{\binom{2}{2}\binom{N-2}{n-2}}{\binom{N}{n}}=\frac{n(n-1)}{N(N-1)}}

【注】简单随机抽样下,所有可能的\binom{N}{n}个样本中,包含某个特点单元的样本数为?同时包含两个特定不同单元的样本数为?

  • 【引理2.2】从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元Y_{i},引入随机变量a_{i},i=1,2,\cdots ,N,如下,a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示Y_{i}被抽中,0表示未被抽中。则:

E(a_{i})=\frac{n}{N}=f,i=1,2,\cdots ,N

V(a_{i})=\frac{n}{N}\frac{N-n}{N}=f(1-f),i=1,2,\cdots ,N

cov(a_{i},a_{j})=-\frac{n}{N(N-1)}(1-\frac{n}{N})=-\frac{f(1-f)}{N-1},i=1,2,\cdots ,N;i\neq j

 (2)对总体均值的估计

【定理2.1】对于简单随机抽样,\bar{y}\bar{Y}的无偏估计(估计量无偏性),即E(\bar{y})=\bar{Y}

证明:从总体规模为N的总体中抽取一个样本量为n的简单随机样本。 若对总体中的每个单元Y_{i},引入随机变量a_{i},i=1,2,\cdots ,N,如下,a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示Y_{i}被抽中,0表示未被抽中。则\bar{y}可表达为\bar{y}=\frac{1}{n}\sum_{i=1}^{N}a_{i}Y_{i},式中Y_{i},i=1,2,\cdots ,N是常数,故E(\bar{y})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}E(a_{i})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}\frac{n}{N}=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}

【推论2.1】对于简单随机抽样,\hat{Y}=N\bar{y}的期望为E(\hat{Y})=E(N\hat{y})=N\hat{Y}=Y

【推论2.2】对于简单随机抽样,\hat{P}=p的期望为E(\hat{P})=E(p)=p

【推论2.3】对于简单随机抽样,n较大时,\hat{R}=r的期望为E(\hat{R})=E(r)\approx R

【定理2.2】对于简单随机抽样,\bar{y}的方差V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2,式中f=\frac{n}{N}为抽样比,1-f为有限总体校正系数(fpc)

{\color{Blue}proof: }

【注】简单估计量估计精度影响因素V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2。估计量的方差V(\bar{y})是衡量估计量精度的度量。影响估计量方差的因素包括样本量n,总体大小N和总体方差S^2。通常N很大,当f<0.05时,可将1-f近似取为1。总体方差是我们无法改变的,因此在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。

4.方差和协方差的估计

【Th】s^2=\frac{1}{n-1}\sum_{i=1}^{N}(y_{i}-\bar{y})^2s^2的无偏估计

{\color{Blue} proof:}

\Rightarrow1】对于简单随机抽样,v(\bar{y})=\frac{1-f}{n}s^2V(\bar{y})的无偏估计

\Rightarrow 2v(\hat{Y})=v(N\bar{y})=N^2\frac{1-f}{n}s^2V(\hat{Y})=N^2\frac{1-f}{n}s^2的无偏估计

5.区间估计

        由中心极限定理,\small \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}}\sim N(0,1)\small P(\left |\frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u _{\frac{\alpha }{2}})=P(\left |\bar{y}-\bar{Y} \right |\leqslant u _{\frac{\alpha }{2}}\sqrt{V(\bar{y})})=1-\alpha。总体均值的置信区间为\small \bar{y}-u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}\leqslant \bar{Y}\leqslant \bar{y}+u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})},其中\small u_{\frac{\alpha }{2}}是标准正态分布的上\small \frac{\alpha }{2}分位数,\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}称为绝对误差限。用v(\bar{y})=\frac{1-f}{n}s^2估计\small V(\bar{y})=\frac{1-f}{n}s^2,因而\small \bar{Y}的置信区间为\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]。进行多次抽样后,根据各次的样本算得的置信区间包含总体均值\small \bar{Y}的比例约为\small 1-\alpha\small 1-\alpha称为置信水平或置信度,反应抽样调查的信度水平。绝对误差限\small d=u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s为置信区间的半长。

        \small Var(\bar{y})的估计:\small var(\bar{y})=\frac{1-f}{n}s^2\small Var(\bar{Y})的估计:\small var(\bar{Y})=N^2\frac{1-f}{n}s^2

        \small \bar{y}的区间估计:\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]

        \small \hat{Y}的区间估计:\small \left [ N\bar{y}-u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s, N\bar{y}+u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s\right ]

6.样本量的确定

(1)费用

        \small C=c_{0}+c_{1}n。即总费用=固定费用+可变费用。固定费用包含设计费、分析费、办公费、管理费、场租费……;\small c_{1},即平均调查一个样本单元的费用包括访问员费、交通费、礼品费、电话费……

(2)步骤

  • 明确估计量的精度要求(绝对误差限\small d或相对误差限\small r
  • 找出样本量与精度之间的关系
  • 估计所需的样本量数值,即求解\small n
  • 如超出预算,调整精度值重新计算样本量

(3)精度(\small margin \small of \small error)

  • 允许最大绝对误差(绝对误差限)\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}
  • 以相对误差限\small r来表示\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}

\small P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant r)=1-\alpha\small P(\left | \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u_{\frac{\alpha }{2}})=1-\alpha \Rightarrow P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant \frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}})=1-\alpha

  • 绝对误差限与估计量标准差的关系为:\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}=u_{\frac{\alpha }{2}}S(\bar{y})
  • 相对误差限与绝对误差限(估计量方差)的关系为:\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}=u_{\frac{\alpha }{2}}\frac{\sqrt{V(\bar{y})}}{E\bar{y}}=u_{\frac{\alpha }{2}}C(\bar{y})\small E\bar{y}=\bar{Y}在估计量无偏可以替换,其中\small C(\bar{y})称为变异系数

 (4)估计总体均值时样本量的确定方法

  • 按绝对误差限确定样本量

        设在\small 1-\alpha置信度下,给定绝对误差限为\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})},即\small d^2={u_{\frac{\alpha }{2}}}^2\frac{1}{n}(1-\frac{n}{N})S^2,得出\small n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}S^2}{d^2+\frac{1}{N}{​{u_{\frac{\alpha }{2}}}^2}S^2}=\frac{n_{0}}{1+\frac{n_{0}}{N}},N很大时,\small n\approx n_{0}=\frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{d^2}。其中,\small n_{0}为有放回抽样或无限总体条件下达到该精度至少需要的样本量。

  • 按相对误差限确定样本量

        设在\small 1-\alpha的置信度下,给定相对误差限为\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}},平方得\small r^2{\bar{Y}}^2={​{u_{\frac{\alpha }{2}}}^2}\frac{1}{n}(1-\frac{n}{N})S^2,得出\small n=\frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2+\frac{1}{N}{​{u_{\frac{\alpha }{2}}}^2S^2}}\small N很大时,\small n\approx \frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2}

 7.对总体比例的估计

        估计具有某类特征的单元占总体单元数N中的比例P。

        将总体单元按是否具有这种特征划分为两类,设总体中有A个单元具有这个特征,如果对每个单元都定义指标值\small Y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示第\small i个单元具有所考虑的特征。\small P=\frac{A}{N}=\frac{1}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}

(1)总体比例的估计量

        总体比例\small P=\frac{A}{N}=\frac{\sum_{i=1}^{N}Y_{i}}{N}的估计量为样本比例\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n},其中\small y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示第\small i个单元具有所考虑的特征。

        样本比例\small p是总体比例\small P的无偏估计。\small Ep=E\bar{y}=\bar{Y}=P

(2)总体比例估计量的方差

        总体比例的估计量\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}的方差\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}

        总体比例估计量\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}的方差\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}v(p)=\frac{1-f}{n-1}pq估计。(抽样比很小时近似为\frac{pq}{n-1}

        总体比例P的区间估计为\left [ p-{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}} , p+{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}}\right ]

(3)估计总体比例时样本量的确定

        当待估参数是P时,估计量是p

  • 给定p的绝对误差限d

d^2={​{u_{\frac{\alpha }{2}}}^2}V(p)={​{u_{\frac{\alpha }{2}}}^2}\frac{PQ}{n}\frac{N-n}{N-1}

n(N-1)d^2={​{u_{\frac{\alpha }{2}}}^2}PQN-{​{u_{\frac{\alpha }{2}}}^2}PQn

n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}PQN}{​{​{u_{\frac{\alpha }{2}}}^2}PQ+(N-1)d^2}=\frac{\frac{​{u_{\frac{\alpha }{2}}}^2}{d^2}PQ}{1+\frac{1}{N}(\frac{​{u_{\frac{\alpha }{2}}}^2PQ}{d^2}-1)}

n_{0}=\frac{​{u_{\frac{\alpha }{2}}}^2}{d^2}PQ,则n=\frac{n_{0}}{1+\frac{n_{0}-1}{N}}

n_{0}为放回抽样或无限总体情形下达到该精度最少所需样本量

8.总体总值的简单估计

        总体总值为总体均值的N倍,即Y=N\bar{Y}=\sum_{i=1}^{N}Y_{i},只要有了总体均值的估计结果,就可以很容易地推出总体总值的估计结果。

(1)总体总值的简单估计

        N倍的样本均值是总体总值的简单估计量,即\hat{Y}=N\bar{y}=\frac{N}{n}\sum_{i=1}^{n}y_{i}

(2)总体总值简单估计量的性质

        由于总体总值是总体均值的N倍,其简单估计量也是总体均值估计量的N倍,而N是固定常数,所以总体总值的简单估计量的性质由总体均值的简单估计量的性质来决定。

        容易证明:

E(\hat{Y})=E(N\bar{y})=NE(\bar{y})=N\bar{Y}=Y

V(\hat{Y})=N^2V(\bar{y})=\frac{N^2(1-f)}{n}S^2的无偏估计为v(\hat{y})=N^2v(\bar{y})=\frac{N^2(1-f)}{n}s^2

(3)估计总体总值时估计量的确定

d=u_{\frac{\alpha }{2}}\sqrt{Var(\hat{Y})}=Nu_{\frac{\alpha }{2}}\sqrt{var(\bar{y})}

d^2=N^2{​{u_{\frac{\alpha }{2}}}^2}var(\bar{y})=N^2{​{u_{\frac{\alpha }{2}}}^2}(\frac{1}{n}-\frac{1}{N})s^2

n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}s^2}{\frac{​{u_{\frac{\alpha }{2}}}^2s^2}{N}+\frac{d^2}{N^2}}

9.放回简单随机抽样的估计

        现实中有许多情况下,抽样是放回的,即从总体中抽中的单元每次都要放回总体中去。例如在城市中对行人、车辆的调查等抽样都是有放回的,有可能重复抽中某些单位。

        对于每次抽到的结果(视为随机变量)y_{i}都有

  • E(y_{i})=\sum_{i=1}^{N}\frac{1}{N}Y_{i}=\bar{Y}
  • V(y_{i})=\sum_{i=1}^{N}\frac{1}{N}(Y_{i}-\bar{Y})^2=\sigma ^2
  • 方差Var(\bar{y})=\frac{1}{n}\sigma ^2(与无限总体情形下均值估计量方差结果相同)
  • 样本方差s^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_{i}-\bar{y})^2是无限总体方差\sigma ^2的无偏估计量
  • 方差V(\bar{y})的一个无偏估计是v(\bar{y})=\frac{s^2}{n}

10.设计效应(design effect,deff

(1)定义

        所采用抽样技术的参数估计量方差与相同样本量下简单随机抽样的参数估计量方差之比。

  • 值越大,说明估计效率越低

(2)deff的作用

  • 评价抽样设计的一个依据

        如果deff<1,则抽样设计比简单随机抽样的效率高

        如果deff>1,则抽样设计比简单随机抽样的效率低

  • 计算样本量

        如多阶段抽样的deff大约在2\sim 2.5之间。n=n^{'}(deff)n^{'}为简单随机抽样下满足估计量精度要求所需样本量。

(3)设计效应和样本量的确定

 有放回抽样的方差:V_{srswr}=\frac{N-1}{N}\frac{s^2}{n}

不放回抽样的方差:V_{srswr}=\frac{N-n}{N}\frac{s^2}{n}

有放回抽样的设计效应:deff=\frac{N-1}{N-n}>1

        所以,要满足一定的估计精度,采用放回简单随机抽样比采用不放回简单随机抽样需要更大的样本量。

         deff常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量n^{'}比较容易得到。

        所考虑的抽样设计的样本量=简单随机抽样时满足方差要求时的样本量*deff

n=n^{'}*deff

四、附表——抽样理论&数理统计的比较

抽样理论数理统计
假设

有限总体,样本之间不独立有\binom{N}{n}种可能的样本

无限总体,样本之间独立,可取无限种可能的样本
符号\bar{y}\bar{y}
定义\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}
期望E(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\muE(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\mu
方差V(\bar{y})=\frac{1-f}{n}S^2V(\bar{y})=E[\bar{y}_{i}-\mu ]=E[\frac{1}{n}\sum_{i=1}^{n}-\mu ]=\frac{1}{n}{E(y_{i}-\mu )}^2=\frac{\sigma ^2}{n}

抽样

理论

&

数理

统计

相同之处不同之处
定义

都是根据从一个总体中

抽样得到的样本,然后

定义样本均值为:

\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

        抽样理论中样本是从有限总体中按不放回的抽样方法得到的,样本中的样本点不会重复;

        数理统计中的样本是从无限总体中利用有放回的抽样方法得到的,样本点有可能是重复的。

性质

(1)样本均值的期望都等于总体均值,也就是抽样理论和数理统计中的样本均值都是无偏估计

(2)不论总体原来是何种分布,在样本量足够大的条件下,样本均值近似服从正态分布

(1)抽样理论中,各个样本之间是不独立的;数理统计中的各个样本之间是相互独立的

(2)抽样理论中的样本均值的方差为V(\bar{y})=\frac{1-f}{n}S^2,其中S^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2=\frac{N}{N-1}\sigma ^2

(3)数理统计中样本均值的方差为\frac{\sigma ^2}{n},其中\sigma ^2=\frac{1}{N}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2



http://chatgpt.dhexx.cn/article/n1GkhVod.shtml

相关文章

Pytorch随机抽样

在神经网络中&#xff0c;参数默认是进行随机初始化的。如果不设置的话每次训练时的初始化都是随机的&#xff0c;导致结果不确定。如果设置初始化&#xff0c;则每次初始化都是固定的。

python random模块随机抽样专题

python random模块随机抽样专题 文章目录 1. 设置随机数种子 seed()2. random() 与 randint()3. sample()方法 无放回抽样4. choice() 与 choices() 有放回抽样5. shuffle()方法6. 猜拳小案例 python的random库&#xff0c;提供了很多随机抽样方法。             …

python 有放回随机抽取_Python 随机抽样

# -*- coding: utf-8 -*- import numpy import pandas data = pandas.read_csv( D:\\PDA\\4.9\\data.csv ) #设置随机种子 numpy.random.seed(seed=2) #按照个数抽样 data.sample(n=10) #按照百分比抽样 data.sample(frac=0.02) #是否可放回抽样, #replace=True,可放回, #rep…

pytorch 随机抽样

情形1&#xff08;按行随机排列&#xff09; import torch atorch.rand(3,5) print(a) aa[torch.randperm(a.size()[0])] print(a)情形2(按列排列&#xff09; aa[:,torch.randperm(a.size()[1])] print(a)结果如下 但是这里有一个问题&#xff0c;就是随机交换行列的顺序时…

简单随机抽样

文章目录 一、安装加载扩展包二、数据描述三、简单随机抽样1. 抽样&#xff1a;不放回简单随机抽样抽取样本容量为300的样本&#xff08;1&#xff09;调用不放回简单随机抽样函数“srswor”,其中第一个参数为抽取的样本容量n,第二个参数为总体容量N。&#xff08;2&#xff09…

加权随机抽样算法

1. 基于均匀分布概率的算法 例如&#xff0c;3等奖抽中的概率是70%&#xff0c;2等奖是20%&#xff0c;1等奖是10%&#xff0c;这样&#xff0c;大部分人都只能中3等奖&#xff0c;小部分人是二等奖&#xff0c;而只有特别少的人才可能拿到一等奖。产生0-100之间的均匀分布的随…

SPSS如何进行随机抽样

在统计学中&#xff0c;随机抽样是非常重要的一种统计分析手段&#xff0c;它使得研究对象有相同的机会被分在某一处理组当中&#xff0c;排除人为因素的影响和干扰。随机抽样是提高研究样本代表性和组间均衡性的重要方法&#xff0c;它的正确使用将直接影响到研究成果的可靠性…

linux内核编程memcpy,Linux库memcpy函数实现

memcpy函数在面试中很容易被问到如何去实现。memcpy函数是内存拷贝函数&#xff0c;用于将一段内存空间数据拷贝到另一段内存空间中&#xff0c;但是它和memmove函数不同的是&#xff0c;它对内存空间有要求的&#xff0c;dest和src所指向的内存空间不能重叠&#xff0c;否则的…

memcpy函数及其缺陷分析

函数介绍 函数原型 void *memcpy(void *destin, void *source, unsigned n); 参数 destin-- 指向用于存储复制内容的目标数组&#xff0c;类型强制转换为 void* 指针。 source-- 指向要复制的数据源&#xff0c;类型强制转换为 void* 指针。 n-- 要被复制的字节数。 返回值…

memcpy函数优化及DMA对比

一、背景与目的 优化算法结构&#xff0c;提高芯片的使用效率&#xff0c;挖掘芯片的潜在能力&#xff0c;对提高产品质量&#xff0c;降低产品成本有着重要意义&#xff0c;在性能受限的嵌入式设备更加重要。 在使用C语言编程时&#xff0c;我们常用memcpy来复制内存数据&…

memcpy函数的介绍以及实现

一、memcpy函数的介绍 memcpy函数在C语言的作用是将第一个变量a中的前num个字节的变量替换成第二个变量b的前num个字节 memcpy - C Reference (cplusplus.com) 二、memcpy函数的模拟实现 我的思路是这样的&#xff1a;首先&#xff0c;要判断这两个传来的地址是否是空指针&…

Linux下的memcpy函数

之前写过一篇关于 memcpy函数面试的文章 几个简单的笔试题 里面的代码使用的是char指针来实现&#xff0c;今天我们来看看Linux下面的memcpy 函数&#xff0c;它的实现上还是有一些巧妙的。 void * memcpy(void * dest, const void *src, size_t n) {if (!(((unsigned long) de…

内存操作函数:memcpy函数,memove函数

目录: 1.memcpy函数(内存拷贝)(1)memcpy函数的说明(2)memcpy的使用a.代码b.结果 (3)memcpy的模拟实现a.代码b.结果 2.memmove函数(1)memmove函数的说明(2)内存重叠问题a.分析b.代码说明 (3)内存重叠问题的解决分析(4)memmove的使用(5)模拟实现memmove 1.memcpy函数(内存拷贝) …

memcpy函数和memmove函数

memcpy函数和memmove函数 本篇博客只要涉及到memcpy函数与memmove函数的使用和模拟 文章目录 memcpy函数和memmove函数一、memcpy函数1.1函数的定义1.2memcpy函数使用1.3memcpy函数模拟实现 二、memmove函数2.1memmove函数定义2.2memmove模拟思路 总结 一、memcpy函数 1.1函数…

memcpy函数底层实现

memcpy函数底层源码实现 destin目标地址&#xff0c;source为源内存地址&#xff0c;n为拷贝的字节数 void *memcpy(void *destin, void *source, unsigned n);在实现memcpy的时候注意源地址和目的地址是否重叠&#xff0c;当源地址的尾部与目的地址头部重叠时&#xff0c;要…

memcpy函数及模拟

1memcpy函数的参数和返回值 1.1参数 目的地&#xff08;destination&#xff09; 指向要在其中复制内容的目标数组的指针&#xff0c;类型转换为 void* 类型的指针。 源&#xff08;source&#xff09; 指向要复制的数据源的指针&#xff0c;类型转换为 const void* 类型的指针…

简单讲解memcpy函数并且实现memcpy函数

函数声明&#xff1a;void *memcpy(void*dest, const void *src, size_t n);//n代表的是字节 使用方法&#xff1a;由src指向地址为起始地址的连续n个字节的数据复制到以dest指向地址为起始地址的空间内。 返回值&#xff1a;在未开始复制之前&#xff0c;dest指向的地址。 …

C语言memcpy函数和memmove函数

memcpy函数和memmove函数都是C语言的库函数&#xff0c;作用都是从一个空间copy一定长度的内容到另一个空间&#xff0c;不同的是memcpy只是单纯的拷贝&#xff0c;当两个空间发生局部重叠时无法保证拷贝的正确&#xff08;正不正确取决于编译器&#xff09;&#xff0c;而memm…

memcpy函数用法

各位读者朋友们&#xff0c;由于更新blog不易&#xff0c;如果觉得这篇blog对你有用的话&#xff0c;麻烦关注&#xff0c;点赞&#xff0c;收藏一下哈&#xff0c;十分感谢。 1、简介 memcpy 函数用于把资源内存&#xff08;src所指向的内存区域&#xff09; 拷贝到目标内存…

【C库函数】memcpy函数详解

目录 memcpy 函数原型 参数讲解 返回值讲解 函数讲解&#xff08;三个注意点&#xff09; memcpy 拷贝内存块到目标空间 函数原型 void *memcpy( void *dest, const void *src, size_t count ); 参数讲解 参数destsrccount解析目标空间地址要拷贝内容空间源地址拷贝内容…