【抽样调查】分层抽样上

碎碎念:在大一大二时听课有的时候会发现听不太懂,那时候只觉得是我自己的基础不好的原因,但现在我发现“听不懂”是能够针对性解决的。比如抽样调查这门课,分析过后我发现我听不懂的原因之一是“没有框架”,一大堆知识扑面而来但我没有建立起自己的逻辑框架,那些零零碎碎的知识看起来毫无章法,才导致我听不懂。那今天的分层抽样就按照讲故事的顺序展开吧~

第一次更新:2024/5/8

 

目录

一. 分层抽样概述

1. 什么是分层抽样

2. 如何分层

⭐ 分层原则

(1)特征分层

(2)自然分层

step1. 初步分层

step2. 合并层并计算新的

step3. 修正分层(看情况可以不写)

3. 如何抽样

(1)抽样方式

(2)样本量确定

1) 总样本量确定

2)样本量分配


一. 分层抽样概述

1. 什么是分层抽样

我们先不看课本上那一长串的符号描述,我们来看国家统计局的定义:

分层抽样(stratified sampling)也称类型抽样,它首先将要研究的总体按某种特征或某种规则划分为不同的层(组),然后按照等比例或最优比例的方式从每一层(组)中独立、随机地抽取个体,最后将各层的样本结合起来对总体的目标量进行估计

这么来看,分层抽样做的不过就是三个工作:分层、抽样、估计

那我们就按照这个顺序来展开这项工作。

2. 如何分层

国家统计局的定义里写道 “ 将研究的总体按某种特征或某种规则划分为不同的层(组)”,在实际抽样操作中通常确实采用这种方式,如按照行政机构设置来分层、按照社会经济特征(家庭规模、收入水平等)。但是我们如果在抽取一些工厂样品时,没有明显特征,但是又想要用分层那该怎么分?那就用到统计方法了。

我们在这里将有明显特征的数据定义为“特征分层”,无明显特征的数据定义为“自然分层”。(只是为了方便书写的描述,主要小编没有找到这两者都兼顾到的相关的论文)

⭐ 分层原则

  • 层内相似,层间相异(提高估计精度)
  • 不重不漏

(1)特征分层

特征分层是什么?

在分层抽样中,通常会根据一定的特征或因素对总体进行分层,这些因素可以根据研究目的和总体特征来选择。例如,可以根据地区、年龄、性别、职业、收入等因素进行分层。每个层应该具有相似的特征,以便在每个层中进行随机抽取样本时能够更好地代表该层的特点。

为什么要进行特征分层?

首先,根据总体的某些特征来分层操作较为简便

其次,根据总体中的人口特征(如年龄、性别、职业、收入等)、地理位置、时间等因素进行分层,可以更好地研究不同群体在不同环境或条件下的变化和趋势。

如何进行特征分层?

在实际操作中我们通常会按照行政机构设置来分层,当层(组)是按行业或行政区划进行划分时,分层抽样为组织实施调查提供了方便。

比如在最近一场市场调查分析大赛中,我们调查的对象是全体武汉市常住居民,首先通过PPS抽样从武汉市的13个区中抽取6个行政区,接着采用分层抽样从6个行政区中抽取入样街道。依据这样的分层标准,在实时操作中极大提高了效率。

(2)自然分层

什么是自然分层?

自然分层/组,通常是按照数据集自身特征进行分组(可以等距也可以不等距)。来个例子理解一下:

不等距
等距

第一列的组限就是我们自然分组的标识。

为什么要进行自然分层?

调查总体没有什么明显特征时通常可以用自然分组来分类汇总。

如何确定分层的层数?——累计平方根法

我们在这里只讲结论和应用,具体论证可以看这篇论文:

“累积平方根法”最优解严格的数学证明及应用 - 道客巴巴

主要原理就是要保证层内相似,层间相异

DH方法(累计平方根)给出结论:各层所占的频率(频数)的平方根与各层所占间距的平方根之乘积相等。也就是保证分层后的:

\sqrt{d_iN_i}\approx \sqrt{d_jN_j}

其中di表示第i层的层内间距,Ni表示第i层的频数。

我们直接上干货——做题方法

在这一类型的题目中通常会给我们一些数据变量:在一个表格中列出分层变量的取值范围(组限)、对应的频数、频数的平方根、向下累积的频数平方根。如下:

不等距
step1. 初步分层

经验模拟表明使用5~6个层是比较适宜的。

摘自《抽样调查》北大出版社

如果要分k层,就用累计频数平方根除以k得到分层点。

我们就用右下角那个累计的数字1483.44除以5得296.69

那就规定第一层边界点在296.69处,第二层边界点在2×296.69=593.38处,第三层边界点在3×296.69=890.07处以此类推。是不是发现表内的累计\sqrt{dN}和我们计算出的有点差距,没关系我们找最接近这个值的当作边界点就可以。

 

step2. 合并层并计算新的\sqrt{dN}

我们将这5个层的组距d,频数N,和\sqrt{dN}进行统计,绘制新表格:

 

step3. 修正分层(看情况可以不写)

那怎么知道我们分的好不好呢?这就要用到我们说的DH方法(也就是累计平方根)原理了(人话版):

看最后一列\sqrt{dN}差距大不大,明显很大就调整,不大就分成这样就行了。

309.84、297.99、283.73、267.58、352.14这几个数里267.58很明显有点小,而352.14又很明显有点大。所以可以尝试给第四层多50个样本,第五层少50个样本,再做新统计:

间距d

频数N

𝒅𝑵

第一层

2400

40

309.84

二层

1200

74

297.99

三层

700

115

283.73

四层

450

226

267.58

五层

200

449

352.14

现在\sqrt{dN}是不是差不多了。

“给第四层多50个样本,第五层少50个样本”这一步数据哪儿来的,还有另一个组限分的更细的表有写,如果题目只给了上面一个表,咱就不需要再调整了。

3. 如何抽样

我们在这个部分聚焦于两个问题:怎么抽和抽多少,专业一点就叫做抽样方式和样本量分配

(1)抽样方式

  • 如果每层都是按照简单随机抽样进行抽取,则是分层随机抽样,大多数情况下都是分层随机抽样。
  • 分层抽样也可以依据每层样本的特点选择合适的抽样方式如:PPS抽样、ΠPS抽样等

(2)样本量确定

想要确定我们在每层抽多少我们还需要考虑两方面:一共要抽多少(总样本量确定)以及每层抽多少(样本量分配)

1) 总样本量确定

先看这篇文章,我们会再单独出一期详细的样本量确定方法的

《抽样技术》第3章 分层随机抽样(st)_累计平方根-CSDN博客

2)样本量分配

我们知道要抽取的总的样本量为n,划分层数为K层时,每层抽取的样本量假设为ni

等额分配

各层样本量n_i=\frac{n}{K}

按比例分配

各层样本量n_i=n\cdot \frac{N_i}{N}=n\cdot W_i

均方误差:V(\bar{y_{st}})=\frac{1-f}{n}\sum_{i=1}^{K}W_iS_{Yi}^2

适用情况:各层单元数或者层权已知,其他信息量很少

奈曼最优分配

各层样本量n_i=n\frac{W_iS_i}{\sum_{j=1}^{K}W_jS_j}

均方误差:V(\bar{y_{st}})=\sum_{i=1}^{K}(\frac{1}{n_i}-\frac{1}{N_i})W_i^2S_i^2

最小均方误差:V(\bar{y_{st}})=\frac{1}{n}(\sum_{i=1}^{K}W_i^2S_i)^2-\frac{1}{N}\sum_{i=1}^{K}W_iS_i^2

核心原理:层内方差最小

考虑费用的最优分配

费用表示:C=C_0+\sum_{i=1}^{K}n_iC_i

样本总量n=\frac{C-C_0}{\sum_{i=1}^{i=k}\sqrt{C_i}W_i S_i}\cdot\sum_{i=1}^{i=K}\frac{1}{\sqrt{C_i}W_iS_i}

各层样本量n_i=n\frac{W_iS_i}{\sum_{i=1}^{K}W_iS_i}\propto \frac{W_iS_i}{\sqrt{C_i}}

适用情况:费用固定层内方差最小;层内方差固定费用减少

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【使用ChatGPT的API之前】OpenAI API提供的可用模型

文章目录 一. ChatGPT基本概念二. OpenAI API提供的可用模型1. InstructGPT2. ChatGPT3. GPT-4 三. 在OpenAI Playground中使用GPT模型-ing 在使用GPT-4和ChatGPT的API集成到Python应用程序之前,我们先了解ChatGPT的基本概念,与OpenAI API提供的可用模型…

情感分类学习笔记(1)

文本情感分类(二):深度学习模型 - 科学空间|Scientific Spaces 一、代码理解 cw lambda x: list(jieba.cut(x)) #定义分词函数 您给出的代码定义了一个使用 jieba 分词库的分词函数。jieba 是一个用于中文分词的 Python 库。该函数 cw 是…

03_led_horse_run_v0 跑马灯

03_led_horse_run_v0 在Verilog中实现跑马灯通常涉及到使用一个计数器来控制LED灯的亮灭顺序。 跑马灯是一种常见的电子显示方式,它通过控制多个LED灯的顺序点亮,形成一种动态的视觉效果,看起来就像灯在“跑”一样。 知识点: 移…

FTTR介绍

概念 FTTR(Fiber to The Room)是一种新型的光纤接入技术,它将光纤信号传输到室内的一个通信网络方案。在FTTR网络中,光纤到达建筑物内的分配盒后,通过铜缆或其他传输介质进入室内各个房间,为用户提供网络服…

Java面试八股文(SpringCloud篇)

****************************************************

前端双语实现方案(VUE版)

一、封装一个lib包 结构如下 en.js use strict;exports.__esModule true; exports.default {sp: {input: {amountError: Incorrect amount format},table: {total: Total:,selected: Selected:,tableNoData: No data,tableNoDataSubtext: Tip: Suggest to recheck your fil…

springboot利用Redis的Geo数据类型,获取附近店铺的坐标位置和距离列表

文章目录 GEO介绍GEO命令行应用添加地理坐标位置获取指定单位半径的全部地理位置列表springboot 的实际应用 GEO介绍 在Redis 3.2版本中,新增了一种数据类型:GEO,它主要用于存储地理位置信息,并对存储的信息进行操作。 GEO实际上…

整理好了!2024年最常见 100 道 Java基础面试题(三十七)

上一篇地址:整理好了!2024年最常见 100 道 Java基础面试题(三十六)-CSDN博客 七十三、抽象类是否可以继承具体类? 在Java中,抽象类(abstract class)可以继承自具体类(c…

Unity延时触发的几种常规方法

目录 1、使用协程Coroutine2、使用Invoke、InvokeRepeating函数3、使用Time.time4、使用Time.deltaTime5、使用DOTween。6、使用Vision Timer。 1、使用协程Coroutine public class Test : MonoBehaviour {// Start is called before the first frame updatevoid Start(){ …

使用css的box-reflect属性制作倒影效果

box-reflect 是一个在 CSS 中创建元素倒影效果的非标准属性。尽管它在过去的一些 WebKit 浏览器中(如旧版的 Safari 和 Chrome)得到了支持,但由于它并未成为 CSS 标准的一部分,因此在现代浏览器中的兼容性较差。以下是对 box-refl…

瑞麦德机电设备有限公司将莅临2024第13届生物发酵展

参展企业介绍 河南瑞麦德机电设备有限公司是专业从事机械输送气力输送、称重配料、筛分、磁选设备研发和制造于一体的企业,公司采用国内外同行业产品的先进技术,经专业团队设计、研发、生产,产品满足“ISO9001”,“GMP”等标准要求…

Java开发原则

Java开发原则 一. 设计规范1.1 Vo设计原则1.1.1 Long类型需要转为String类型 1.2 Mapper接口命名1.2.1 新增1.2.2 删除1.2.3 更新1.2.4 查询 一. 设计规范 1.1 Vo设计原则 1.1.1 Long类型需要转为String类型 由于Long类型转递到前端会出现数据溢出 1.2 Mapper接口命名 1.2…

React 学习-3

Props state可变&#xff0c;props不可变&#xff0c;故子组件使用props较多 ar title "菜鸟教程"; // var title 123; var MyTitle React.createClass({propTypes: {title: React.PropTypes.string.isRequired,},render: function() {return <h1> {this.…

线程的ThreadLocal

ThreadLocal是Java语言中的一个线程内部存储类&#xff0c;可以用来在多线程环境下保证每个线程都拥有自己独立的变量副本&#xff0c;避免了多线程间的数据共享问题。 ThreadLocal的使用方式非常简单&#xff0c;只需要创建一个ThreadLocal对象&#xff0c;然后使用它的get()…

【BST】Behavior Sequence Transformer for E-commerceRecommendation in Alibaba

一、提出背景 传统的Embedding&MLP模型结构将原始特征嵌入到低维向量中&#xff0c;然后将其concat后输入MLP进行最终推荐。DIN提出使用注意力机制来捕获候选项与用户先前点击的项之间的相似性。 然而&#xff0c;大多数这些工作只是连接不同的特征&#xff0c;而没有捕获用…

云动态摘要 2024-05-08

给您带来云厂商的最新动态&#xff0c;最新产品资讯和最新优惠更新。 最新优惠与活动 [免费试用]即刻畅享自研SaaS产品 腾讯云 2024-04-25 涵盖办公协同、营销拓客、上云安全保障、数据分析处理等多场景 云服务器ECS试用产品续用 阿里云 2024-04-14 云服务器ECS试用产品续用…

通过自适应提示提升大语言模型的零样本推理能力

随着大模型&#xff08;LLMs&#xff09;的快速发展&#xff0c;它们在自然语言处理&#xff08;NLP&#xff09;任务上取得了前所未有的成就。特别是&#xff0c;LLMs展现出了强大的推理和规划能力&#xff0c;这得益于它们的少样本和零样本学习能力。然而&#xff0c;现有的方…

LeetCode刷题笔记第217题:存在重复元素

LeetCode刷题笔记第217题&#xff1a;存在重复元素 题目&#xff1a; 给你一个整数数组nums。如果任一值在数组中出现至少两次&#xff0c;返回 true&#xff1b;如果数组中每个元素互不相同&#xff0c;返回 false。 想法&#xff1a; 要判断数组中是否存在重复的元素&…

从零开始精通RTSP之传输ADPCM等音频流

概述 在上一篇文章中&#xff0c;我们详细介绍了使用RTP传输AAC音频流的打包方法。除了AAC编码算法外&#xff0c;常用的音频编码算法还有ADPCM、G711A、G711U、G726等。接下来&#xff0c;我们继续介绍RTP传输ADPCM等音频流的打包方法。 封装方法 RTP封装ADPCM等音频数据时&am…

探究 Java 字符串的不可变性与内部机制

探究 Java 字符串的不可变性与内部机制 为什么String是不可变的 其实String不可变的原因是因为内部char[]被final修饰了&#xff0c; 其实String里的内部hash value也是一个私有的final整形存放hashcode&#xff0c;这么做的原因主要为了提高后续hash操作的性能。 不提供修…