R语言实现k

您所在的位置:网站首页 杜甫诗歌的风格是沉郁顿挫沉郁顿挫具体指什么 R语言实现k

R语言实现k

#R语言实现k| 来源: 网络整理| 查看: 265

原文链接:http://tecdat.cn/?p=23038简介

假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。

换句话说,我们必须决定以何种方式来组合辅助变量(从现在开始是 "X "变量)的值,来确定一个新的变量,称为 "分层"。

为此,我们必须考虑到抽样调查的目标变量"Y "变量:如果为了形成分层,我们选择与Y变量最相关的X变量,那么由此产生的分层框架所抽取样本的效率就会大大增加。

每个活动变量的数值组合都决定了目标人群的特定分层,也就是 "最佳 "分层问题的可能解决方案。在这里,我们所说的最佳分层,是指能够确保最小样本成本的分层,足以满足对调查目标变量Y's的估计精度的约束(约束表示为不同兴趣领域的最大允许变异系数)。

当数据收集的成本在各分层中是统一的,那么总成本就与总体样本量成正比。一般来说,对于一个给定的总体来说,可能的替代分层的数量可能非常多,这取决于变量的数量和它们的值的数量,在这些情况下,不可能为了评估最佳分层而枚举它们。一个非常方便的解决方案是采用进化方法,包括应用遗传算法,在有限的迭代次数后可能收敛到一个接近最佳的解决方案。

步骤

抽样设计的优化首先是提供抽样框架,确定调查的目标估计值,并确定对其的精度限制。然后,在分析两组变量(分层和目标)之间的相关性的基础上,必须在框架中选择哪些分层变量。当所选的分层变量既是分类变量又是连续变量时,为了使它们具有同质性,应该对连续变量进行分类(例如使用聚类的K-means算法)。反之,如果分层变量都是连续类型的,则可以利用 "连续 "方法直接执行优化步骤。也可以执行两种优化,比较结果并选择更方便的方法。

在使用遗传算法进行优化之前,最好在使用k-means算法的基础上运行一个不同的快速优化任务,其目的有两个。

为最终分层的合适数量提供提示。获得一个初始的 "好 "解决方案,作为遗传算法的 "建议",以加速其向最终解决方案的收敛。

在优化步骤中,可以指出必须选择的抽样单位集合("全取 "层)。优化之后,可以通过模拟从框架中选择大量的样本来评估解决方案的质量,并计算所有目标变量的抽样差异和偏差。还可以根据可用预算 "调整 "优化方案的样本量:如果允许更大的样本量,则按比例增加各层的抽样率,直到达到新的总样本量;如果我们不得不减少样本量,则采取相反的做法。

最后,我们开始选择样本。

在下文中,我们将从一个真实的抽样框架开始说明每个步骤。

优化步骤所需的输入准备框架

为简单起见,让我们考虑数据集的一个子集。

head(mun)

为了限制处理时间,我们只选择了前三个地区和我们例子中感兴趣的变量。该数据集的每一行都包含一个城市的信息,由市政编号和市政名称标识,并属于三个选定的地区之一。

假设我们要计划一个抽样调查,目标估计值Ys是3个地区(感兴趣的区域)中每个地区的树林面积和建筑物面积的总数。假设每个市镇的总面积和总人口的值总是被更新。看相关矩阵。

cor(mun\[,c(4:8)\])

我们看到,树林面积和建筑物面积之间的相关性,以及"有建筑物的区域"和"总人口"之间的相关性都很高(分别为0.77和0.87),因此我们决定选择"有建筑物的区域","总人口"作为我们的框架中的分层变量X。

首先,我们决定将分层变量视为分类变量,所以我们必须对它们进行聚类。一个合适的方法是应用k-means聚类方法。

我们现在可以按照要求的格式定义框架数据帧。以合适的模型组织数据,以便进行下一步处理。

Frame(df = mun,value = "REG") head(frame1)Strata分层数据框

这个数据框架不是必需的,因为它是由从数据框架中自动生成的。不过,我们需要使用它来分析框架的初始分层,和在没有优化的情况下可能出现相关样本量。

Strata(frameF)

该数据框架中的每一行都输出了与给定分层有关的信息(通过对每个单元与X变量的值进行交叉分类获得),包括:

分层的标识符(名为 "strato")。与框架中的变量相对应的m个辅助变量(从X1到Xm命名)的值。人口中的单位总数(名为 "N")。标志(名为'cens'),表示该层是要进行普查(=1)还是抽样调查(=0)。成本变量,表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差,分别命名为 "Mi "和 "Si")。分层所属的关注域的值('DOM1')。精度约束

误差数据框包含对目标估计值设置的精度约束。这意味着要为每个目标变量和每个域值定义一个最大的变异系数。这个框架的每一行都与感兴趣的特定子域中的精度约束有关,由domainvalue值确定。在我们的案例中,我们选择定义以下约束:

分层的标识符。与框架中的变量相对应的m个辅助变量(从X1到Xm命名)的值。人口中的单位总数(名为 "N")。标志(名为'cens'),表示该层是要进行普查(=1)还是抽样调查(=0)。成本变量,表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差,分别命名为 "Mi "和 "Si")。分层所属的关注域的值('DOM1')。ndom


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3