R语言实现k

您所在的位置：网站首页 › 杜甫诗歌的风格是沉郁顿挫沉郁顿挫具体指什么 › R语言实现k

R语言实现k

#R语言实现k| 来源: 网络整理| 查看: 265

原文链接：http://tecdat.cn/?p=23038简介

假设我们需要设计一个抽样调查，有一个完整的框架，包含目标人群的信息（识别信息和辅助信息）。如果我们的样本设计是分层的，我们需要选择如何在总体中形成分层，以便从现有的辅助信息中获得最大的优势。

换句话说，我们必须决定以何种方式来组合辅助变量（从现在开始是 "X "变量）的值，来确定一个新的变量，称为 "分层"。

为此，我们必须考虑到抽样调查的目标变量"Y "变量：如果为了形成分层，我们选择与Y变量最相关的X变量，那么由此产生的分层框架所抽取样本的效率就会大大增加。

每个活动变量的数值组合都决定了目标人群的特定分层，也就是 "最佳 "分层问题的可能解决方案。在这里，我们所说的最佳分层，是指能够确保最小样本成本的分层，足以满足对调查目标变量Y's的估计精度的约束（约束表示为不同兴趣领域的最大允许变异系数）。

当数据收集的成本在各分层中是统一的，那么总成本就与总体样本量成正比。一般来说，对于一个给定的总体来说，可能的替代分层的数量可能非常多，这取决于变量的数量和它们的值的数量，在这些情况下，不可能为了评估最佳分层而枚举它们。一个非常方便的解决方案是采用进化方法，包括应用遗传算法，在有限的迭代次数后可能收敛到一个接近最佳的解决方案。

步骤

抽样设计的优化首先是提供抽样框架，确定调查的目标估计值，并确定对其的精度限制。然后，在分析两组变量（分层和目标）之间的相关性的基础上，必须在框架中选择哪些分层变量。当所选的分层变量既是分类变量又是连续变量时，为了使它们具有同质性，应该对连续变量进行分类（例如使用聚类的K-means算法）。反之，如果分层变量都是连续类型的，则可以利用 "连续 "方法直接执行优化步骤。也可以执行两种优化，比较结果并选择更方便的方法。

在使用遗传算法进行优化之前，最好在使用k-means算法的基础上运行一个不同的快速优化任务，其目的有两个。

为最终分层的合适数量提供提示。获得一个初始的 "好 "解决方案，作为遗传算法的 "建议"，以加速其向最终解决方案的收敛。

在优化步骤中，可以指出必须选择的抽样单位集合（"全取 "层）。优化之后，可以通过模拟从框架中选择大量的样本来评估解决方案的质量，并计算所有目标变量的抽样差异和偏差。还可以根据可用预算 "调整 "优化方案的样本量：如果允许更大的样本量，则按比例增加各层的抽样率，直到达到新的总样本量；如果我们不得不减少样本量，则采取相反的做法。

最后，我们开始选择样本。

在下文中，我们将从一个真实的抽样框架开始说明每个步骤。

优化步骤所需的输入准备框架

为简单起见，让我们考虑数据集的一个子集。

head(mun)

为了限制处理时间，我们只选择了前三个地区和我们例子中感兴趣的变量。该数据集的每一行都包含一个城市的信息，由市政编号和市政名称标识，并属于三个选定的地区之一。

假设我们要计划一个抽样调查，目标估计值Ys是3个地区（感兴趣的区域）中每个地区的树林面积和建筑物面积的总数。假设每个市镇的总面积和总人口的值总是被更新。看相关矩阵。

cor(mun\[,c(4:8)\])

我们看到，树林面积和建筑物面积之间的相关性，以及"有建筑物的区域"和"总人口"之间的相关性都很高（分别为0.77和0.87），因此我们决定选择"有建筑物的区域","总人口"作为我们的框架中的分层变量X。

首先，我们决定将分层变量视为分类变量，所以我们必须对它们进行聚类。一个合适的方法是应用k-means聚类方法。

我们现在可以按照要求的格式定义框架数据帧。以合适的模型组织数据，以便进行下一步处理。

Frame(df = mun,value = "REG") head(frame1)

Strata分层数据框

这个数据框架不是必需的，因为它是由从数据框架中自动生成的。不过，我们需要使用它来分析框架的初始分层，和在没有优化的情况下可能出现相关样本量。

Strata(frameF)

该数据框架中的每一行都输出了与给定分层有关的信息（通过对每个单元与X变量的值进行交叉分类获得），包括:

分层的标识符（名为 "strato"）。与框架中的变量相对应的m个辅助变量（从X1到Xm命名）的值。人口中的单位总数（名为 "N"）。标志（名为'cens'），表示该层是要进行普查（=1）还是抽样调查（=0）。成本变量，表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差，分别命名为 "Mi "和 "Si"）。分层所属的关注域的值（'DOM1'）。精度约束

误差数据框包含对目标估计值设置的精度约束。这意味着要为每个目标变量和每个域值定义一个最大的变异系数。这个框架的每一行都与感兴趣的特定子域中的精度约束有关，由domainvalue值确定。在我们的案例中，我们选择定义以下约束:

分层的标识符。与框架中的变量相对应的m个辅助变量（从X1到Xm命名）的值。人口中的单位总数（名为 "N"）。标志（名为'cens'），表示该层是要进行普查（=1）还是抽样调查（=0）。成本变量，表示该分层中每个单位的访谈成本。每个目标变量y的平均数和标准差，分别命名为 "Mi "和 "Si"）。分层所属的关注域的值（'DOM1'）。ndom

【本文地址】

R语言实现k

R语言实现k

今日新闻

推荐新闻