各类轨迹建模技术如何使用？适用数据、步骤及规范，一文讲清楚

您所在的位置：网站首页 › 混合效应模型用于哪种研究 › 各类轨迹建模技术如何使用？适用数据、步骤及规范，一文讲清楚

各类轨迹建模技术如何使用？适用数据、步骤及规范，一文讲清楚

2024-07-10 05:38| 来源: 网络整理| 查看: 265

详情请点击下方：

郑老师团队指导 | 重复测量资料的数据分析一对一高级学习班，掌握SPSS、R语言分析技巧

本文翻译自《Clinical Epidemiology》杂志的一篇论文，题为：“Trajectory Modelling Techniques Useful to Epidemiological Research: A Comparative Narrative Review of Approaches”（对流行病学研究有用的轨迹建模技术:方法的比较叙述回顾）。

本篇是潜变量系列文章第8篇

本公众号回复“沙龙”即可获得R语言代码，PPT，数据等资料

研究摘要

近年来，不断有采用轨迹建模技术研究涌现，多数为医疗领域内纵向数据的挖掘，对人群健康情况随时间的个体内和个体间变异性进行探究。本综述旨将阐述流行病学研究中的各种轨迹建模方法，并概述它们的应用和差异，同时提供如何报告轨迹建模结果的指导。

本文综述的潜类别建模方法包括增长混合模型（GMM）、组轨迹模型（GBTM）、潜类别分析（LCA）和潜转换分析（LTA），并与其他侧重单个数据的统计方法如聚类分析（CA）和序列分析（SA）进行对比。根据研究问题和数据类型不同，可以采用多种方法对纵向研究中的重复测量数据进行轨迹建模，然而目前对于各种潜类别建模方法（GMM、GBTM、LTA、LCA）存在多种不一致的术语，容易引起混淆。报告术语的一致性有助于提高研究人员选择技术时的效率，因此本文将一并对上述建模方法的术语进行统一。

关键词：建模技术，增长混合模型，组轨迹模型，潜类别分析，潜转换分析，聚类分析，序列分析

引言

对测量结果取均值是分析整体或某特定亚组的指标变化最常见的手段，但有一种情况相当普遍，就是存在一批未知的个体，拥有相似的临床症状、行为或医疗模式。真实世界中的整体是由许多个体组成的，因此使用估计的均值来描述整体，实际上是对真实临床环境中复杂的个体内和个体间变异性的过度简化。针对这一情况，轨迹模型应运而生，将个体按特定项目上的相似性区分，并分配到不同的轨迹中。

为什么要对轨迹进行建模？

在纵向数据中，轨迹描述了随时间变化的某一数量、行为、生物标志物或其他重复测量数据的演变过程。轨迹建模侧重个体间的关系，目的是基于个体反应模式，将它们归类到不同的潜在类别中。分类的目的是让同一类别内的个体之间的相似性大于不同类别内个体之间的相似性。根据个体的相似性进行分组并赋予类别标签，是组织大型数据集、提高效率和理解的一个有力工具，研究者可以通过寻找潜在类别以指导预防和临床实践。

例如可以根据症状严重程度的不同轨迹（随时间变化的疼痛强度得分）对患者进行重新分组。识别到潜在类别后，所在类别就可以作为一个因变量来识别健康轨迹的预测因子，或作为自变量来探索它们对未来健康结果的影响。如图1所示，与基于样本均值的测量相比，轨迹建模使研究人员能够更好地描述和理解随时间变化的健康结果在个体内和个体间的变异性和模式，它在探索健康状况的异质性、识别需要更好医疗保健的脆弱人群以及识别通往最佳健康结果的轨迹方面非常有用。这样的方法可以提供科学证据，优化针对特定亚群体需求的个性化医疗保健。

上述方法在流行病学领域的使用相对较新，迄今为止，关于轨迹建模的非技术性比较方法论论文发表不多，而且非统计学者在浏览相关文献时会遇到各种挑战。本综述的目的是提供各种轨迹建模技术的概览，并讨论它们的应用和差异，以帮助卫生研究人员选择最适合其研究问题的技术。更具体地说，本文回顾了四种潜在类别建模方法：一种参数法（增长混合模型[GMM]），和三种半参数法（组轨迹模型[GBTM]、潜类别分析[LCA]和潜转换分析[LTA]）。

本文超越了之前发表的综述，通过将这些轨迹建模技术与其他以个体为中心的统计方法（如聚类分析[非参数法]和序列分析[非参数法]）进行比较。这篇综述的受众是为那些不熟悉高级统计理论的读者，对于本文中回顾的每一种统计方法，我们都将介绍基本概念、处理的数据类型、进行分析所涉及的各个步骤、可用的统计软件包以及一个现实世界的例子，也会讨论如何更好地报告轨迹建模的结果，最是本综述中提出的关键点的总结。

轨迹建模方法

现有的用于检查轨迹模式方法和算法可以分为三种主要类型：非参数法、参数法和半参数法。非参数法不对数据的分布做任何假设，因此个体被分配到一个子类别是基于不相似程度。相比之下，参数法和半参数法假设数据来自有限的混合分布。因此，个体被分配到一个亚组是基于该亚组成员资格的条件概率。

潜类别建模方法

潜变量的使用起源于心理学和社会科学领域，用于建模未被观察到的量，例如发展轨迹。其在流行病学领域的应用相对较新。例如在疼痛研究中，潜变量越来越多地被用于建模疼痛严重程度（例如强度评分、干扰评分）。

潜类别模型是包括无法直接观察到的随机变量的统计模型，基于个体被观察到的症状或行为，将他们分配到潜在轨迹亚组中。每个亚组由在观察到的行为上有相对类似观察的个体组成。潜类别模型可以应用于纵向或横断面数据，能够处理包括部分缺失数据、离散量表重复测量或时间变化协变量等多种复杂情况。在纵向数据的潜类别模型方法中，为了正确估计，至少需要三个测量时间点，而为了估计涉及立方或二次趋势的更复杂模型，四到五个测量时间点更为理想。纵向潜在类别建模方法不是评估单个时间点或相邻时间点之间的变化，而是识别在整个研究期间具有相似结果模式的受试者子群。

本文论述了四种潜类别模型。三种适用于纵向数据：增长混合模型（GMM）、组轨迹模型（GBTM）和潜转换分析（LTA），而潜类别分析（LCA）适用于横断面数据。时常见到论文作者使用不恰当的术语来指代他们所使用的方法，因此非统计学研究者在选择合适的方法进行自己的研究时会面临困难。为了解决这个问题，本文概述了不同的潜在类别方法，并提供了使用这些统计方法的研究的具体示例，见表1。下面将详细介绍每种方法。

增长混合模型Growth Mixture Modelling (GMM)

1.介绍

GMM是一种有限混合模型。它假设在任何给定的人群中，存在有限数量的未观察到的亚群体或类别（潜在类别），这些类别具有相似的行为或经历。这与经典统计模型形成对比，传统模型假设所有个体都来自具有共同人群参数的同一人群。

GMM是一种用于纵向数据的参数模型，它为每个潜在类别估计一个平均增长曲线，并允许同一类别内部个体之间存在变异。通过在模型中引入随机效应，可以捕捉类别内的异质性，从而估计增长参数（截距和斜率）的方差。因此，随机效应用于表示个体潜在增长参数与人口平均增长参数之间的差异。

例如，在三个疼痛强度轨迹亚组（无改善、逐渐改善、快速改善）的情况下，GMM允许在这些亚组中的任何一个里，任何个体的疼痛强度都可以比同一亚组中的任何其他个体更强烈。对于每个轨迹，GMM估计一个截距、一个斜率以及一个增长参数的方差。这些参数是通过最大化对数似然函数来估计的。对于每个个体，基于观测数据估计其属于每个类别的概率（后验群体概率）。然后根据较高的后验群体概率将个体分配到对应的子轨迹中。

在GMM中，协变量（无论其是否随时间变化）的贡献也可以被建模。实际上，某个体属于某一潜类别的概率可能会根据协变量而变化，且协变量可以影响模型系数。一旦确定了轨迹成员身份，它可以被用作因变量或自变量来探索健康轨迹的预测因子及其对未来健康结果的贡献。

2.适用数据类型

GMM用于纵向数据，最初是为研究连续数据而开发的。但后来，它被改进以处理其他类型的数据，比如计数数据（无论是否存在零膨胀）和分类数据。

3.操作步骤

GMM可以通过迭代程序实施，其实施需要基于研究领域的知识以及统计推断来做出先验决策。

第一步：问题定义和轨迹亚组数量的规定

首先，研究领域与方法之间的联系被正式建立。其次，制定一个合适的分析计划。基于研究者对该领域的了解和对原始数据的描述性分析，假设潜在类别的预期数量和每个类别的曲线形态。例如，我们可以预期，接受手术的患者将遵循各种术后疼痛强度的轨迹（轻度、中度或重度疼痛，随后是疼痛的改善或持续）。

第二步：模型规范

在这一步中，可以指定和估计一系列模型。研究人员可能会就增长参数（截距、斜率方差和协方差）以及协变量的添加做出决策。应尽可能采取实质性理论和先前的研究指导这些决策。例如，如果研究人员预期有三个潜在类别，他们可以开始拟合两个、三个和四个类别的模型，决定决定每个轨迹随时间变化的形状应该是线性的、二次的还是三次的，还应决定增长因子方差是否应该对每个类别具体化，类内增长因子协方差是否应该不为零，以及结果残差方差是否应该与类别无关。Frankfurt等（2016）强调正确规定模型以避免基于解释的陷阱的重要性。此外，正确的模型规范能够降低GMM结果解释的复杂性。

第三步：模型估计

GMM可以通过最大似然法或贝叶斯方法估计。

第四步：模型选择与解释

本步骤的目的是确定测试的模型哪一个最能合理地代表观测到的数据。应通过LoMendell-Rubin调整似然比测试（LMR-LRT，p

【本文地址】

各类轨迹建模技术如何使用？适用数据、步骤及规范，一文讲清楚

各类轨迹建模技术如何使用？适用数据、步骤及规范，一文讲清楚

今日新闻

推荐新闻