MMlab实验室AI实战营

您所在的位置：网站首页 › 姿态估计和姿态识别的区别 › MMlab实验室AI实战营

MMlab实验室AI实战营

2023-06-08 15:54| 来源: 网络整理| 查看: 265

定义：从给定的图像中识别人脸、手部、身体等关键点

在三维空间中还原人体状态，

从图像中恢复人体3D模型、

基于人体姿态进行动作识别、

下游任务：CG、动画、人机交互（手势识别）、动物行为分析

2D姿态估计

在图像上定位人体关键点的坐标

->可以建模成一个回归问题，让模型直接回归关键点坐标

问题：深度模型直接回归坐标有困难，精度不是最优的

->不直接回归关键点坐标，而是预测关键点位于每个位置的概率

$$ Hj（xj，yj）=1 $$

H称为热力图，尺寸与原图 I 相同或者按比例缩小

热力图可以给予原始关键点坐标生产，作为训练网络的监督信息

网络预测的热力图也可以通过求极大值等方法得到关键点的坐标

why：模型预测热力图比直接回归坐标相对容易，模型精度相对更高，但是计算消耗大于直接回归

问题：如何从第j个关键点的热力图中还原出关键点的位置？

优点：可以微分，连续，没有量化误差

自顶向下方法

基于回归的自定向下方法

step1：使用目标检测算法检测出每个人体

step2：基于单人图像估计每个人的姿态

整体精度受限于检测器的精度；速度和计算量会正比于人数；一些新工作考虑将两个阶段聚合成一个阶段

deepPose（2014）

以分类网络为基础，将最后一层分类改成回归，一次预测所有J个关键点坐标，通过最小化平方误差训练网络。

第一步：以全身图像为输入，预测关键点坐标，位置精度比较低

第二步：以预测点为中心，裁剪局部图像送入第二级网络，再次回归该点坐标，提升精度

可级联多级

优势：理论精度是无限的，不需要维持高分辨率特征图

劣势：很长一段时间内精度弱于热力图

核心思路：对关键点的位置进行更准确的概率建模，从而提高位置预测的精度

经典回归范式、RLE的范式-简单的将高斯分布替换成一个可学习的、表达能力更强的分布

RLE的目标是建模关键点位置的概率分布，为了降低难度假设所有关键点分布同一个位置的尺度族。

基于热力图的自顶向下-hourglass

设计思路：准去的姿态估计需要结合不同尺度的信息：局部信息（检测不同的身体组件）、全局信息（建模组件之间的关系，在大尺度变形、遮挡时也可以准确推断出姿态）

局部的信息包含的信息是有限的，网络需要组合不同尺度的输入信息进行推断

级联hourglass模块

短模块级联以及在中间添加监督信号总体来说能得到更好的效果

Simple Baseline

核心思路：在下采样时，通过保留原分辨率分支来保持网络全过程特征图的高分辨率与空间位置信息，并设计了独特的网络结构实现不同分辨率的多尺度特征融合。

自底向下方法

step1：使用关键点模型检测出所有人体关键点

step2：基于位置关系或其他辅助信息将关键点组合成不同的人

优点：推理速度和人数无关

Part Affinity Field & Open Pose

基本思路：基于图像同时预测关节位置和四肢走向，利用肢体走向辅助关键点的聚类，即如果某两个关键点由某段肢体相连，则这两个关键点属于同一个人

关键点与肢体预测：可以使用向量标明肢体

肢体定义的关键点亲和度：如果两个关键点有某段肢体相连，二者亲和度高，很可能属于同一个人

单阶段方法

一步实现

SPM

速度快，可以从2D图像推广到3D图像的人体姿态估计

SRP

引入关节、根关节表示人员实例位置，是唯一标志关节

Hierarchical SRP

在SRP基础上，根据自由度和变形程度将根关节和身体关键划分四个层次

第一级：根关节；第二级：劲、肩、臀；

第三级：头、肘、漆；第四级：手腕、脚踝

基于Transformer的方法

PRTR

让query逐渐聚焦到特地给人体关键节点上

两阶段的算法：人体检测阶段，使用DETR检测出图中的不同的人；关键点检测阶段，同样使用DETR结构，不同的是query学习关键点信息，最终回归关键位置。

两个阶段的检测共用了一个图像特征网络，设计了Spatial Transform Network(STN)模块，从完整的特征图中裁剪出单人对应的图像特征，用于后续关键点检测。

TokenPose

将视觉token和关键点token一起送入encoder可以同时从图像中学习外观视觉表现和关键点间的约束关系。

3D人体姿态估计

任务描述：通过给定的图像预测人体关键点在三维空间中的坐标，可以在三维空间中还原人体姿态

绝对坐标：各关节点在相机坐标系中的坐标；相对坐标：关键点相对于骨盆点(pelvis)的坐标

难点：3D信息从何而来

思路1：直接基于2D图像回归3D坐标，但是2D图像不包含深度

思路2：利用视频来获取更多的帧间信息辅助推断

思路3：多视角

Coarse-to-Fine Volumetric Prediction

基本思路：单张图片输入卷积网络，预测3D热力图

Simple Baseline 3D

直接用2D坐标预测3D坐标就可以取得比较好的效果，不需要借助图像

Video Pose 3D

基本思路：基于单帧图像预测2D关键点，在基于多帧2D关键点预测3D关键点位置

Voxel Pose

多视角图像

评估指标

Percentage of Correct Parts（PCP）

PCP以肢体的检出率作为评价指标；考虑每个人的左右大臂、小臂、大腿、小腿共8个肢体；如果两个预测关节位置和真实肢体关节位置之间的距离小于等于肢体长度的一半，则认为肢体已经检测到并且是正确的部分。

Percentage of Detected Joints（PDJ）

通常考虑头、肩、肘、腕、臀、膝、踝几个关键点，如果预测关节和真实关节之间的距离在某个比例范围内，则认为检测到了关节。并且可以可以通过改变该比例，可以获得不同程度的定位精度的检测率。

Percentage of Correct Key-points（PCK）

以关节点的检测精度作为评价指标；如果预测关节和真实关节之间的距离在某一个阈值内，则认为检测到的关键点是正确的；在2D&3D任务中均可使用。

Object Keypoint Similarity（OKS）based mAP

以关键点相似度（OKS）作为评价指标计算mAP--一个精妙的计算公式。

DesenPose

人体表面参数化：将人体表面分为24个部分，并将每个部分参数化至同样的大小（256*256）的UV平面

标注方法：标注各身体部分的区域后，在每一个部分等距采样至多14个点，并对应到3D人体上，用以训练。

网络结构：Mask-RCNN + DenseReg = DensePose-RCNN；先进行前景与背景的预测，在进行人体每部分的精确回归。

身体表面网格（body mesh）

多边形（三角形或者四边形）网格组成构建的人体表面模型，通常有具有3D位置坐标的顶点（Vertices）来定义

混合蒙皮技术（Blend Skinning）

混合蒙皮技术是一种使身体表面网格（Body mesh）随内在骨骼结构形变的方法。当骨骼发生变化时，特定关节点的位置变化对人体表面不同顶点（Vertex）的位置变化有不同影响，在混合蒙皮技术里，这种影响是由不同的权重实现的。

两种常见的混合蒙皮技术：

LBS（Liner Blend Skinning）线性技术蒙皮

DQBS（Dual-Quanternions Blend Skinning）双四元数混合蒙皮

SMPL人体参数化模型

将人体模型建成N=6890个顶点与K=23个关节为基础的身体表面网络，并设计了形态参数和姿态参数来控制人体的变化

人体姿态约束

人体姿态约束1：使用CMU数据集训练得来的训练姿态进行先验

人体姿态约束2：用于惩罚肘部和膝部的不自然的弯曲

人体姿态约束3：胶囊近似带来的穿模惩罚

【本文地址】

MMlab实验室AI实战营

MMlab实验室AI实战营

今日新闻

推荐新闻