Human Pose Estimation Literature Review

【导读】:本综述将会以时间顺序总结一些基于 Deep Learning 的人体姿态估计 (Human Pose Estimation) 有代表意义的论文。这些文章最早从 Google 提出的 DeepPose 开始,代表了 Pose Estimation 领域的发展。

2D Human Pose Estimation

What is Human Pose Estimation?

  • Human Pose Estimation 主要是在图像或视频中检测估计人体的一些关键点(例如,关节,五官等)的问题。它也可以被定义成在所有关节姿势的空间中搜索特定姿势的问题。
  • 2D Pose Estimation - 从图像中估计2D姿态(关键点)坐标,即 2D pose (x,y) coordinates。
  • 3D Pose Estimation - 估计出关键点的3D坐标,即Estimate a 3D pose (x,y,z) coordinates a RGB image.

2D (keypoints input) to 3D pose estimation example

  • 3D mesh (shap) estimation - 从图像中估计object的shape,例如数据集DensePose

DensePose Results: 3D shape estimation

  • 应用 - Human Pose Estimation 有很多应用,主要被用于 Action recognition, Animation, Gaming, Gait recognition 等等。具体的应用场景集中在在智能视频监控,病人监护系统,人机交互,虚拟现实,人体动画,智能家居,智能安防,运动员辅助训练等等。

    • 例如:HomeCourt 使用 Pose Estimation 去分析篮球运动员的运动。
  • Why is it hard? - 由于人体具有相当的柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响非常大,而且还面临着遮挡、光照、雾等环境的影响,除此之外,2D人体关键点和3D人体关键点在视觉上会有明显的差异,身体不同部位都会有视觉上缩短的效果(foreshortening),使得人体骨骼关键点检测成为计算机视觉领域中一个极具挑战性的课题。

Relevant Datasets

2D Datasets

  • LSP(Leeds Sports Pose Dataset) - 单人人体关键点检测数据集,关键点个数为14,样本数2K,在目前的研究中基本上被弃用;[url]
  • FLIC(Frames Labeled In Cinema) - 单人人体关键点检测数据集,关键点个数为9,样本数2W,在目前的研究中基本上被弃用;[url]
  • MPII Human Pose dataset - 单人/多人人体关键点检测数据集,关键点个数为16,样本数25K,40K People,410 human activities,全身。 [url]
  • MSCOCO - 多人,全身数据集。关键点个数为17,样本数多于300K,目前的相关研究基本上还需要在该数据集上进行验证;[url]
  • AI Challenger - 多人,全身数据集。关键点:17,样本数约380K(210K Training, 30K Validation, 30K Testing).[url]
  • PoseTrack[url] - 多人,全身视频数据集。关键点:15,主要用于多人姿态估计和姿态追(Multi-person Pose Tracking),数据集:
    • $>$ 1356 video sequences,
    • $>$ 46K annotated video frames
    • $>$ 276K body pose annotations
  • VGG Human Pose Estimation datasets - 单人,上半身视频数据集。[url]

3D Datasets

Why is it hard?

Strong articulations, small and barely visible joints, occlusions, clothing, and lighting changes make this a difficult problem.


