首页 > 代码库 > 动作识别之李群
动作识别之李群
Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group
In this paper, we propose a new skeletal representation that explicitly models the 3D geometric relationships between various body parts using rotations and translations in 3D space.
Since 3D rigid body motions are members of the special Euclidean group SE(3), the proposed skeletal representation lies in the Lie group SE(3): : :SE(3), which is a curved manifold. Using the proposed representation, human actions can be modeled as curves in this Lie group. Since classification of curves in this Lie group is not an easy task, we map the action curves from the Lie group to its Lie algebra, which is a vector space. We then perform classification using a combination of dynamic time warping, Fourier temporal pyramid representation and linear SVM.
以局部而达全局——这就是流形(manifold)的思想,而其则根源于拓扑学
从拓扑学的角度说,流形就是一个非常优良的拓扑空间:符合Hausdorff分离公理(任何不同的两点都可以通过不相交的邻域分离),符合第二可数公理(具有可数的拓扑基),并且更重要的是,局部同胚于R^n。因此,一个正则(Regular)流形基本就具有了各种最良好的拓扑特性。而局部同胚于R^n,代表了它至少在局部上可以继承R^n的各种结构,比如线性运算和内积,从而建立分析体系。事实上,拓扑流形继承这些结构后形成的体系,正是现代流形理论研究的重点。继承了分析体系的流形,就形成了微分流形(Differential manifold),这是现代微分几何的核心。而微分流形各点上的切空间(Tangent Space),则获得了线性运算的体系。而进一步继承了局部内积结构的流形,则形成黎曼流形(Riemann manifold),而流形的全局度量体系——测地距离(geodesics)正是通过对局部度量的延伸来获得。进一步的,当流行本身的拓扑结构和切空间上的线性结构发生关系——也就获得一簇拓扑关联的线性空间——向量丛(Vector bundle)。
流形补充
流形(Manifold),一般可以认为是局部具有欧氏空间性质的空间。而实际上欧氏空间就是流形最简单的实例。像地球表面这样的球面是一个稍为复杂的例子。一般的流形可以通过把许多平直的片折弯并粘连而成。
如果把几何形体的拓扑结构看作是完全柔软的,因为所有变形(同胚)会保持拓扑结构不变,而把解析簇看作是硬的,因为整体的结构都是固定的(譬如一个1维多项式,如果你知道(0,1)区间的取值,则整个实属范围的值都是固定的,局部的扰动会导致全局的变化),那么我们可以把光滑流形看作是介于两者之间的形体,其无穷小的结构是硬的,而整体结构是软的。这也许是中文译名流形的原因(整体的形态可以流动),该译名由著名数学家和数学教育学家江泽涵引入。这样,流形的硬度使它能够容纳微分结构,而它的软度使得它可以作为很多需要独立的局部扰动的数学和物理上的模型。
最容易定义的流形是拓扑流形,它局部看起来象一些"普通"的欧氏空间Rn。形式化的讲,一个拓扑流形是一个局部同胚于一个欧氏空间的拓扑空间。这表示每个点有一个领域,它有一个同胚(连续双射其逆也连续)将它映射到Rn。这些同胚是流形的坐标图。通常附加的技术性假设被加在该拓扑空间上,以排除病态的情形。可以根据需要要求空间是豪斯朵夫的并且第二可数。
流形在某一点的维度就是该点映射到的欧氏空间图的维度(定义中的数字n)。连通流形中的所有点有相同的维度。
如果流形上的局部坐标图之间的坐标变换是光滑的,就可以在该流形上讨论方向,切空间,和可微函数。特别是,可以在微分流形上应用“微积分”。这时我们说流形上被赋予了一个微分结构。带有微分结构的流形叫做微分流形。
和一般的降维分析一样,流形学习把一组在高维空间中的数据在低维空间中重新表示。和以往方法不同的是,在流形学习中有一个假设,就是所处理的数据采样于一个潜在的流形上,或是说对于这组数据存在一个潜在的流形。对于不同的方法,对于流形性质的要求各不相同,这也就产生了在流形假设下的各种不同性质的假设,比如在Laplacian Eigenmaps中要假设这个流形是紧致黎曼流形等。对于描述流形上的点,我们要用坐标,而流形上本身是没有坐标的,所以为了表示流形上的点,必须把流形放入外围空间(ambient space)中,那末流形上的点就可以用外围空间的坐标来表示。比如R^3中的球面是个2维的曲面,因为球面上只有两个自由度,但是球面上的点一般是用外围R^3空间中的坐标表示的,所以我们看到的R^3中球面上的点有3个数来表示的。当然球面还有柱坐标球坐标等表示。对于R^3中的球面来说,那末流形学习可以粗略的概括为给出R^3中的表示,在保持球面上点某些几何性质的条件下,找出找到一组对应的内蕴坐标(intrinsic coordinate)表示,显然这个表示应该是两维的,因为球面的维数是两维的。这个过程也叫参数化(parameterization)。直观上来说,就是把这个球面尽量好的展开在通过原点的平面上。在PAMI中,这样的低维表示也叫内蕴特征(intrinsic feature)。一般外围空间的维数也叫观察维数,其表示也叫自然坐标(外围空间是欧式空间)表示,在统计中一般叫observation。
自从2000年以后,流形学习被认为属于非线性降维的一个分支。众所周知,引导这一领域迅速发展的是2000年Science杂志上的两篇文章: Isomap and LLE (Locally Linear Embedding)。
In this paper, we propose a new body part-based skeletal representation for action recognition.
Inspired by the observation that for human actions, the relative geometry between various body parts (though not directly connected by a joint) provides a more meaningful description than their absolute locations (clapping is more intuitively described using the relative geometry between the two hands),
Given two rigid body parts, their relative geometry can be described using the rotation and translation required to take one body part to the position and orientation of the other
Mathematically, rigid body rotations and translations in 3D space are members of the special Euclidean group SE(3) ,which is a matrix Lie group. Hence, we represent the relative geometry between a pair of body parts as a point in SE(3), and the entire human skeleton as a point in the Lie group SE(3) : : : SE(3), where denotes the direct product between Lie groups.
With the proposed skeletal representation, human actions can be modeled as curves (figure 1) in the Lie group SE(3) : : : SE(3), and action recognition can be performed by classifying these curves. Note that the Lie group SE(3) : : : SE(3) is a curved manifold and classification of curves in this space is not a trivial task. Moreover, standard classification approaches like SVM and temporal modeling approaches like Fourier analysis are not directly applicable to this curved space. To overcome these difficulties, we map the action curves from SE(3) : : : SE(3) to its Lie algebra se(3) : : : se(3), which is the tangent space at the identity element of the group.
To handle rate variations, for each action category, we compute a nominal curve using dynamic time warping (DTW) , and warp all the curves to this nominal curve. To handle the temporal misalignment and noise issues, we represent the warped curves using the Fourier temporal pyramid (FTP) representation
Final classification is performed using FTP and a linear SVM classifier.
The local coordinate system of body part en is obtained by rotating (with minimum rotation) and translating the global coordinate system such that en1 becomes the origin and en
coincides with the x-axis (refer to figure 3(a)).
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。