动作识别与行为理解综述

第１４卷第２期２００９年２月

中国图象图形学报

ＪｏｕｒｎａｌｏｆＩｍａｇｅａｎｄＧｒａｐｈｉｃｓ

Ｖ０１．１４．Ｎｏ．２

Ｆｅｂ．，２００９

动作识别与行为理解综述

徐光祜

曹媛媛

（清华大学计算机科学与技术系普适计算教育部重点实验室，北京１０００８４）

摘要随着“以人为中心计算”的兴起和生活中不断涌现的新应用，动作识别和行为理解逐渐成为计算机视觉领域的研究热点。主要从视觉处理的角度分析了动作识别和行为理解的研究现状．从行为的定义、运动特征提取和动作表示以及行为理解的推理方法３个方面对目前的工作做了分析和比较，并且指出了目前这些工作面ｌ临的难题和今后的研究方向。

关键词

以人为中心计算动作识别行为理解

文献标识码：Ａ

文章编号：１００６—８９６１（２００９）０２．０１８９．０７

中图法分类号：ＴＰ３９１

ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｃｔｉｖｉｔｙＵｎｄｅｒｓｔａｎｄｉｎｇ：ＡＲｅｖｉｅｗ

ＸＵＧｕａｎｇ－ｙｏｕ，ＣＡＯＹｕａｎ－ｙｕａｎ

ｏｆＥｄｕｃａｔｉｏｎ．Ｄｅｐａｒｔｍｅｎｔｏ／ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ

（ＫｅｙＬａｂｏｒａｔｏｒｙ

ｏｆ№沁Ｃｏｍｐｕｔｉｎｇ。Ｍｉｎｉｓｔｒｙ

Ｔｓｉｎｇｈｕａ

Ｕｎｉｔｅｒｓ盼，Ｂｅｉｊｉａｇ１０００８４）

ＡｂｓｔｒａｃｔＡｓ

ｔｈｅ“Ｈｕｍａｎ—ｃｅｎｔｅｒｅｄｃｏｍｐｕｔｉｎｇ”ｉｓｇｅｔｔｉｎｇｍｏｒｅｐｏｐｕｌａｒａｎｄｎｏｖｅｌａｐｐｌｉｃａｔｉｏｎｓ

８ｒｅ

ａｌｅ

ｅｖｏｌｖｉｔｌｇ，ａｃｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎａｎｄａｃｔｉｖｉｔｙｕｎｄｅｒｓｔａｎｄｉｎｇｓｔａｔｅ—ｏｆ－ｔｈｅ—ａｒｔｗｏｒｋ

ｏｎ

ａｔｔｒａｃｔｉｎｇｒｅｓｅａｒｃｈｅｒｓｉｎｔｈｅｆｉｅｌｄ

ａｎａｌｙｓｉｓｗｉｔｈ

ｆｏｃｕｓ

Ｏｉｌ

ｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｒｅｖｉｅｗｔｈｅ

ｍｏｔｉｏｎ

ａｃｔｉｏｎａｎｄａｃｔｉｖｉｔｙｔｈｒｅｅｐａｒｔｓ：Ｄｅｆｉｎｉｔｉｏｎｏｆａｃｔｉｖｉｔｙ，ｌｏｗ・ｌｅｖｅｌ

ｆｅａｔｕｒｅｓｅｘｔｒａｃｔｉｏｎａｎｄａｃｔｉｏｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ，‘ａｎｄｒｅａｓｏｎｉｎｇｍｅｔｈｏｄｆｏｒａｃｔｉｖｉｔｙｕｎｄｅｒｓｔａｎｄｉｎｇ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｏｐｅｎｐｒｏｂｌｅｍｓｆｏｒｆｕｔｕｒｅｒｅｓｅａｒｃｈａｎｄｐｏｔｅｎｔｉａｌｄｉｒｅｃｔｉｏｎｓ“ｅｄｉｓｃｕｓｓｅｄ．Ｋｅｙｗｏｒｄｓ

ｈｕｍａｎ・ｃｅｎｔｅｒｅｄｃｏｍｐｕｔｉｎｇ，ａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ，ａｃｔｉｖｉｔｙｕｎｄｅｒｓｔａｎｄｉｎｇ

度上就需要依靠视觉系统。此外，视觉传感器体积

引言

小、被动性和非接触式的特点，使得视觉传感器和视觉信息系统具备了无所不在的前提。近年来，在对计算机视觉提出的层出不穷的新要求中，行为理解是一个具有挑战性的新课题，在诸如智能家居，老年人看护，智能会议室等应用中都起着至关重要的作用。它要解决的问题是根据来自传感器（摄像机）的原始图像（包括图像序列）数据，通过视觉信息的处理和分析，识别人体的动作，并在上下境信息的指导下，理解人体动作的目的、所传递的语义信息。行为理解作为近几年开始兴起的研究，正在逐渐获得越来越多的关注。

计算正渗透和影响到人们生活的各个方面，根据传感器数据来识别和理解人的动作和行为就成为未来“以人为中心的计算”中的关键…。其中基于视觉的动作识别和行为理解尤为重要。因为在人之问的人际交互过程中，视觉是最重要的信息。可以帮助人们迅速获得一些关键特征和事实，如对方的表情、手势、体态和关注点等，这些视觉线索综合起来反映了对方的态度，潜在意图和情绪等信息。未来人机交互和监控中，机器要感知人的意图很大程

基金项目：国家自然科学基金项目（６０６７３１８９）收稿Ｅｔ期：２００８－１ｌ－２８；改回日期：２００８．１２．０３第一作者简介：徐光丰占（１９４０一

），男。教授。博士生导师。ＩＥＥＥ高级会员，ＣＣＦ会员。主要研究领域为计算机视觉。人机交互．普适计算

技术。Ｅ－ｍａｉｌ：ｘｇｙ・ｄｅｓ＠ｍａｉｌ．ｔｓｉｎｇｈｕａ．ｅｄｕ．∞

万方数据　

中阐嬲象图形学报第１４卷

久律检测、定位後及天体的黧要部分（头罄，警等）的检测，识别和跟踪是人体彳子为理解的基础，铉解决这些基本问题的基础上，更骥要也更困难的问题就是动作识别和行为理解。对动作识别的研究Ｗ以追溯餮约整纪丸十年代。２００２年，相关磅究的论文数量经历了一个飞跃式酶燎长，这些骚究大多假设是在结构化环境和孤立动作条件下。所谓的络构化环境就是预先设定和可人为控制的环境，例如，用于计算机输入的手势识别，这时视觉数据采集的光照、巍受、距离等因素都是固定竣毫知豹。这就为改善视觉处瑗的脆弱性撵供了凑稠条件。僵与麓两时，也带来了很大的局限性。例如，基于生理特征的生物特征识别，目前的方法只适合于愿意在规定环境下给予系统配合的合作对象。与此相对，能在囱然环境下，基予爨兔特薤熬生物特薤识囊就更努溺滩，但它其有容秘被对象接受，藏不易被察觉的傀点。对于各种目的的视觉监控来说，能工作在自然环境下，至关堂鼷。例如，为帮助悠人延长独立生活或改善生活质摄的视觉监控和提涿，都需要能在港入生活戆瑟常群境据龚穗应戆骚务。近年来，对嚣常生活和工作申动作和行为的褒解正成为热点。这是所谓的“日常活动”（ＡＤＬ）的分析和理解。由下人们在日常生溪环境中的动作是自然和连续的，瓶恳与环境有密切豹联系，困就，给谈剐秘理解带来一系秀具有瓣酸瞧豹难题：（１）分奄式褫觉信意楚蘧方法和系统。通过多摄像视信息的融合来克服由予视角、距离、遮撼、光照等多种环境因素带来的干扰和不确定性是有效但也是富肖挑战性的课题；（２）自然连续动｛罄稳行势豹分割及多层次模型。人类豹习鬻活动程籽力是天蒋鸯然瓣连续的费裕，蕊中包含了多种类型的运动和动作：无意识的人体移动，为了操作物体的动作，以及为了进行相互交流，例如打招呼的动作和姿态。此外复杂的人类活动朔蟹为是由一系翔瀵佟或操终缰成豹。系统彩在一令多层次酶模型籀群下对人体动俸进行分割襄分类。而分割和分类叉滞要有来自对动作和行为理解的商层模型指导；（３）基于上下境的行为理解。对动作翔行为的理解器要了解当时视觉环境以及应用的情境。这毯就是羧溪豹要具有“踅察上下境”或基予上下境的视觉处理和分析方法。闲为裙阕的动终在不同的情境下传递不同语义。上下境的指导作用体现在以下２方面：①在现实的视场中可能需要处理的视觉对象秘锻务菲常多，丽计算资源是有限的。

万　

方数据琵外还毒窦时经逢豹要求。这时必须鬏据主下凌来

确定视觉处理的关注点；②在上下境的指导下对动

作传递的语义进行推理。

行为理解的研究包含着从底层到高层的多胺处理。癌绥处理中豹人体筱测秘跟踪、动捧识剃、乎势谖裘穰鞔避分析等已经有了较多豹研究翻综述。嚣高层的处理方法，如对行为的建模、上下境在行为推理中的指导簿研究还在起步阶段。

２行为理解的研究现状

如引富中所述，行为理解包含了从底层处理到高层推理的垒过程，涉及底艨遁动特征的提取和表示、行为的袭示方法，以及高层行为语义的推理模型。下嚣瓣综述善先姨行势戆定义秀始，熬震亭萼论特征提取穰动作表示，最蓐分析常觅的冗释簿势推理模型。

２．１行为袭示的模型

目前对鼍：行为的表示还没有一个通用的模避，大部努懿磁究都是铮露特定瓣潼爨采矮菜静簿为表示模型，最常觅的是分层结构模型，丽各个层次凌示的内容取决于应用的需要。人体的行为就其目的ｉ丽言可大致分为：（１）与环境交飘。例如对物体的操作；Ｍｏｅｓｌｕｎｄ等人提出了ａｃｔｉｏｎ／ｍｏｔｏｒ

ｐｒｉｍｉｔｉｖｅｓ，

ａｃｔｉｏｎｓ。ａｎｄ

ａｃｔｉｖｉｔｉｅｓ戆分篡模受臻’。在Ｐａｒｋ等久

提出的驾驶攒动作的表示模型中＂’，底层为身体菜个部位的运动，如头转动，躯干前移，伸胳膊等。中间层是由底胺各部位的运动组合而成的一个复杂动终。最高壤为人与弱围设备的交互动律，鄙驾驶爱霹汽车郝终鲢搡佟动传，熬蠢左转动方舞盘。（２）人际交麓。Ａｇｇａｒｗａｌ等人在２入交互的分析中Ｈ］。把交飘行为分为３个屡次。最高层是交赢行为；中间层为擎个人体的动作；最底层是对身体巢个都分运动戆撩溯程蓼｛别。群＿俸交互，铡魏会议塞场景更是需餮多层次懿表示峰。。关于行为麴分滋表示方法还可参考旺４’６。们。其中特别需要注意的是ＧｏｎｚＭｅｚ等人在动作－行为的屡次表示中增加了情境＂】。情境研认为是最高层的上下境，它用于解决舞鸯理薅秘毁义翔题。毙魏撵芋这个秀佟在“跫球赛”拳ｌ“绝铁站”这两种情境孛显然是有不溺懿含义。

综上所述，分层模型已经成为研究者们公认的一弛行为的裳示方法，只是在不同的研究背景翔援

第２期徐光裕等：动作识别与行为理解综述

１９ｌ

务下，屡次的数量和每个层次的定义各不耀阍。得弼较多认鞭的表示模型大致包括如下几个撩次：运动，动穆，涟麓或揉箨，爨秀。这些垂次大致怒按照时阕戆必发来进行分篝黪。餐这襻酶分滋努法在复杂的情况下，有时显得无能先力。更海蜜埔的是按照任务过程进行分解。例如，老人在厨房巾的做饭活动，它可分为取食品、处理食材、烹锰、上橥等过程。其中每个步骤，又可进一步分解，例如，烹饪又

可按巢谱分为若干步骤。这样的分解是成用导向

的。作为一个表示模型除了定义各层表永的含义以外还辫黉定义它们之间的关系和远行机制。Ｃｒｏｗｌｅｙ等人摄出了谤境鼹终懿运行撼絮¨“。Ｄａｉ等人撵斑了一个基子多瑟次“主下境．察搏”酶模型＂。，试必符为豹层次结褥中，上嫠酶褥游靛是节屡动作定义的环境，所以就称为上下境。它定义了什么魑下层中发生的有意义的动作，即事件。相邻层次龙间的“上下境一事件”关系可递归地惩伸到所有的层次。所以，这个模型具有通用性。２．２遮湖特征的提取和动作表示

视觉域者其他底层运动特征的提取和液泳楚进行高屡行魏理殡的推理所登霉的基础工佟。较晕舞媲豹黠漤露行为分爨豹工作疆多是采矮主动传感器来获褥入俗菜个部位熬运动信意”“婚１。这类工终主耍燕遴避入体的透胶或躯干鬣戴觞备辩健慧器来获取该部位的运动特征，然后分析动作行为，由于当前以人为中心的计算强调用户感觉自然，嵌入式的传感器破坏了用户的感受，给用户的行动造成不便，因此，目前越来越多的研究开始转向用摄像机这种非嵌入式被动的传感器获取人体的动作特攮。

基予视觉熬动捧表示按特征豹性质太致搿以分隽嚣类，一类是３维特薤，勇一类是２维嚣像褥鬣。３维特缝本身其有褫角不交牲。逶震予分穆筑裰觉系统下的动作体态表示。Ｃａｍｐｂｅｌｌ等人掇魄了基手立体视觉数据的３维手势识别系统¨”。Ｊｉｎ等人建立了麓带３维模型的动作识别系统¨”。３维模型通常参数多，训练复杂，计算量大。如果是撼乎立体视觉的原理还可能要遇到匹配中的对应性网难。相比之下，撼子２维图像特征的表示计算相对简单。适用予褫热棚对圈定静情况。下面具体介缨一些麓予２缝褥鬣憋动作表示。

Ｌｉｕ等入冀鼹坐、菇、缝踅个Ｅｔ雾生溪巾藏薹零戆动俸傲了分析¨“。计算了前景区域每个像素的

万　

方数据距离投影

譬

簟

，

ＤＰ＝｛∑（搿一致）２，∑（矿一毪）２；（１）

’ｌ＝１

ｉｚｌ

’

式中，∥帮矿表示麓黎像豢在承平和竖直方囱上的坐标，露。和Ｋ表示髓辩中点的坐标，厝是前景像素点的个数。每一个动作都用距离投影的高斯分布来表示。这种特征抽取方法是视角相关的，文中使用了与人体朝向成９０。的固定视角。这个视角上最容

易抽取出区分度大的人体形状特征。

Ｎｉｅｂｌｅｓ等人把每个动作的一系列视频帧都看作是一组特征描述溺的集会ｍ】，特薤接述词通过提黎爵空兴趣赢褥蓟。定义穗瘦錾数黧下：

Ｒ＝（ｆ辜ｇ

８

ｈ。。）２＋（ｆ毒ｇ幸ｈ耐＞２

（２）

式中，ｇ（ｘ，Ｙ，盯）是２雄嵩斯平滑核函数，应用在空间维度上，矗。，和Ｉ｜ｌ“都怒１维Ｇａｂｏｒ滤波器，分别定义为ｈ。，（ｔ；丁，∞）；一ｃｏｓ（２，ｔｒｔｗ）ｅ一“”和ｈ“（ｔ；ｒ，甜）＝一ｓｉｎ（２１ｒｔｔｏ）ｅ。”一并逡用在时间维度上。一般情况下，复杂动作发生的聪域会产生较大的响应，局部响应最大的点作为必趣点。芽用梯度或者光流来播述。

Ｐａｒｋ等入震多惑凝涎会楱登表示久俸５个主要部分（夹、脸、貉薅、躯干耨下身）的颜色分布弪’，著用椭圆拟合，Ｋａｌｍａｎ滤波器随时对参数进行更新。动态贝叶斯网络被用米检测动作和姿态，驾驶员行为被用一个表达式表示，表达式组成如下：｛ａｇｅｎｔ—ｍｏｔｉｏｎ—ｔａｒｇｅｔ｝，其中ａｇｅｎｔ表示动作实施者，如头、手等；ｍｏｔｉｏｎ表示动作；ｔａｒｇｅｔ表示驾驶室的操作仪器。

Ｃｈｕｎｇ等人用水警釉竖直方向上的一对投影来表示当前的体态∞ｑ；Ｒｏｂｅｒｔｓｏｎ等人采用了基于光滚戆动露獾述子来攒逡溯镩ｍｌ，继霞与撵本集孛样本逐个莲配来谖翔动依类鎏；Ｔｕｒａｇａ等久氇是提取

光流作炎每一狡中动臻的特征∞’；Ｒｙｏｏ等人餍人

体外框的长、宽和中心点的坐标被作为特征Ⅲ’。Ｗａｎｇ等人在办公室霹常行为识别的研究中口纠对提取出的人体区域采用Ｒ变换＂“，提取动作形状，Ｒ变换具有尺寸和旋转不变性，可以应对人离摄像机距离不同造成的尺寸变化。

以上这些工作都怒农豳定视角下用２维运动特薤表示动撵。这融霹臻裔豢ｌ戆视受下观涌动捧，但氇隈裁了对象戆溪漤藏溅，使它难浚逶应实际应蔫的环境。现实生活巾，溉测对象活动范围较广，位置

中国图象图形学报第１４卷

变化大，导致视角多变；同时由于生活环境中的家具等也会对人体造成遮挡。因此。需要分布式视觉系统的支持，通过多摄像机信息的融合来克服由于视角多变，活动范围广以及遮挡带来的各种问题。这是富有挑战性的难题。

基于人体特征例如人头或四肢的运动特征将可简化信息融合和动作分析。Ｋｉｍ等人是在分布式环境下检测人体的躺、站、坐等简单动作旧“，通过自适应的背景相减得到前景区域，然后用椭圆拟合和ｏｍｅｇａ曲线头肩部检测算法检测头部，在任何时刻，所有的摄像机都会进行全部的底层处理，得到人体的高度，人体位置，头部位置。人体长宽比和手部的位置，一个专门的模块将负责从每个摄像机处理的结果进行人的匹配，并选出没有遮挡的处理结果作为行为理解的观测向量。再如Ｐａｒｋ等人在分布式视觉系统下研究两人交互的行为¨“，文中考虑到了视角对动作特征抽取带来的影响，因此，首先讨论了摄像机选择的问题。他根据不同摄像机得到的前景区域的离散度选择最佳视角，可以理解为选择像平面中两人距离最大的视角，因此，避免了遮挡问题。将分割出的人体区域在水平方向投影，计算得到人体的中轴，然后人体被按照一个指定参数分割为头，上身和下身３个部分。用ＨＳＶ颜色空间表示每个像素点，用混合高斯模型表示身体的３个部分。可以同时分析上身和腿部的动作。而在不同视角下检测人体特征本身也是一个困难的问题，这是这种方法需要付出的代价。

除了上述由于成像环境限制造成的困难以外，现实生活中的很多动作，例如厨房中的烹饪操作，很细微，难以单独依靠视觉来检测和识别。而动作所使用的工具或接触的物体将可提供关于动作明确的线索。因此，有学者提出了根据使用的物品来协助识别对象动作。如果知道装面包的容器被使用了，这往往比识别到人伸手拿东西这个动作蕴含更多的语义。ｗｕ等人将水壶、电话、果汁等３３个物品贴上电子标签（ＲＦＩＤ）啦”，并在用户的手腕上带上接收器。当用户使用某个物品时，接收器就会接收到该物品上电子标签发出的ＩＤ信号。通过对使用物品的分析能够识别出烧水，打电话，喝果汁等１６种行为。Ｗａｎｇ等人也类似地充分利用了关于“所使用物品”的“常识”对行为理解的指导意义睢８１，通过在物品上贴ＲＦＩＤ，手腕上带接收器来获得物品使用信息。

万　

方数据另外有一些工作Ⅲ。３¨认为人的轨迹甚至人在某个功能物体（如冰箱、沙发等）附近停留的时间可以用来解释人的行为，这样的假设就完全避开了复杂困难的动作分析以及传感器对人体造成的不便，在这类工作中，环境上下境信息和场景知识受到极大重视。成为进行行为理解推理所依赖的重要线索。２．３行为理解的推理方法

行为理解的推理中广泛采用了基于图模型的推理方法，如隐马尔科夫模型（ＨＭＭ），动态贝叶斯网络（ＤＢＮ），条件随机场（ＣＲＦ）等；也有的研究采用其他的推理方法，如文献［１４］使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类。文献［３２］、［３３］采用模板匹配的方法，将检测到的运动特征与训练好的样本逐个匹配，匹配的结果即为对行为识别的结果。文献［３１］使用了有限状态自动机，每个状态表示当前人体的位置，来对人的轨迹进行分类，识别异常事件。

在目前的行为分析领域中，ＨＭＭ是较常使用的

一种推理模型¨４矧。ＨＭＭ是一种有效的时变信号

处理方法，它隐含了对时间的校正，并提供了学习机制和识别能力。根据不同应用环境下行为的特性，很多研究对ＨＭＭ进行了适应性扩展，比如

ＨｉｅｒａｒｃｈｉｃａｌＨＭＭ，ＣｏｕｐｌｅｄＨＭＭｓ［３６】，Ｐａｒａｍｅｔｅｒｉｚｅｄ—

ＨＭＭｓ【３７１等。大部分的模型采用了分层的结构来对应行为的分层特性。文献［３８］在群体交互动作识别中采用两层ＨＭＭ模型，下层模型对群体中的个体进行动作识别，识别结果作为上层群体行为识别模型的观测。文献［３９］也采用了分层的模型分析行为，由３层在不同时间粒度上依次增加的ＨＭＭ组成。ＨＭＭ虽然是对时间序列建模的一种简单而有效的模型，但是当行为变得复杂或者在长时间尺度上存在相关性，就不满足马尔可夫假设拉“，同时考虑了行为的分层结构和状态的持续时间，提出了

Ｓ．ＨＳＭＭ（ｓｗｉｔｃｈｉｎｇｈｉｄｄｅｎｓｅｍｉ—ｍａｒｋＯＶ

ｍｏｄｅｌ），是

ＨＳＭＭ模型的两层扩展，底层表示了自动作及其持续时问，高层表示了一系列由底层自动作组成的行为。文中给出的实验结果证明了比ＨＳＭＭ和ＨＭＭ对行为具有更强的模型表示能力。

也有研究将ＤＢＮ引入到行为理解中Ⅲ４１。由于ＨＭＭ在一个时间片段上只有一个隐藏节点和一个观测节点，在一个时刻需要将所有的特征压缩到一个节点中。那么所需要的训练样本将是巨大的（相当于联合概率密度函数）；而ＤＢＮ在一个时间

第２期

徐光桔等：动作识别与行为理解综述

１９３

段上是任意结构的贝叶斯网络，可以包含有多个因果关系的节点，即用条件概率来形成联合概率，训练相对要简单，也给模型的设计提供了更大的灵活性，能够更准确地表达状态之间以及状态和观测之间真实的关系。但是设计起来要比ＨＭＭ复杂。文献［４３］对ＤＢＮ和分层的ＨＭＭ做了详细的比较并且给出了模型选择和表示时需要考虑的几个因素：（１）可用于训练和测试的数据；（２）变量被观测到的可能性；（３）数据之间的内在关系；（４）应用的复杂度。

也有些研究放弃了产生式模型而采用区分式模型来分析行为。文献［４４］首先采用了ＣＲＦ模型用于行为识别，考虑到ＨＭＭ最大的缺点就是输出独立性假设，导致不能考虑上下境的特征，限制了特征的选择。但是实际情况是，行为的当前状态往往与一个长的时间尺度上的观测存在相互的依赖，并且观测之间很可能不是相互独立的。ＣＲＦ不需要对

观测进行建模，因此，避免了独立性假设，并且可以满足状态与观测之间在长时间尺度上的交互。结合产生式模型和区分式模型的优势对行为理解进行推理将成为未来的研究方向。

３结语

以上对动作识别和行为理解的现状做了简要的综述，但就建立能在复杂的现实世界中提供有效服务的计算机视觉系统而言，还缺少了两个关键的部分，这就是：（１）如何从复杂的现场背景下快速，可靠地检测和识别人体（物体）。物体在现实世界中的位置和光照情况多种多样甚至还有遮挡，但人类还是能在混乱的场景中快速地榆测和识别各种物体。这是目前的机器视觉远未达到的能力。视觉认知，计算机视觉和认知神经科学的文献中有很多证据说明上下境信息极大地影响搜索和识别物体的效率¨。…。上下境的影响是多层次的，其中包括：语义层（例如，桌子与椅子经常出现在同一图像中）；空间构造层（例如，键盘一般是在显示器的下方）；姿态层（例如，椅子通常是朝向桌子；汽车一般是沿着道路方向停靠）等。研究还证明空间上下境可为场景预测中可能发生的动作提供有用的线索Ｈ“。总之。基于上下境的视觉关注机制是解决上述困难的关键；（２）上下境指导下的行为理解。生活中人体动作的语义不仅取决于本身的状态而且取决于场

万　

方数据景中其他人和物体的当前和历史的状态，也就是取决于上下境。相同的动作在不同的上下境中代表着不同的语义，在会议这样的群体交互场景下尤为突出怕１。例如，“举手”的动作，在“大会报告”的场景下，表示“希望提问”；在“会议表决”时表示决定的取向等。以上两个关键问题都涉及如何在视觉计算感知和利用中上下境信息。这也就是当前所谓的基于上下境的视觉和觉察上下境的视觉方法。从视觉处理的策略来说，目前大多数都是采用自底向上的，从局部到整体的方式，而基于上下境的视觉处理是采用自顶向下，从整体到局部的方式。这在一定程度上反映了人类视觉系统的处理方式。因此，这是重要的值得注意的研究方向。

参考文献ｌＲｅｆｅｒｅｎｃｅｓ）

１

ＡｌｅｊａｎｄｒｏＪ，ＤａｎｉｅｌＣ

Ｐ，ＮｉｎｕＳ，ｃｔ

ｏｆ．Ｈｕｍａｎ・ｃｅｎｔｅｒｅｄ

ｃｏｍｐｕｔｉｎｇ：

ｔｏｗａｒｄ

Ｂ

ｈｕｍａｎ

ｒｅｖｏｌｕｔｉｏｎ［Ｊ】．Ｃｏｍｐｕｔｅｒ，２００７，４０（５）：３０－３４．

２ＭｏｅｓｌｕｎｄＴＢ，Ｈｉｌｔｏｎ

Ａ，ＫｒｌｌｇｅｒＶ．Ａｓｕｒｖｅｙｏｆａｄｖａｎｃｅｓ

ｉｎｖｉｓｉｏｎ－ｂａｓｅｄｈｕｍａｎ

ｍｏｔｉｏｎｃａｐｔｕｒｅ

ａｎｄ

ａｎａｌｙｓｉｓ【Ｊ］．Ｃｏｍｐｕｔｅｒ

Ｖｉｓｉｏｎ

ａｎｄ

Ｉｍａｇｅ

Ｕｎｄｅｒｓｔａｎｄｉｎｇ，２００６，１０４（３）：９０・１２６．

３

ＰａｒｋＳ，Ｔｒｉｖｅｄｉ

Ｍ．Ｄｒｉｖｅｒａｃｔｉｖｉｔｙ

ａｎａｌｙｓｉｓｆｏｒｉｎｔｅＨｉｇｅｎｔｖｅｈｉｃｌｅｓ：

ｉｓｓｕｅｓ

ａｎｄｄｅｖｅｌｏｐｍｅｎｔ

ｆｒａｍｅｗｏｒｋ［Ａ】．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩＥＥＥ

ＩｎｔｅｌｌｉｇｅｎｔＶｅｈｉｃｌｅｓ

Ｓｙｍｐｏｓｉｕｍ［ｃ］，ＬｏｓＶｅｇａｓ，Ｎｅｖａｄａ，ＵＳＡ，

２００５：６４４－６４９．

４

ＡｇｇａｔｗａｌＪ

Ｋ，ＰａｒｋＳ．Ｈｕｍａｎｍｏｔｉｏｎ：ｍｏｄｅｌｉｎｇａｎｄ

ｒｅｃｏｇｎｉｔｉｏｎｏｆ

ａｃｔｉｏｎｓ

ａｎｄ

ｉｎｔｅｒａｃｔｉｏｎｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆＳｅｃｏｎｄ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｓｙｍｐｏｓｉｕｍ

ｏｎ

３ＤＤａｔａ

Ｐｒｏｃｅｓｓｉｎｇ，Ｖｉｓｕａｌｉｚａｔｉｏｎ

ａｎｄＴｒａｎｓｍｉｓｓｉｏｎ

［Ｃ］，Ｔｈｅｓｚａｌｏｎｉｋｉ，Ｇｒｅｅｃｅ，２００４：６４０－６４７．

５

Ｄａｉ

Ｐｅｎｇ．Ｔａｏ

Ｌｉｎ—ｍｉ。Ｘｕ

Ｇｕａｎｇ—ｙｏｕ．Ａｕｄｉｏ－ｖｉｓｕａｌｆｕｓｅｄｏｎｌｉｎｅ

ｃｏｎｔｅｘｔ

ａｎａｌｙｓｉｓ

ｔｏｗａｒｄ

ｓｍａｒｔｍｅｅｔｉｎｇ

ｒｏｏｍ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＵｂｉｑｕｉｔｏｕｓＩｎｔｅｎｉｇｅｎｃｅａｎｄＣｏｍｐｕｔｉｎｇ

［ｃ］，ＨａｎｇＫｏｎｇ，Ｃｈｉｎａ．２００７：１１・１３．

６

ＢｏｂｉｅｋＡ．Ｍｏｖｅｍｅｎｔ，ａｃｔｉｖｉｔｙ，ａｎｄａｃｔｉｏｎ；ｔｈｅｒｏｌｅｏｆｋｎｏｗｌｅｄｇｅ

ｉｎ

ｔｈｅｐｅｒｃｅｐｔｉｏｎ

ｏｆ

ｍｏｔｉｏｎ［．ＩＪ．Ｐｈｉｌｏｓｏｐｈｉｃａｌ

Ｔｒａｎｓａｃｔｉｏｎｓｏｆｔｈｅ

Ｒｏｙａｌ

Ｓｏｃｉｅｔｙ

ｏｆ

Ｌｏｎｄｏｎ，１９９７，３５２（１３５８）：１２５７—１２６５．７

Ｇｏｎｚ２ｄｅｚＪ，ＶａｒｏｎａＪ，ＲｏｃａＦ

Ｘ，ｅｔ村．ＡＳｐａｃｅｓ：ａｃｔｉｏｎｓｐａｃｅｓ

ｆｏｒ

ｒｅｃｏｇｎｉｔｉｏｎ

ａｎｄ

ｓｙｎｔｈｅｓｉｓ

ｏｆｈｕｍａｎ

ａｃｔｉｏｎｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐ

ｏｎ

ＡｒｔｉｃｕｌａｔｅｄＭｏｔｉｏｎ

ａｎｄＤｅｆｏｒｍａｂｌｅ

Ｏｂｊｅｃｔｓ

［Ｃ］，ＰａｌｍａｄｅＭａｌｌｏｒｃａ，Ｓｐａｉｎ，２００２：２１－２３．

８

ＪｅｎｋｉｎｓＯ

Ｃ，ＭａｔａｓｉｃＭ．Ｄｅｒｉｖｉｎｇａｃｔｉｏｎａｎｄｂｅｈａｖｉｏｒ

ｐｒｉｍｉｔｉｖｅｓ

ｆｒｏｍ

ｈｕｍａｎ

ｍｏｔｉｏｎ

ｃａｐｔｕｒｅ

ｄａｔａ［Ａ】．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅｏｎ

Ｒｏｂｏｔｉｃｓａｎｄ

Ａｕｔｏｍａｔｉｏｎ［Ｃ］，ＷａｓｈｉｎｇｔｏｎＤＣ．ＵＳＡ，

２加２

ｔ

２５５１・２５５６．

９Ｎａｇｅｌ

Ｈ

Ｈ．Ｆｒｏｍ

ｉｍａｇｅｓｅｑｕｅｎｃｅｓ

ｒｅｗａｒｄｓｃｏｎｃｅｐｔｕａｌｄｅｓｃｒｉｐｔｉｏｎｓ

［Ｊ］．Ｉｍａｇｅａｎｄ

Ｖｉｓｉｏｎ

Ｃｏｍｐｕｔｉｎｇ，１９８８。６（２）：５９．７４．

１０

Ｍｏｒｉ

Ｔ，ＫａｍｉｓｕｗａＹ。ＭｉｚｏｇｕｃｈｉＨ。ｅｔｕ１．Ａｃｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ

ｂａｓｅｄｏｎ

ｈｕｍａｎｆｉｎｄｅｒａｎｄｈｕｍａｎ

ｔｒａｃｋｅｒ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

０ｆ

ｔｈｅ１９９７

ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｆｆ

ＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｂ

１９４

中国图象图形学报

第１４卷

ａｎｄ

Ｓｙｓｔｅｍｓ【ｃ］．Ｂｅｉｊｌｎｇ．Ｃｈｉｎａ，１９９７：１３３４－１３４１．

１１

ＣｒｎｗｌｅｙＪ

Ｌ，Ｃｏｕｔａｚ

Ｊ．Ｃｏｎｔｅｘｔ

ａｗａｒｅ

ｏｂｓｅｒｖａｔｉｏｎｏｆｈｕｍａｎａｃｔｉｖｉｔｙ，

ｍｕｌｔｉｍｅｄｉａａｎｄｅｘｐｏ［Ａ］．Ｉｎ：ＰｒｎｃｅｅｄｌａｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

ＩＣＭＥ’０２［Ｃ］，Ｌａｕｓａｎｎｅ，Ｓｗｉｔｚｅｒｌａｎｄ。２００２：

９０９．９１２．１２

Ｐａｒｋ

Ｓ．ＫａｎｔｚＨ．Ｈｉｅｒａｒｃｈｉｃａｌｒｅｃｏｇｎｉｔｉｏｎ

ｏｆａｃｔｉｖｉｔｉｅｓｉｎ

ｄａｉｌｙｌｉｖｉｎｇ

ｕｓｉｎｇ

ｍｕｌｔｉ－ｓｃａｌｅ。ｍｕｌｔｉ—ｐｅｒｓｐｅｃｔｉｖｅ

ｖｉｓｉｏｎａｎｄ

ＲＦＩＤ［Ａ】．Ｉｎ：

Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

４ｔｈ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｉｎｔｅｌｌｉｇｅｎｔ

Ｅｎｖｉｒｏｎｍｅｎｔｓ［Ｃ］．Ｓｅａｔｔｌｅ，ＷＡ，ＵＳＡ，２００８：１－４．

１３

ＷａｒｄＪＡ，ＬｕｋｏｗｉｃｚＰ，Ｔｒｏｓｔｅｒ

Ｇ，ｅｌ０２．Ａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎｏｆａｓｓｅｍｂｌｙ

ｔａｓｋｓ

ｕｓｉｎｇ

ｂｏｄｙ－ｗｏｒｎｍｉｃｒｏｐｈｏｎｅｓａｎｄ

ａｅｃｅｌｅｒｏｍｅｔｅｒｓ［Ｊ］．ＩＥＥＥ

Ｔｒａｎｓａｃｔｉｏｎｓｏｎ

Ｐａｔｔｅｒｎ

Ａｎａｌｙｓｉｓ

ａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００６，

２８（１０）：１５５３－１５６７．

１４

Ｙｉｎ

Ｊ．Ｙａｎｇ

Ｑ。ＰａｎＪＪ．Ｓｅｎｓｏｒ－ｂａｓｅｄａｂｎｏｒｍａｌｈｕｍａｎ—ａｃｔｉｖｉｔｙ

ｄｅｔｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥ

Ｔｒａｎｓａｃｔ／ｏｎｅ

ｏｎ

Ｋｎｏｗｌｅｄｇｅ

ａｎｄ

Ｄａｔａ

Ｅｎｇｉｎｅｅｒｉｎｇ，２００８，加（８）：１０８２—１０９０．

１５

Ｙａａｇ

ＳＩ．ＣｈｏＳ

Ｂ．Ｒｅｃｏｇｎｉｚｉｎｇ

ｈｕｍａｎａｃｔｉｖｉｔｉｅｓ

ｆｒｏｍ

ａｃｅｅ］ｅｒｏｍｅｔｅｒａｎｄ

ｐｈｙｓｉｏｌｏｇｉｃａｌ

８ｅｎｓｏｍ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩＥＥＥ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｍｕｌｔｉ－ｓｅｎｓｏｒ

Ｆｕｓｉｏｎ

ａｎｄ

Ｉｎｔｅｇｒａｔｉｏｎ

ｆｏｒ

Ｉｎｔｅｌｌｉｇｅｎｔ

Ｓｙｓｔｅｍｓ［Ｃ］，Ｓｅｏｕｌ，Ｋｏｒｅａ，２００８：１００・１０５．

１６

Ｐｕｎｖａｒ

Ａ，ＪｅｏｎｇＤＵ，ＣｈｕｎｇＷＹ．Ａｃｔｉｖｉｔｙｍｏｎｉｔｏｒｉｎｇｆｒｏｍ

ｒｅａｌ－ｔｉｍｅ

ｔｒｉ－ａｘｉａｌａｅｃｅｌｅｍｍｅｔｅｒｄａｔａ

ｕｓｉｎｇ

Ｓｅｎｓｏｒ

ｎｅｔｗｏｒｋ［Ａ］．Ｉｎ：

ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

Ｃｏｎｔｒｏｌ。Ａｕｔｏｍａｔｉｏｎａｎｄ

Ｓｙｓｔｅｍｓ［Ｃ］，Ｓｅｏｕｌ，Ｋｏｒｅａ，２００７：２４０２—２４０６．

１７

ＣａｍｐｂｅＨ

Ｌ

Ｗ，Ｂｅｅｋｅｒ

Ｄ

Ａ，ＡｚａｒｂａｙｅｊａｎｉＡ，ｃｔ越．１ｎｖａｒｉｕａｔ

ｆｅａｔｕｒｅｓ

ｆｏｒ３Ｄ

ｇｅｓｔｕｒｅ

ｒｅｃｏｇｎｉｔｉｏｎ［Ａ］．Ｉｎ：Ｐｒｅｃｅｅｄｉｎｇｓｏｆ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｕｔｏｍａｔｉｃ

Ｆａｃｅ

ａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ［ｃ］，Ｋｉｌｌｉｎｇｔｏｎ，Ｖｅｒｍｏｎｔ，ＵＳＡ，１９９６：１５７・１６２．

１８

ＪｉｎＮ，ＭｏｋｈｍｒｉａｎＦ．Ｉｍａｇｅ－ｂａｓｅｄｓｈａｐｅｍｏｄｅｌｆｏｒｖｉｅｗ—ｉｎｖａｒｉａｎｔ

ｈｕｍａｎ

ｍｏｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆＩＥＥＥ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｕ

ＡｄｖａｎｃｅｄＶｉｄｅｏ

ａｎｄｓｉｇｎａｌＢａｓｅｄＳｕｒｖｅｉｌｌａｎｃｅ［Ｃ］，Ｌｏｎｄｏｎ，

ＵＫ．２００７：３３６・３４１．１９

Ｌｉｕ

ＣＤ．Ｃｈｕｕｇ

Ｐ

Ｃ．Ｃｈｕｎｇ

Ｙ

Ｎ．Ｈｕｍａｎｈｏｍｅｂｅｈａｖｉｏｒｉｎｔｅｒｐｒｅｔａｔｉｏｎ

ｆｒｏｍｖｉｄｅｏｓｔｒｅａｍｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅ２００４ＩＥＥＥ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ＯＨ

Ｎｅｔｗｏｒｋｉｎｇ，Ｓｅｎｓｉｎｇ＆Ｃｏｎｔｒｏｌ［Ｃ】。

Ｔａｉｐｅｉ。Ｔａｉｗａｎ，Ｃｈｉｎａ．２００４：１９２・１９７．２０

ＮｉｅｂｌｅｓＪＣ，ＷａｎｇＨＣ，ＬｉＦＦ．Ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｈｕｍａｎ

ａｃｔｉｏｎ

ｃａｔｅｇｏｒｉｅｓ

ｕｓｉｎｇ

ｓｐａｔｉａｌ－ｔｅｍｐｏｒａｌｗｏｒｄｓ［Ｊ】．Ｉｎｔｅｍａｔｉｏｎａｌ

ＪｕｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００８，７９（３）：２９９－３１８．

２１

Ｃｈｕｎｇ

Ｐ

Ｃ，Ｌｉｕ

Ｃ

Ｄ．Ａ

ｄａｉｌｙｂｅｈａｖｉｏｒｅｎａｂｌｅｄｈｉｄｄｅｎＭｅｒｋｏｖｍｏｄｅｌ

ｆｏｒｈｕｍａｎ

ｂｅｈａｖｉｏｒ

ｕｎｄｅｒｓｔａｎｄｉｎｇ［ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００８，

４ｌ（５）：１５７２－１５８０．

２２

ＲｏｂｅｒｔｓｅｎＮ。ＲｅｉｄＬＢｅｈａｖｉｏｒｕｎｄｅｒｓｔａｎｄｉｎｇ

ｉｎｖｉｄｅｏ：ａｃｏｍｂｉｎｅｄ

ｍｅｔｈｏｄ［Ａ］．Ｉｎ：Ｐｒｅｃｅｅｄｉｎｇｓ

ｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ［ｃ】，Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２００５：８０８—８１５．２３

Ｔｕｒａｇａ

Ｐ

Ｋ，Ｖｅｅｒａｒａｇｈａｖａｎ

Ａ，ＣｈｅｌｌａｐｐａＲ．Ｆｒｏｍｖｉｄｅｏｓｔｏ

ｖｅｒｂｓ：

ｍｉｎｉｎｇ

ｖｉｄｅｏｓ

ｆｏｒ

ａｃｔｉｖｉｔｉｅｓ

ｕｓｉｎｇ

ｎ

ｃａｓｃａｄｅｏｆｄｙｎａｍｉｃａｌ

ｓｙｓｔｅｍｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｃｏｍｐｕｔｅｒ

Ｖｉｓｉｏｎａｎｄ

Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］。Ｍｉｎｎｅａｐｏｌｉｓ，Ｍｉｎｎｅｓｏｔａ，ＵＳＡ，２００７：１．８．

２４

ＴａｂｂｏｎｅＳ。ＷｅｎｃＨｉｎｇＬ．ＳａｌｍｏｎＪＰ－Ａ

ｎｃｗ

ｓｈａｐｅ

ｄｅｓｃｒｉｐｔｏｒ

ｄｅｆｉｎｅｄｍｌ

ｔｈｅＲａｄｏｎ

ｔｒａｎｓｆｏｒｍ［Ｊ］．Ｃｏｍｐｕｔｅｒ

Ｖｉｓｉｏｎ

ａｎｄ

ＩｍａｇｅＵｎｄｅｍｔａｎｄｉｎｇ，

万　

方数据２００６．１０２（Ｉ－２）：４２－５１．

２５

ＷａｎｇＹ，Ｈｕａｎｇ

Ｋ．Ｔａｎ

ＴＮ．Ａｂｎｏｒｍａｌ

ａｃｔｉｖｉｔｙｒｅｃｎｇｎｉｆｉｏｎ

ｉｎｏｆｆｉｃｅ

ｂａｓｅｄ

ｏｎ

Ｒ

ｔｒａｎｓｆｏｒｍ［Ａ］Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ０ｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ［Ｃ］，ＳａｎＡｎｔｏｎｉｏ，＂ＩＸ，ＵＳＡ，２００７：１－３４１－３４４．

２６

ＫｉｍＫ．Ｍｅｄｉｏｎｉ

Ｇ

Ｇ．Ｄｉｓｔｒｉｂｕｔｅｄｖｉｓｕａｌ

ｐｒｏｃｅｓｓｉｎｇ

ｆｏｒ

ａ

ｈｏｍｅｖｉｓｕｎｌ

ｓｅｎｓｅｒ

ｎｅｔｗｏｒｋ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩＥＥＥＷｏｒｋｓｈｏｐ

ｏｎ

Ａｐｐｌｉｃａｔｉｏｎｓ

ｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ［Ｃ］．ＣｏｐｐｅｒＭｏｕｎｔａｉｎ，Ｃｏｌｏｒａｄｏ，ＵＳＡ，２００８：

１．６．

２７

ＷｕＪ

Ｘ，ＯｓｕｎｔｏｇｎｎＡ。ＣｈｏｕｄｈｕｒｙＴ，科０２，Ａｓｅａｌａｂｌｅ

ａｐｐｒｏａｃｈ

ｔｏ

ａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ

ｂａｓｅｄ

ｏｎ

ｏｂｊｅｃｔｕｓｅ［Ａ］．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

Ｃｏｍｐｕｔｅｒ

Ｖｉｓｉｏｎ［Ｃ］，Ｂｅｉｊｉａｇ，Ｃｈｉｎａ，

２００７：１－８．２８

Ｗａｎｇ

Ｓ，Ｐｅｎｔｎｅｙ

Ｗ，Ｃｈｏｕｄｈｕｒｙ

Ｔ．ＣｏｍｍｏｎＳｅｎｓｅｂａｓｅｄ

ｊｏｉｎｔ

ｔｒａｉｎｉｎｇｏｆ

ｈｕｍａｎ

ａｃｔｉｖｉｔｙ

ｒｅｃｏｇｎｉｚｅｒｓ［Ａ１．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｒｔｉｆｉｃｉａｌ

ＩｎｔｅＨｉｇｅｎｅｅ［ｃ］，

Ｈｙｄｅｒａｂａｄ．Ｉｎｄｉａ。２００７：２２３７－２２４２．

２９

Ｄｕｏｎｇ

ＴＶ，ＢｕｉＦＩ

Ｈ，Ｐｈｕｎｇ

Ｄ

Ｑ，ｅｌｕ１．Ａｃｔｉｖｉｔｙ

ｒｅｃｏｇｎｉｔｉｏｎ

ａｎｄ

ａｂｎｏｒｍａｌｉｔｙｄｅｔｅｅｔｉｏｎｗｉｔｈｔｈｅｓｗｉｔｃｈｉｎｇ

ｈｉｄｄｅｎｓｅｍｉ・Ｍａｒｋｏｖｍｏｄｅｌ

［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆＩＥＥＥ

Ｃｏｍｐｕｔｅｒ

ＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ

ａｎｄ

Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］．Ｓａｎ

Ｄｉｅｇｏ，ＣＡ，

ＵＳＡ，２００５：８３８－８４５．３０

ＮｇｕｙｅｎＮＴ，ＰｈｕｎｇＤ

Ｑ，ＶｅｎｋａｔｅｓｈＳ．Ｌｅａｒｎｉｎｇａｎｄｄｅｔｅｃｔｉｎｇａｃｔｉｖｉｔｉｅｓｆｒｏｍ

ｍｏｖｅｍｅｎｔ

ｔｒａｊｅｃｔｏｒｉｅｓ

ｕｓｉｎｇ

ｔｈｅｈｉｅｒａｒｃｈｉｃａｌ

ｈｉｄｄｅｎ

ｍａｒｋｅｒ

ｍｏｄｅｌ［Ａ］．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｃｏｍｐｕｔｅｒ

ＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］，Ｓａｎ

Ｄｉｅｇｏ，ＣＡ，ＵＳＡ，２００５：９５５—９６０．３

Ｉ

Ｍａｈａｊａｎ

Ｄ，ＫｗａｔｒａＮ，ＪｏｉｎＳ，ｅｔ

ａ１．Ａｆｒａｍｅｗｏｒｋｆｏｒ

ａｃｔｉｖｉｔｙ

ｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｏｆｕｎｕｓｕａｌ

ａｃｔｉｖｉｔｉｅｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩｎｄｉａｎＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｇｒａｐｈｉｃｓ，ＩｍａｇｅＰｍｃｅｓｓｉｎｇ

［Ｃ］，Ｋｏｌｋａｔａ，Ｉｎｄｉａ，２００４：３７－４２．

３２

Ｄｏｌｌ’ａｒ

Ｐ，ＲａｂａｎｄＶ，ＣｏｔｔｒｅｌｌＧ，ｅｔ

ａ１．Ｂｅｈａｖｉｏｒ

ｒｅｃｏｇｎｉｔｉｏｎ

ｖｉａ

ｓｐａｒｓｅｓｐａｔｉｏ－ｔｅｍｐｏｒａｌ

ｆｅａｔｕｒｅｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２ｎｄＪｏｉｎｔ

ＩＥＥＥ

ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐ

ｏｎ

ＶｉｓｕａｌＳｕｒｖｅｉｌｌａｎｃｅａｎｄＰｅｒｆｏｒｍａｎｃｅ

ＥｖａｌｕａｔｉｏｎｏｆＴｒａｃｋｉｎｇａｎｄＳｕｒｖｅｉｌｌａｎｃｅ［Ｃ］，Ｂｅｉｊｉｎｇ．Ｃｈｉｎａ，２００５：

６５．７２．

３３

Ｌｉｕ

Ｃ

Ｄ，ＣｈｕａｇＰ

Ｃ．ＣｈｕａｇＹＮ．Ｈｕｍａｎ

ｈｏｍｅ

ｂｅｈａｖｉｏｒｉｎｔｅｒｐｒｅｔａｔｉｏｎ

ｆｒｏｍ

ｖｉｄｅｏ

ｓｔｒｅａｍｓ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩＥＥＥ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｅｌｌ

Ｎｅｔｗｏｒｋｉｎｇ，Ｓｅｎｓｉｎｇ＆Ｃｏｎｔｒｏｌ［Ｃ】，ＴａｉＰｅｊ，Ｃｈｍａ，

２００４：１９２・１９７．

３４Ｘｕ

Ｇ，Ｍａ

Ｙ

Ｆ，ＺｈａｎｇＨＪ，ｅｔ０２．Ｍｏｔｉｏｎｂａｓｅｄ

ｅｖｅｎｔ

ｒｅｃｏｇｎｉｔｉｏｎ

ｕｓｉｎｇ

ＨＭＭ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

，

ｏｎ

Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］．Ｑｕｅｂｅｃ．Ｃａｎａｄａ，２００２：８３１—８３４．

３５Ｓｕｎ

ＸＤ．ＣｈｅｎＣ

Ｗ，Ｍａｎｊｕｎａｔｈ

ＢＳ．Ｐｒｏｂａｈｉｌｉｓｔｉｃｍｏｔｉｏｎ

ｐａｒａｍｅｔｅｒ

ｍｏｄｅｌｓｆｏｒｈｕｍａｎ

ａｃｔｉｖｉｔｙ

ｒｅｃｏｇｎｉｔｉｏｎ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ】，Ｑｕｅｂｅｃ，

Ｃａｎａｄａ，２００２：４４３—４４６．３６

ＢｒａｎｄＭ，ＯｌｉｖｅｒＮ，ＰｅｎｔｌａｎｄＡ．ＣｏｕｐｌｅｄｈｉｄｄｅｎＭａｃｋｏｖｍｏｄｅｌｓｆｏｒ

ｃｏｍｐｌｅｘ

ａｃｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎ［Ａ】．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆＩｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ

ａｎｄ

Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］，Ｐｕｅｒｔｏ

Ｒｉｃｏ。１９９７：９９４・９９９．３７

Ｗｉｌｓｏｎ

Ａ．Ｂｏｂｉｃｋ

Ａ．Ｒｅｃｏｇｎｉｔｉｏｎａｎｄｉｎｔｅｒｐｒｅｔａｔｉｏｎ０ｆ

ｐａｒａｍｅｔｒｉｅ

第２期

徐光榷等：动作识别与行为理解综述

１９５

ｇｅｓｔｕｒｅ【矗】。ｋ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ［ｃ】，Ｂｏｍｂａｙ，Ｉｎｄｉａ，１９９８：３２９・３３６．

３８

Ｚｈａｎｇ

Ｄ。Ｇａｔｉｃａ－ＰｅｒｅｚＤ，ＢｅｎｇｉｏＳ，ｅｌⅡｔＭｏｄｅｌｉｎｇｉｎｄｉｖｉｄｕａｌ

ｇｒｏｕｐ

ａｃｔｉｏｍ

ｉｎｍｅｅｔｉｎｇｓ：ａｔｗｏ－ｌａｙｅｒＨＭＭ

ｆｒｍａｅｗｏｒｋ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

ＩＥＥＥＣＶＰＲ

Ｗｏｒｋｓｈｏｐ

０ｎ

ＤｅｔｅｃｔｉｏｎａｎｄＲｅｃｏｇｎｉｔｉｏｎ

ｏｆ

Ｅｖｅｎｔｓｉｎ

Ｖｉｄｅｏ［ｃ】，Ｗａｓｈｉｎｇｔｅａ，ＤＣ，ＵＳＡ，２００４：１１７・１２５。

３９

ＯｌｉｖｉｅｒＮ。ＨｏｒｏｖｉｔｚＥ，ＧａｒｇＡ．Ｌａｙｅｒｅｄ

ｒｅｐＭｓｅｎｔａｔｉｏｎｓｆｏｒｈｕｍａｎ

ａｃｔｉｖｉｔｙ

ｒｅｃｏｇｎｉｔｉｏｎ【Ａ】．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅｏｎ

Ｍｕｈｉｍｏｄａｌ

Ｉｎｔｅｒｆａｃｅｓ［Ｃ】，Ｐｉｔｔｓｂｕｒｇｈ．ＰＡ．ＵＳＡｆ

２００２：３－８．４０

Ｌｅｏ

１｜ｆ，Ｗｕ

Ｔ

Ｄ，ｔｉｗａｕｇｊ

Ｎ．Ｏｂｊｅｃｔ－ｂａｓｅｄａｎａｌ蛳ｓａｎｄｉｎｔｅｒｐｒｅｔａｔｉｏｎ

ｏｆｈｕｍａｎｍｏｔｉｏｎ

ｉｎ

Ｓｐｏｒｔｓ

ｖｉｄｅｏ

ｓｅｑｕｅｎｃｅｓ酚ｄｙｎａｍｉｃＢａｙｅｓｉａｎ

ｎｅｔｗｏｒｋｓ［１】．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ，２００３，

９２（２－３＞：１９６－２１６．

４ｌ

ＤｕＹＴ，ＣｈｅｎＦ，ＸｕＷＬ，ｅｔａ１．Ｒｅｃｏｇｎｉｚｉｎｇ

ｉｎｔｅｒａｃｔｉｏｎａｃｔｉｖｉｔｉｅｓ

ｕｓｉｎｇ

ｄｙｎａｍｉｃ

Ｂａｙｅｓｉａｎｎｅｔｗｏｒｋ［Ａ］．ｈｌ：Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

Ｉｎｔｅｍａｔｌｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ∞ＰａｔｔｅｍＲｅｃｏｇｎｉｔｉｏｎ【ｃ】，ＮｅｗＹｏｒｋ。

ＵＳＡ。２００６：６１８罐２１。

万　

方数据４２

Ｂｕｘｔｏｎ｜Ｉ。ＧｏｎｇＳＧ＋Ａｄｖａｎｃｅｄｖｉｓｕａｌｓｕｒｖｅｉｌｌａｎｃｅ

ｕｓｉｎｇ

Ｂａｙｅｓｉａｎ

ｎｅｔｗｏｒｋｓ［Ａ】．１ｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｍ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ［ｃ］，Ｂｏｓｔｏｎ，ＭＡ，ＵＳＡ，１９９５：１１１—１２３．

４３

ＯｌｉｖｅｒＮ，ＨｏｒｖｉｔｚＥ．Ａ

ｃｏｍｐａｒｉｓｏｎ

ｏｆＨＭＭｓａｎｄ

ｄｙｎａｍｉｃ

Ｂａｙｅｓｉａｎ

ｎｅｔｗｏｒｋｓ

ｆｏｒ

ｒｅｃｏｇｎｉｚｉｎｇｏｆｆｉｃｅ

ａｃｔｉｖｉｔｉｅｓ［Ａ］．Ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｌＯｔｈ

ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｎｎｎｅ

ｏｎＵｓｅｒ

Ｍｏｄｅｌｉｎｇ【ｅ】，Ｅｄｉｎｂｕｑ目ｈ，ＵＫ，

２００５：｜９９—２０９．４４

Ｓｍｉｎｃｈｉｓｅｓｃｕ

Ｃ．Ｋａｎａｕｊｉａ

Ａ。ＭｅｔａｘａｓＤ．Ｃｏｎｄｉｔｉｏｎａｌ

ｍ耐ｅ赫触

ｃｏｎｔｅｘｔｕａｌｈｕｍａｎｍｏｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ】．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄ

Ｉｍａｇｅ

Ｕｎｄｅｒｓｔａｎｄｉｎｇ。２００６，１０４（２－３）：２１０－２２０．

４５ＯｌｉｖｅｔＡ，ＴｏｒｒａｌｂｕＡ．Ｔｈｅｒｏｌｅ

ｏｆｏｏｎｔｅｚｔ

ｉｎ

ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ［Ｉ】．

Ｔｒｅｎｄｓ

ｉｎ

ＣｏｇｎｉｔｉｖｅＳｃｉｅｎｃｅｓ，２００７，１１（１２）：５２０—５２７。

稻Ｔｏｒｚａｌｂ

Ａ。Ｃｏｎｔｅｘｔｕａｌｐｒｉｍｉｎｇ

ｆｏｒ

ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｊ】。Ｉｎｔｅｒｎａｔｉｏｎａｌ

ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００３，５３《２）：１６９—１９１．

４７ＺｉｂｅＲｉＥ，ＴｉｊｕｓＣ．Ｐｅｒｃｅｉｖｉｎｇａｃｔｉｏｎｆｒｏｍｓｔａｔｉｃ

ｉｍａｇｅｓ：Ｔｈｅｒｏｌｅｏｆ

ｓｐａｔｉａｌ

ｃｏｎｔｅｘｔ［Ｊ】．Ｌｅｃｔｕｒｅ

Ｎｏｔｅｓｉｎ

ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００３，２６８０：

３９７，４１０．

动作识别与行为理解综述

相关内容

热门内容