第14卷第2期2009年2月
中国图象图形学报
JournalofImageandGraphics
V01.14.No.2
Feb.,2009
动作识别与行为理解综述
徐光祜
曹媛媛
(清华大学计算机科学与技术系普适计算教育部重点实验室,北京100084)
摘要随着“以人为中心计算”的兴起和生活中不断涌现的新应用,动作识别和行为理解逐渐成为计算机视觉领域的研究热点。主要从视觉处理的角度分析了动作识别和行为理解的研究现状.从行为的定义、运动特征提取和动作表示以及行为理解的推理方法3个方面对目前的工作做了分析和比较,并且指出了目前这些工作面l临的难题和今后的研究方向。
关键词
以人为中心计算动作识别行为理解
文献标识码:A
文章编号:1006—8961(2009)02.0189.07
中图法分类号:TP391
ActionRecognitionandActivityUnderstanding:AReview
XUGuang-you,CAOYuan-yuan
ofEducation.Departmento/ComputerScienceandTechnology
(KeyLaboratory
of№沁Computing。Ministry
Tsinghua
Uniters盼,Beijiag100084)
AbstractAs
the“Human—centeredcomputing”isgettingmorepopularandnovelapplications
8re
ale
evolvitlg,action
recognitionandactivityunderstandingstate—of-the—artwork
on
attractingresearchersinthefield
analysiswith
focus
Oil
ofcomputervision.Inthispaper,wereviewthe
motion
actionandactivitythreeparts:Definitionofactivity,low・level
featuresextractionandactionrepresentation,‘andreasoningmethodforactivityunderstanding.Furthermore,openproblemsforfutureresearchandpotentialdirections“ediscussed.Keywords
human・centeredcomputing,actionrecognition,activityunderstanding
度上就需要依靠视觉系统。此外,视觉传感器体积
引言
小、被动性和非接触式的特点,使得视觉传感器和视觉信息系统具备了无所不在的前提。近年来,在对计算机视觉提出的层出不穷的新要求中,行为理解是一个具有挑战性的新课题,在诸如智能家居,老年人看护,智能会议室等应用中都起着至关重要的作用。它要解决的问题是根据来自传感器(摄像机)的原始图像(包括图像序列)数据,通过视觉信息的处理和分析,识别人体的动作,并在上下境信息的指导下,理解人体动作的目的、所传递的语义信息。行为理解作为近几年开始兴起的研究,正在逐渐获得越来越多的关注。
计算正渗透和影响到人们生活的各个方面,根据传感器数据来识别和理解人的动作和行为就成为未来“以人为中心的计算”中的关键…。其中基于视觉的动作识别和行为理解尤为重要。因为在人之问的人际交互过程中,视觉是最重要的信息。可以帮助人们迅速获得一些关键特征和事实,如对方的表情、手势、体态和关注点等,这些视觉线索综合起来反映了对方的态度,潜在意图和情绪等信息。未来人机交互和监控中,机器要感知人的意图很大程
基金项目:国家自然科学基金项目(60673189)收稿Et期:2008-1l-28;改回日期:2008.12.03第一作者简介:徐光丰占(1940一
),男。教授。博士生导师。IEEE高级会员,CCF会员。主要研究领域为计算机视觉。人机交互.普适计算
技术。E-mail:xgy・des@mail.tsinghua.edu.∞
万方数据
中阐嬲象图形学报第14卷
久律检测、定位後及天体的黧要部分(头罄,警等)的检测,识别和跟踪是人体彳子为理解的基础,铉解决这些基本问题的基础上,更骥要也更困难的问题就是动作识别和行为理解。对动作识别的研究W以追溯餮约整纪丸十年代。2002年,相关磅究的论文数量经历了一个飞跃式酶燎长,这些骚究大多假设是在结构化环境和孤立动作条件下。所谓的络构化环境就是预先设定和可人为控制的环境,例如,用于计算机输入的手势识别,这时视觉数据采集的光照、巍受、距离等因素都是固定竣毫知豹。这就为改善视觉处瑗的脆弱性撵供了凑稠条件。僵与麓两时,也带来了很大的局限性。例如,基于生理特征的生物特征识别,目前的方法只适合于愿意在规定环境下给予系统配合的合作对象。与此相对,能在囱然环境下,基予爨兔特薤熬生物特薤识囊就更努溺滩,但它其有容秘被对象接受,藏不易被察觉的傀点。对于各种目的的视觉监控来说,能工作在自然环境下,至关堂鼷。例如,为帮助悠人延长独立生活或改善生活质摄的视觉监控和提涿,都需要能在港入生活戆瑟常群境据龚穗应戆骚务。近年来,对嚣常生活和工作申动作和行为的褒解正成为热点。这是所谓的“日常活动”(ADL)的分析和理解。由下人们在日常生溪环境中的动作是自然和连续的,瓶恳与环境有密切豹联系,困就,给谈剐秘理解带来一系秀具有瓣酸瞧豹难题:(1)分奄式褫觉信意楚蘧方法和系统。通过多摄像视信息的融合来克服由予视角、距离、遮撼、光照等多种环境因素带来的干扰和不确定性是有效但也是富肖挑战性的课题;(2)自然连续动{罄稳行势豹分割及多层次模型。人类豹习鬻活动程籽力是天蒋鸯然瓣连续的费裕,蕊中包含了多种类型的运动和动作:无意识的人体移动,为了操作物体的动作,以及为了进行相互交流,例如打招呼的动作和姿态。此外复杂的人类活动朔蟹为是由一系翔瀵佟或操终缰成豹。系统彩在一令多层次酶模型籀群下对人体动俸进行分割襄分类。而分割和分类叉滞要有来自对动作和行为理解的商层模型指导;(3)基于上下境的行为理解。对动作翔行为的理解器要了解当时视觉环境以及应用的情境。这毯就是羧溪豹要具有“踅察上下境”或基予上下境的视觉处理和分析方法。闲为裙阕的动终在不同的情境下传递不同语义。上下境的指导作用体现在以下2方面:①在现实的视场中可能需要处理的视觉对象秘锻务菲常多,丽计算资源是有限的。
万
方数据琵外还毒窦时经逢豹要求。这时必须鬏据主下凌来
确定视觉处理的关注点;②在上下境的指导下对动
作传递的语义进行推理。
行为理解的研究包含着从底层到高层的多胺处理。癌绥处理中豹人体筱测秘跟踪、动捧识剃、乎势谖裘穰鞔避分析等已经有了较多豹研究翻综述。嚣高层的处理方法,如对行为的建模、上下境在行为推理中的指导簿研究还在起步阶段。
2行为理解的研究现状
如引富中所述,行为理解包含了从底层处理到高层推理的垒过程,涉及底艨遁动特征的提取和表示、行为的袭示方法,以及高层行为语义的推理模型。下嚣瓣综述善先姨行势戆定义秀始,熬震亭萼论特征提取穰动作表示,最蓐分析常觅的冗释簿势推理模型。
2.1行为袭示的模型
目前对鼍:行为的表示还没有一个通用的模避,大部努懿磁究都是铮露特定瓣潼爨采矮菜静簿为表示模型,最常觅的是分层结构模型,丽各个层次凌示的内容取决于应用的需要。人体的行为就其目的i丽言可大致分为:(1)与环境交飘。例如对物体的操作;Moeslund等人提出了action/motor
primitives,
actions。and
activities戆分篡模受臻’。在Park等久
提出的驾驶攒动作的表示模型中"’,底层为身体菜个部位的运动,如头转动,躯干前移,伸胳膊等。中间层是由底胺各部位的运动组合而成的一个复杂动终。最高壤为人与弱围设备的交互动律,鄙驾驶爱霹汽车郝终鲢搡佟动传,熬蠢左转动方舞盘。(2)人际交麓。Aggarwal等人在2入交互的分析中H]。把交飘行为分为3个屡次。最高层是交赢行为;中间层为擎个人体的动作;最底层是对身体巢个都分运动戆撩溯程蓼{别。群_俸交互,铡魏会议塞场景更是需餮多层次懿表示峰。。关于行为麴分滋表示方法还可参考旺4’6。们。其中特别需要注意的是GonzMez等人在动作-行为的屡次表示中增加了情境"】。情境研认为是最高层的上下境,它用于解决舞鸯理薅秘毁义翔题。毙魏撵芋这个秀佟在“跫球赛”拳l“绝铁站”这两种情境孛显然是有不溺懿含义。
综上所述,分层模型已经成为研究者们公认的一弛行为的裳示方法,只是在不同的研究背景翔援
第2期徐光裕等:动作识别与行为理解综述
19l
务下,屡次的数量和每个层次的定义各不耀阍。得弼较多认鞭的表示模型大致包括如下几个撩次:运动,动穆,涟麓或揉箨,爨秀。这些垂次大致怒按照时阕戆必发来进行分篝黪。餐这襻酶分滋努法在复杂的情况下,有时显得无能先力。更海蜜埔的是按照任务过程进行分解。例如,老人在厨房巾的做饭活动,它可分为取食品、处理食材、烹锰、上橥等过程。其中每个步骤,又可进一步分解,例如,烹饪又
可按巢谱分为若干步骤。这样的分解是成用导向
的。作为一个表示模型除了定义各层表永的含义以外还辫黉定义它们之间的关系和远行机制。Crowley等人摄出了谤境鼹终懿运行撼絮¨“。Dai等人撵斑了一个基子多瑟次“主下境.察搏”酶模型"。,试必符为豹层次结褥中,上嫠酶褥游靛是节屡动作定义的环境,所以就称为上下境。它定义了什么魑下层中发生的有意义的动作,即事件。相邻层次龙间的“上下境一事件”关系可递归地惩伸到所有的层次。所以,这个模型具有通用性。2.2遮湖特征的提取和动作表示
视觉域者其他底层运动特征的提取和液泳楚进行高屡行魏理殡的推理所登霉的基础工佟。较晕舞媲豹黠漤露行为分爨豹工作疆多是采矮主动传感器来获褥入俗菜个部位熬运动信意”“婚1。这类工终主耍燕遴避入体的透胶或躯干鬣戴觞备辩健慧器来获取该部位的运动特征,然后分析动作行为,由于当前以人为中心的计算强调用户感觉自然,嵌入式的传感器破坏了用户的感受,给用户的行动造成不便,因此,目前越来越多的研究开始转向用摄像机这种非嵌入式被动的传感器获取人体的动作特攮。
基予视觉熬动捧表示按特征豹性质太致搿以分隽嚣类,一类是3维特薤,勇一类是2维嚣像褥鬣。3维特缝本身其有褫角不交牲。逶震予分穆筑裰觉系统下的动作体态表示。Campbell等人掇魄了基手立体视觉数据的3维手势识别系统¨”。Jin等人建立了麓带3维模型的动作识别系统¨”。3维模型通常参数多,训练复杂,计算量大。如果是撼乎立体视觉的原理还可能要遇到匹配中的对应性网难。相比之下,撼子2维图像特征的表示计算相对简单。适用予褫热棚对圈定静情况。下面具体介缨一些麓予2缝褥鬣憋动作表示。
Liu等入冀鼹坐、菇、缝踅个Et雾生溪巾藏薹零戆动俸傲了分析¨“。计算了前景区域每个像素的
万
方数据距离投影
譬
簟
,
,
DP={∑(搿一致)2,∑(矿一毪)2;(1)
’l=1
izl
’
式中,∥帮矿表示麓黎像豢在承平和竖直方囱上的坐标,露。和K表示髓辩中点的坐标,厝是前景像素点的个数。每一个动作都用距离投影的高斯分布来表示。这种特征抽取方法是视角相关的,文中使用了与人体朝向成90。的固定视角。这个视角上最容
易抽取出区分度大的人体形状特征。
Niebles等人把每个动作的一系列视频帧都看作是一组特征描述溺的集会m】,特薤接述词通过提黎爵空兴趣赢褥蓟。定义穗瘦錾数黧下:
R=(f辜g
8
h。。)2+(f毒g幸h耐>2
(2)
式中,g(x,Y,盯)是2雄嵩斯平滑核函数,应用在空间维度上,矗。,和I|l“都怒1维Gabor滤波器,分别定义为h。,(t;丁,∞);一cos(2,trtw)e一“”和h“(t;r,甜)=一sin(21rtto)e。”一并逡用在时间维度上。一般情况下,复杂动作发生的聪域会产生较大的响应,局部响应最大的点作为必趣点。芽用梯度或者光流来播述。
Park等入震多惑凝涎会楱登表示久俸5个主要部分(夹、脸、貉薅、躯干耨下身)的颜色分布弪’,著用椭圆拟合,Kalman滤波器随时对参数进行更新。动态贝叶斯网络被用米检测动作和姿态,驾驶员行为被用一个表达式表示,表达式组成如下:{agent—motion—target},其中agent表示动作实施者,如头、手等;motion表示动作;target表示驾驶室的操作仪器。
Chung等人用水警釉竖直方向上的一对投影来表示当前的体态∞q;Robertson等人采用了基于光滚戆动露獾述子来攒逡溯镩ml,继霞与撵本集孛样本逐个莲配来谖翔动依类鎏;Turaga等久氇是提取
光流作炎每一狡中动臻的特征∞’;Ryoo等人餍人
体外框的长、宽和中心点的坐标被作为特征Ⅲ’。Wang等人在办公室霹常行为识别的研究中口纠对提取出的人体区域采用R变换"“,提取动作形状,R变换具有尺寸和旋转不变性,可以应对人离摄像机距离不同造成的尺寸变化。
以上这些工作都怒农豳定视角下用2维运动特薤表示动撵。这融霹臻裔豢l戆视受下观涌动捧,但氇隈裁了对象戆溪漤藏溅,使它难浚逶应实际应蔫的环境。现实生活巾,溉测对象活动范围较广,位置
中国图象图形学报第14卷
变化大,导致视角多变;同时由于生活环境中的家具等也会对人体造成遮挡。因此。需要分布式视觉系统的支持,通过多摄像机信息的融合来克服由于视角多变,活动范围广以及遮挡带来的各种问题。这是富有挑战性的难题。
基于人体特征例如人头或四肢的运动特征将可简化信息融合和动作分析。Kim等人是在分布式环境下检测人体的躺、站、坐等简单动作旧“,通过自适应的背景相减得到前景区域,然后用椭圆拟合和omega曲线头肩部检测算法检测头部,在任何时刻,所有的摄像机都会进行全部的底层处理,得到人体的高度,人体位置,头部位置。人体长宽比和手部的位置,一个专门的模块将负责从每个摄像机处理的结果进行人的匹配,并选出没有遮挡的处理结果作为行为理解的观测向量。再如Park等人在分布式视觉系统下研究两人交互的行为¨“,文中考虑到了视角对动作特征抽取带来的影响,因此,首先讨论了摄像机选择的问题。他根据不同摄像机得到的前景区域的离散度选择最佳视角,可以理解为选择像平面中两人距离最大的视角,因此,避免了遮挡问题。将分割出的人体区域在水平方向投影,计算得到人体的中轴,然后人体被按照一个指定参数分割为头,上身和下身3个部分。用HSV颜色空间表示每个像素点,用混合高斯模型表示身体的3个部分。可以同时分析上身和腿部的动作。而在不同视角下检测人体特征本身也是一个困难的问题,这是这种方法需要付出的代价。
除了上述由于成像环境限制造成的困难以外,现实生活中的很多动作,例如厨房中的烹饪操作,很细微,难以单独依靠视觉来检测和识别。而动作所使用的工具或接触的物体将可提供关于动作明确的线索。因此,有学者提出了根据使用的物品来协助识别对象动作。如果知道装面包的容器被使用了,这往往比识别到人伸手拿东西这个动作蕴含更多的语义。wu等人将水壶、电话、果汁等33个物品贴上电子标签(RFID)啦”,并在用户的手腕上带上接收器。当用户使用某个物品时,接收器就会接收到该物品上电子标签发出的ID信号。通过对使用物品的分析能够识别出烧水,打电话,喝果汁等16种行为。Wang等人也类似地充分利用了关于“所使用物品”的“常识”对行为理解的指导意义睢81,通过在物品上贴RFID,手腕上带接收器来获得物品使用信息。
万
方数据另外有一些工作Ⅲ。3¨认为人的轨迹甚至人在某个功能物体(如冰箱、沙发等)附近停留的时间可以用来解释人的行为,这样的假设就完全避开了复杂困难的动作分析以及传感器对人体造成的不便,在这类工作中,环境上下境信息和场景知识受到极大重视。成为进行行为理解推理所依赖的重要线索。2.3行为理解的推理方法
行为理解的推理中广泛采用了基于图模型的推理方法,如隐马尔科夫模型(HMM),动态贝叶斯网络(DBN),条件随机场(CRF)等;也有的研究采用其他的推理方法,如文献[14]使用基于规则的决策树来对一系列表示动作及对象的三元表达式进行分类。文献[32]、[33]采用模板匹配的方法,将检测到的运动特征与训练好的样本逐个匹配,匹配的结果即为对行为识别的结果。文献[31]使用了有限状态自动机,每个状态表示当前人体的位置,来对人的轨迹进行分类,识别异常事件。
在目前的行为分析领域中,HMM是较常使用的
一种推理模型¨4矧。HMM是一种有效的时变信号
处理方法,它隐含了对时间的校正,并提供了学习机制和识别能力。根据不同应用环境下行为的特性,很多研究对HMM进行了适应性扩展,比如
HierarchicalHMM,CoupledHMMs[36】,Parameterized—
HMMs【371等。大部分的模型采用了分层的结构来对应行为的分层特性。文献[38]在群体交互动作识别中采用两层HMM模型,下层模型对群体中的个体进行动作识别,识别结果作为上层群体行为识别模型的观测。文献[39]也采用了分层的模型分析行为,由3层在不同时间粒度上依次增加的HMM组成。HMM虽然是对时间序列建模的一种简单而有效的模型,但是当行为变得复杂或者在长时间尺度上存在相关性,就不满足马尔可夫假设拉“,同时考虑了行为的分层结构和状态的持续时间,提出了
S.HSMM(switchinghiddensemi—markOV
model),是
HSMM模型的两层扩展,底层表示了自动作及其持续时问,高层表示了一系列由底层自动作组成的行为。文中给出的实验结果证明了比HSMM和HMM对行为具有更强的模型表示能力。
也有研究将DBN引入到行为理解中Ⅲ41。由于HMM在一个时间片段上只有一个隐藏节点和一个观测节点,在一个时刻需要将所有的特征压缩到一个节点中。那么所需要的训练样本将是巨大的(相当于联合概率密度函数);而DBN在一个时间
第2期
徐光桔等:动作识别与行为理解综述
193
段上是任意结构的贝叶斯网络,可以包含有多个因果关系的节点,即用条件概率来形成联合概率,训练相对要简单,也给模型的设计提供了更大的灵活性,能够更准确地表达状态之间以及状态和观测之间真实的关系。但是设计起来要比HMM复杂。文献[43]对DBN和分层的HMM做了详细的比较并且给出了模型选择和表示时需要考虑的几个因素:(1)可用于训练和测试的数据;(2)变量被观测到的可能性;(3)数据之间的内在关系;(4)应用的复杂度。
也有些研究放弃了产生式模型而采用区分式模型来分析行为。文献[44]首先采用了CRF模型用于行为识别,考虑到HMM最大的缺点就是输出独立性假设,导致不能考虑上下境的特征,限制了特征的选择。但是实际情况是,行为的当前状态往往与一个长的时间尺度上的观测存在相互的依赖,并且观测之间很可能不是相互独立的。CRF不需要对
观测进行建模,因此,避免了独立性假设,并且可以满足状态与观测之间在长时间尺度上的交互。结合产生式模型和区分式模型的优势对行为理解进行推理将成为未来的研究方向。
3结语
以上对动作识别和行为理解的现状做了简要的综述,但就建立能在复杂的现实世界中提供有效服务的计算机视觉系统而言,还缺少了两个关键的部分,这就是:(1)如何从复杂的现场背景下快速,可靠地检测和识别人体(物体)。物体在现实世界中的位置和光照情况多种多样甚至还有遮挡,但人类还是能在混乱的场景中快速地榆测和识别各种物体。这是目前的机器视觉远未达到的能力。视觉认知,计算机视觉和认知神经科学的文献中有很多证据说明上下境信息极大地影响搜索和识别物体的效率¨。…。上下境的影响是多层次的,其中包括:语义层(例如,桌子与椅子经常出现在同一图像中);空间构造层(例如,键盘一般是在显示器的下方);姿态层(例如,椅子通常是朝向桌子;汽车一般是沿着道路方向停靠)等。研究还证明空间上下境可为场景预测中可能发生的动作提供有用的线索H“。总之。基于上下境的视觉关注机制是解决上述困难的关键;(2)上下境指导下的行为理解。生活中人体动作的语义不仅取决于本身的状态而且取决于场
万
方数据景中其他人和物体的当前和历史的状态,也就是取决于上下境。相同的动作在不同的上下境中代表着不同的语义,在会议这样的群体交互场景下尤为突出怕1。例如,“举手”的动作,在“大会报告”的场景下,表示“希望提问”;在“会议表决”时表示决定的取向等。以上两个关键问题都涉及如何在视觉计算感知和利用中上下境信息。这也就是当前所谓的基于上下境的视觉和觉察上下境的视觉方法。从视觉处理的策略来说,目前大多数都是采用自底向上的,从局部到整体的方式,而基于上下境的视觉处理是采用自顶向下,从整体到局部的方式。这在一定程度上反映了人类视觉系统的处理方式。因此,这是重要的值得注意的研究方向。
参考文献lReferences)
1
AlejandroJ,DanielC
P,NinuS,ct
of.Human・centered
computing:
toward
B
human
revolution[J】.Computer,2007,40(5):30-34.
2MoeslundTB,Hilton
A,KrllgerV.Asurveyofadvances
invision-basedhuman
motioncapture
and
analysis【J].Computer
Vision
and
Image
Understanding,2006,104(3):90・126.
3
ParkS,Trivedi
M.Driveractivity
analysisforinteHigentvehicles:
issues
anddevelopment
framework[A】.In:Proceedingsof
IEEE
IntelligentVehicles
Symposium[c],LosVegas,Nevada,USA,
2005:644-649.
4
AggatwalJ
K,ParkS.Humanmotion:modelingand
recognitionof
actions
and
interactions[A].In:Proceedings
ofSecond
International
Symposium
on
3DData
Processing,Visualization
andTransmission
[C],Theszaloniki,Greece,2004:640-647.
5
Dai
Peng.Tao
Lin—mi。Xu
Guang—you.Audio-visualfusedonline
context
analysis
toward
smartmeeting
room[A].In:Proceedingsof
InternationalConference
on
UbiquitousIntenigenceandComputing
[c],HangKong,China.2007:11・13.
6
BobiekA.Movement,activity,andaction;theroleofknowledge
in
theperception
of
motion[.IJ.Philosophical
Transactionsofthe
Royal
Society
of
London,1997,352(1358):1257—1265.7
Gonz2dezJ,VaronaJ,RocaF
X,et村.ASpaces:actionspaces
for
recognition
and
synthesis
ofhuman
actions[A].In:Proceedingsof
InternationalWorkshop
on
ArticulatedMotion
andDeformable
Objects
[C],PalmadeMallorca,Spain,2002:21-23.
8
JenkinsO
C,MatasicM.Derivingactionandbehavior
primitives
from
human
motion
capture
data[A】.In:ProceedingsofInternational
Conferenceon
Roboticsand
Automation[C],WashingtonDC.USA,
2加2
t
2551・2556.
9Nagel
H
H.From
imagesequences
rewardsconceptualdescriptions
[J].Imageand
Vision
Computing,1988。6(2):59.74.
10
Mori
T,KamisuwaY。MizoguchiH。etu1.Action
recognitionsystem
basedon
humanfinderandhuman
tracker[A].In:Proceedings
0f
the1997
IEEE/RSJInternationalConference
off
IntelligentRobob
194
中国图象图形学报
第14卷
and
Systems【c].Beijlng.China,1997:1334-1341.
11
CrnwleyJ
L,Coutaz
J.Context
aware
observationofhumanactivity,
multimediaandexpo[A].In:PrnceedlagsofIEEEInternationalConferenceon
ICME’02[C],Lausanne,Switzerland。2002:
909.912.12
Park
S.KantzH.Hierarchicalrecognition
ofactivitiesin
dailyliving
using
multi-scale。multi—perspective
visionand
RFID[A】.In:
Proceedings
of
4th
International
Conference
on
Intelligent
Environments[C].Seattle,WA,USA,2008:1-4.
13
WardJA,LukowiczP,Troster
G,el02.Activityrecognitionofassembly
tasks
using
body-wornmicrophonesand
aecelerometers[J].IEEE
Transactionson
Pattern
Analysis
andMachineIntelligence,2006,
28(10):1553-1567.
14
Yin
J.Yang
Q。PanJJ.Sensor-basedabnormalhuman—activity
detection[J].IEEE
Transact/one
on
Knowledge
and
Data
Engineering,2008,加(8):1082—1090.
15
Yaag
SI.ChoS
B.Recognizing
humanactivities
from
acee]erometerand
physiological
8ensom[A].In:Proceedingsof
IEEE
International
Conference
on
Multi-sensor
Fusion
and
Integration
for
Intelligent
Systems[C],Seoul,Korea,2008:100・105.
16
Punvar
A,JeongDU,ChungWY.Activitymonitoringfrom
real-time
tri-axialaecelemmeterdata
using
Sensor
network[A].In:
ProceedingsofInternationalConferenceon
Control。Automationand
Systems[C],Seoul,Korea,2007:2402—2406.
17
CampbeH
L
W,Beeker
D
A,AzarbayejaniA,ct越.1nvariuat
features
for3D
gesture
recognition[A].In:Preceedingsof
InternationalConference
on
Automatic
Face
andGestureRecognition[c],Killington,Vermont,USA,1996:157・162.
18
JinN,MokhmrianF.Image-basedshapemodelforview—invariant
human
motion
recognition[A].In:Proceedings
ofIEEE
Conference
ou
AdvancedVideo
andsignalBasedSurveillance[C],London,
UK.2007:336・341.19
Liu
CD.Chuug
P
C.Chung
Y
N.Humanhomebehaviorinterpretation
fromvideostreams[A].In:Proceedings
ofthe2004IEEE
International
Conference
OH
Networking,Sensing&Control[C】。
Taipei。Taiwan,China.2004:192・197.20
NieblesJC,WangHC,LiFF.Unsupervisedlearningofhuman
action
categories
using
spatial-temporalwords[J】.Intemational
JuurnalofComputerVision,2008,79(3):299-318.
21
Chung
P
C,Liu
C
D.A
dailybehaviorenabledhiddenMerkovmodel
forhuman
behavior
understanding[j].PatternRecognition,2008,
4l(5):1572-1580.
22
RobertsenN。ReidLBehaviorunderstanding
invideo:acombined
method[A].In:Preceedings
ofIEEEInternationalConference
on
ComputerVision[c】,Beijing,China,2005:808—815.23
Turaga
P
K,Veeraraghavan
A,ChellappaR.Fromvideosto
verbs:
mining
videos
for
activities
using
n
cascadeofdynamical
systems[A].In:Proceedingsof
Conference
on
Computer
Visionand
Pattern
Recognition[C]。Minneapolis,Minnesota,USA,2007:1.8.
24
TabboneS。WencHingL.SalmonJP-A
ncw
shape
descriptor
definedml
theRadon
transform[J].Computer
Vision
and
ImageUndemtanding,
万
方数据2006.102(I-2):42-51.
25
WangY,Huang
K.Tan
TN.Abnormal
activityrecngnifion
inoffice
based
on
R
transform[A]In:Proceedings0fIEEEConference
on
ImageProcessing[C],SanAntonio,"IX,USA,2007:1-341-344.
26
KimK.Medioni
G
G.Distributedvisual
processing
for
a
homevisunl
senser
network[A].In:Proceedingsof
IEEEWorkshop
on
Applications
ofComputerVision[C].CopperMountain,Colorado,USA,2008:
1.6.
27
WuJ
X,OsuntognnA。ChoudhuryT,科02,Asealable
approach
to
activityrecognition
based
on
objectuse[A].In:ProceedingsofIEEE
InternationalConferenceon
Computer
Vision[C],Beijiag,China,
2007:1-8.28
Wang
S,Pentney
W,Choudhury
T.CommonSensebased
joint
trainingof
human
activity
recognizers[A1.In:Proceedingsofthe
20thInternationalJointConference
on
Artificial
InteHigenee[c],
Hyderabad.India。2007:2237-2242.
29
Duong
TV,BuiFI
H,Phung
D
Q,elu1.Activity
recognition
and
abnormalitydeteetionwiththeswitching
hiddensemi・Markovmodel
[A].In:Proceedings
ofIEEE
Computer
SocietyConference
on
ComputerVision
and
Pattern
Recognition[C].San
Diego,CA,
USA,2005:838-845.30
NguyenNT,PhungD
Q,VenkateshS.Learninganddetectingactivitiesfrom
movement
trajectories
using
thehierarchical
hidden
marker
model[A].In:ProceedingsofIEEEComputerSociety
Conference
on
Computer
VisionandPattern
Recognition[C],San
Diego,CA,USA,2005:955—960.3
I
Mahajan
D,KwatraN,JoinS,et
a1.Aframeworkfor
activity
recognitionanddetectionofunusual
activities[A].In:Proceedingsof
IndianConference
on
ComputerVision,Graphics,ImagePmcessing
[C],Kolkata,India,2004:37-42.
32
Doll’ar
P,RabandV,CottrellG,et
a1.Behavior
recognition
via
sparsespatio-temporal
features[A].In:Proceedingsof2ndJoint
IEEE
InternationalWorkshop
on
VisualSurveillanceandPerformance
EvaluationofTrackingandSurveillance[C],Beijing.China,2005:
65.72.
33
Liu
C
D,ChuagP
C.ChuagYN.Human
home
behaviorinterpretation
from
video
streams[A].In:Proceedingsof
IEEE
International
Conference
ell
Networking,Sensing&Control[C】,TaiPej,Chma,
2004:192・197.
34Xu
G,Ma
Y
F,ZhangHJ,et02.Motionbased
event
recognition
using
HMM[A].In:Proceedings
of
IEEEInternationalConference
,
on
Pattern
Recognition[C].Quebec.Canada,2002:831—834.
35Sun
XD.ChenC
W,Manjunath
BS.Probahilisticmotion
parameter
modelsforhuman
activity
recognition[A].In:Proceedingsof
InternationalConference
on
Pattern
Recognition[C】,Quebec,
Canada,2002:443—446.36
BrandM,OliverN,PentlandA.CoupledhiddenMackovmodelsfor
complex
action
recognition[A】.In:Proceedings
ofInternational
Conference
on
ComputerVision
and
Pattern
Recognition[C],Puerto
Rico。1997:994・999.37
Wilson
A.Bobick
A.Recognitionandinterpretation0f
parametrie
第2期
徐光榷等:动作识别与行为理解综述
195
gesture【矗】。k:Proceedingsof
International
Conference
on
ComputerVision[c】,Bombay,India,1998:329・336.
38
Zhang
D。Gatica-PerezD,BengioS,elⅡtModelingindividual
group
actiom
inmeetings:atwo-layerHMM
frmaework[A].In:Proceedings
of
IEEECVPR
Workshop
0n
DetectionandRecognition
of
Eventsin
Video[c】,Washingtea,DC,USA,2004:117・125。
39
OlivierN。HorovitzE,GargA.Layered
repMsentationsforhuman
activity
recognition【A】.In:ProceedingsofIEEEInternational
Conferenceon
Muhimodal
Interfaces[C】,Pittsburgh.PA.USAf
2002:3-8.40
Leo
1|f,Wu
T
D,tiwaugj
N.Object-basedanal蛳sandinterpretation
ofhumanmotion
in
Sports
video
sequences酚dynamicBayesian
networks[1】.ComputerVisionandImageUnderstanding,2003,
92(2-3>:196-216.
4l
DuYT,ChenF,XuWL,eta1.Recognizing
interactionactivities
using
dynamic
Bayesiannetwork[A].hl:Proceedings
of
Intematlonal
Conference∞PattemRecognition【c】,NewYork。
USA。2006:618罐21。
万
方数据42
Buxton|I。GongSG+Advancedvisualsurveillance
using
Bayesian
networks[A】.1n:Proceedingsof
InternationalConference
m
ComputerVision[c],Boston,MA,USA,1995:111—123.
43
OliverN,HorvitzE.A
comparison
ofHMMsand
dynamic
Bayesian
networks
for
recognizingoffice
activities[A].In:ProceedingsoflOth
InternationalConfernnne
onUser
Modeling【e】,Edinbuq目h,UK,
2005:|99—209.44
Sminchisescu
C.Kanaujia
A。MetaxasD.Conditional
m耐e赫触
contextualhumanmotion
recognition[J】.ComputerVisionand
Image
Understanding。2006,104(2-3):210-220.
45OlivetA,TorralbuA.Therole
ofoontezt
in
objectrecognition[I】.
Trends
in
CognitiveSciences,2007,11(12):520—527。
稻Torzalb
A。Contextualpriming
for
objectdetection[J】。International
JournalofComputerVision,2003,53《2):169—191.
47ZibeRiE,TijusC.Perceivingactionfromstatic
images:Theroleof
spatial
context[J】.Lecture
Notesin
ComputerScience,2003,2680:
397,410.