当前位置 : 安防网>安防技术>智能视频>阅读正文

智能视频分析项目前景

作者: 时间:2008-03-04

    随着平安城市的逐渐推广与实施,监控系统也从原来的CCTV(闭路电视监控)逐步走向网络化、智能化。由于下一代互联网的兴起,三网(电讯网、电视网和互联网)合一的趋势已不可逆转。在今天的IT科技中,基本上所有的通信技术都走向IP化。为了整合社会和各机构监控的资源,实现统一的调度,安防的监控也将走向网络化。监控系统的另一显著的发展趋势就是智能化,平安城市中可能有几十万的摄像头资源,所有的镜头都靠人力的监看,不仅造成极大的人力浪费,而且由于长时间的观察视频图像,也容易造成大脑疲劳,降低监控效率。在这种情况下,智能监控就成为一种实实在在的需求。因此,公安部在其十一五规划中明确提出将人脸识别、智能的目标识别与分析作为其七个重点发展方向中的当中的两个,由此可见它们的重要性。

二、智能分析的现状:

    目前,达到应用水平的生物特征识别技术有指纹、掌纹、掌型、虹膜、人脸、DNA等。其中DNA由于采集困难和对用户的侵犯性,基本上无法在公共安全领域得到应用。而指纹、虹膜、掌型等生物识别技术均需要进行接触式或者近距离采集和取像,必须使用者主动进行配合,只有人脸识别技术能够应用于远距离实现的不知情不配合情况下的监控布控应用,解决目前公安安全领域人工布控需要耗费大量警力,并效率低下的问题。

    人脸的检测、与人脸的识别技术起源较早,研究历史可追溯至上世纪60、70年代。最早的方法比较直观和简单,研究主要集中于简单几何特征的提取,由于这些特征点的检测极不稳定,且提取的信息量有限,无法有效地区分不同人之间的本质差异,因而无法使人脸识别取得突破性的发展。从80 年代开始,人们开始利用图像的灰度信息或基于图像的底层特征(例如 DCT、小波等)进行人脸识别,并涌现了许多应用神经网络进行人脸识别的算法。人脸识别真正的发展是在90 年代初,人们开始认识到,人脸图像各像素之间存在较强的相关性,并且人脸具有独特的自然特性和结构特性。这使得人脸将仅仅占据原始高维空间的一个低维子空间。在此基础上,M.A. Turk 和A.P. Pentland 首先提出了基于主元分析 (Principle Component Analysis) 的特征脸 (Eigenface) 方法,该方法的提出是人脸识别技术领域的重大飞跃。特征脸方法提取的是人脸图像的灰度信息,这种信息不一定与人脸中的特征点相关——与以往的方法有本质区别。它通过对人脸样本进行统计分析,并利用主元分析进行有效地降维,使得信息能量得以集中,同时缓解了维数危机。这些优点使得该方法能够实现相对鲁棒的人脸识别。在特征脸方法的基础上还延伸出众多的方法,例如 LDA (Linear Discriminate Analysis)、ICA (Independent Component Analysis)、LFA (Local Feature Analysis) 等,它们从理论上完善了特征提取和压缩的手段,这些方法可以归类为子空间分析方法。与特征脸方法的提出几乎同时Lades、Malsburg 等人提出了DLA (Dynamic Link Architecture) 算法,以及后来在此基础之上的弹性图匹配 (EGM,Elastic Graph Matching, EGM)。在 EGM 的基础上,还相继提出了弹性约束图匹配 (Elastic Bunch Graph Matching)、形态学弹性图匹配 (Morphological Elastic Graph Matching) 等算法。这类算法将提取局部的分辨率特征,同时保留二维图像的空间拓扑信息,并且允许一定的弹性形变,因而在人脸识别中取得了较好的性能。在90年代期间,人们还把隐含马尔可夫模型 (Hidden Markov Model, HMM) 用到了人脸识别领域中,此外还出现了用模型参数来描述人脸的模型参数法,例如 AAM (Active Appearance Model)、FAM (Flexible Appearance Model) 等。

    上述的神经网络、子空间分析、弹性图匹配、HMM 模型和模型参数方法都是基于二维图像的方法。在90 年代后期,还逐渐出现了基于三维模型的识别算法。例如变形亮度曲面 (Deformable Intensity Surface)、三维可变形模型 (3D Morphable Model)等。三维方法可以更好地解决姿态和光线问题,并且在理想条件下能够取得很好的实验结果,但三维模型难以准确建立,因此目前三维人脸识别的应用还十分有限,有待进一步研究。

    国内人脸识别技术尚属起步阶段,核心的识别精确度和速度均不是非常理想,尤其是大量人脸库中的一对多识别,辨认准确性和搜索对比的速度均难满足实时应用的需要。

    目前有不少国内研究机构正在进行积极的研究。例如中科院自动化所生物识别与安全技术研究中心李子青研究员小组,采用附加红外主动光的方法,部分解决光线变化问题;中科院计算所高文研究员小组和清华大学丁晓青教授小组在正面人脸室内光线的情况下,做了比较充分的研究和尝试。另外,清华大学苏光大教授小组长期在公安系统中模糊图片处理方面做深入的研究,并有比较好的系统。此外,微软亚洲研究院-视觉计算组也在进行这方面的研究。浙江大学的潘刚等进行的是3D的人脸识别的研究。武汉大学也有免费下载的人脸识别系统,据说效果较差。但是国内研究基本上是在学术上作的工作多一些,将学术成果推广到产品中,相对来说是很薄弱的。

    除了目标的特征识别以外,在CV(即计算视觉Computer Vision领域)中,行为分析也尤为重要。1997年美国国防高级研究项目署(Defense Advanced Research Projects Agency)设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控重大项目VSAM(Visual Surveillance and Monitoring),主要研究用于战场及普通民用场景进行监控的自动视频理解技术;1998年英国的雷丁大学(University of Reading)已经开展了对车辆和行人的跟踪及其交互作用识别的相关研究;2000年由Haritaoglu I等人提出的W4系统是一套实时视觉监控系统,它不仅能够定位人和分割出人的身体部分,而且通过建立外观模型来实现多人的跟踪,并可以检测人是否携带物体等简单行为;近年来,IBM与Microsoft等公司也逐步将基于手势识别的接口应用于商业应用中。中国科学院自动化所国家模式识别实验室主任谭铁牛等也在研究人的步态分析与识别等课题。ObjectVideo就是得益于VSAM的研究而成立的,第一个用户也是美国国防部(DoD)。见下图

     基于视觉的人的行为跟踪与分析在最近几年里取得了一定的进展,但是大多数算法都是针对单个人而提出的,它们无法处理人群的情况。2003、2004年Ram Nevatia,Tao Zhao等人提出采用贝叶斯概率模型建模人群的方法,并在此基础上扩展了数据驱动马尔科夫链蒙特卡罗(DDMCMC)算法解决人群分割和跟踪的问题,这说明人行为分析正在经历从单个人的行为分析向更普遍、更具有实用价值的多人行为分析过渡。可惜的是,Ram Nevatia,Tao Zhao等人提出的算法无法处理复杂的场景,人体建模精度不够,缺乏对人群行为特征的丰富描述能力,算法时间复杂度也相对偏高,无法达到实时的水平。从对人、人群的行为跟踪、识别上升到对人、人群的行为理解一直是困扰着国内外相关领域学者的难题。2004年,Hua Zhong, Jianbo Shi, Mirko Visontai提出一种基于模式分类从视频中检测异常动作的方法,但仍然无法克服人的数量与行为种类增加的问题,该方法也无法达到实时的水平。

    针对实际应用中具有重要意义并贴近安全需求和实际场景的视频监控应用,尤其是在动态视频中对多姿态人脸进行实时检测和识别,国内基本上还没有进行深入的研究。真正能够应用于远距离不主动配合的大量人群布控的人脸监控产品,目前尚未有研究机构或商业公司能够提供。

    目前国际上的智能识别与分析产品中,最有代表性的为美国Identix公司研制的ARGUS人脸监控系统,价格非常昂贵,市场价格大概在1500万人民币左右,根本无法在国内市场上大规模销售和应用。Premier Electronics 为英国警方开发了一套基于3D人脸识别的系统已投入使用。在智能分析方面,ObjectVideo也在大力的进行推广它的技术。美国公司MATE在去年的北京安防展也展示了它的先进技术。

    国内公司实力较强的有上海的银晨(E面通),和香港的钛极。国内一些安防公司包括海康、汉邦等已经开始这面的研发,据说海康采用的是银晨的核心技术。此外, 国内也有航天金盾的人脸考勤系统。行者人脸识别产品――通过公安部检测实用的人脸识别智能化安全管理系统产品。深圳万方远大-人脸识别考勤机/系统。楚信科技的F4面部识别系统等。

    因此预计在安防领域智能识别与分析的技术会在未来几年内得到较大规模的普及和应用。除此之外,智能分析和识别技术不仅应用在安防行业上,它还可以形成一些管理方面的功能、如交通流量的分析,不同出入口、区域人流量的分析,甚至商场上货物、商品的销售状况的统计、商品摆放的位置与人流量的关系分析等等,使监控系统具有更加强大的管理功能,这也是监控系统发展的又一新趋势。

    一般的智能识别技术的第一个任务,也是一个主要的难点,就是将主题与背景分离开来。在静止背景下这一点相对容易一些。但如果物体之间有重叠,仍需要进行有效的分离。在运动背景下,分离要困难得多。可以采用两类方法,一类是采用静止图片中的物体分类的方法,另一类是采用对背景的运动进行分析的方法。这两类方法的难度都会很高。快速准确的多姿态实时人脸检测长期以来一直是理论研究和实际应用领域的难点问题,为了准确有效的进行人脸检测,我们采用连续自适应Boost算法迭代训练整合得到强分类器,并组成基于视图的瀑布型检测器进行逐层人脸样本筛选。同时为了大幅度的提高检测速度,将瀑布的前几层作为姿态预估计器,使姿态预估计和人脸检测同步进行,并且按搜索量化步长的大小对图像进行金字塔式逐次细化的多分辨率搜索。但是检测技术的优化往往需要在准确率和速度之间进行折衷,加速策略会导致正确率的下降。姿态估计器和多分辨率搜索能够将检测速度提高2倍甚至更多,但是在检测率相当的情况下误报率会有所上升。需要重点解决的问题在于根据实际监控系统的应用需求对目前的方法进行进一步的优化,设计出最佳性能的姿态估计器,以及能够在正确率和速度之间取得最佳平衡的多分辨率搜索参数,如搜索步长和分辨率层次的选择。

    在将物体与背景分离开来以后,另一个重要的任务就是特征提取。对一般的物体来讲,由于受到光线、摄像机的角度、距离的远近等因素的影响,直接比较像素是不可行的,因此,需要提取所谓的特征,这些特征相对于上述因素(光线、角度、距离等)具有较好的不变性。所以,采用它们能得到较好的识别。利用这些特征来区分物体的类别。

   最后是在视频流中,对物体的行为进行分析。包括它们运动的方向,速度,是否越界等。其中一些重要的行为包括,重要物体是否被移动,如有,则需提醒或报警。是否有物体被遗留在现场。如有,则进行报警。还有就是物体的移动是否在划定范围内,是否越界等等。

研发分为两个部分(1)首先实现物体与背景的分离;(2) 基本实现ObjectVideo1000上面的功能; 
包括:
1.  物体分类;
2.  越界检测;
3.多直线边界越界检测
4. 进入区域事件检测
5.退出区域事件检测
6.出现事件检测
7.消失事件检测
8.区域内徘徊事件检测
8.位于区域事件检测
9.遗留物体事件检测
10.拿走物体事件检测
11.大幅画面变化事件检测
12.物体尺寸过滤
13.物体尺寸变化事件过滤
14.静止/起浪事件过滤

    其中难点在于快速、准确地分离物体与背景,在静止背景的图像中,分离物体相对比较容易一些,所以我们可以从静止镜头的视频开始。尽管如此,也需要进行物体与阴影的分离,人与物体重叠,人与人重叠,物体与物体重叠之间的分离。但这样做,相对来说,计算量会小得多。

要达到的目标是:至少在静止背景下实现Object1000的基本功能,具体指标预计为:
物体闯入禁区准确率:    99%
人,车,物区分准确率:  90%
运动速度、方向:        95%
物体遗留现场:          99%
物体被移开现场:        99%

    项目要有一定的积淀。完全从头开始,即使有很好的想法和计划也未必能成功。这些需要花很多时间和精力,需要公司的很多外交活动。由于研发项目一定要强调创新性,因此可借此提高公司研发的创新水平,提高企业的竞争力。

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册