当前位置 : 安防网>安防技术>人脸识别>阅读正文

研究人脸识别技术

作者: 时间:2008-02-19
         早在上世纪60年代末,人脸识别即引起了研究者的强烈兴趣,但早期的人脸识别一般都需要人的某些先验知识,无法摆脱人的干预。进入上世纪90年代,由于高速度、高性能计算机的出现,人脸识别的方法有了重大突破,进入了真正的机器自动识别阶段,人脸识别研究得到了前所未有的重视。
  虽然我们人类可以毫不困难地通过人脸来辨别一个人,但是利用计算机进行完全自动的人脸识别仍存在许多困难,其表现在:人脸是非刚体,存在表情变化;人脸随年龄的增长而有所改变;发型、眼镜对人脸造成遮挡;人脸所成图像受光照、成像角成像距离等影响。此外,人脸识别技术研究与相关学科的发展及人脑的认识程度紧密联系。这诸多因素使得人脸识别研究成为一项极富挑战性的课题。
  一、人脸识别的发展过程
      19世纪末期,Sir Franis Galton就对人脸识别的问题进行了研究。早期人脸识别研究主要有两个方向:一是提取人脸几何特征的方法,该识别方法从图像中抽取特征比较困难,对强烈的表情变化或姿态变化鲁棒性较差,更适合于做粗分类。主要代表是MIT的Brunelli和Poggio小组;二是模板匹配的方法。主要是利用计算机模板和图像灰度的自相关性来实现识别功能。主要代表是Harvard和Smith_Kettlewell眼睛研究中心的Yuille。Berto在1993年对这两类方法作了较全面的介绍和比较后认为:模板匹配的方法优于几何特征的方法。目前的研究也主要有两个方面:其一是基于整体的研究方法。它考虑了模式的整体属性,包括特征脸方法(Eigenface)。在此基础上还出现了各种改进方法,如Yale大学的Belhumeur提出的Fisher脸方法等;SVD分解的方法;弹性图匹配的方法(elastic graph matching);隐马尔可夫模型方法(Hidden Markov Model);神经网络方法;其二是基于特征分析的方法,也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量。这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各种部件本身的信息。
  二、人脸识别方法的研究
  1.特征脸方法(即主成分分析方法PCA)。这种方法起源于图像描述技术。Kirby和Sirovich用主成分分析有效的表达了人脸图像。
  他们对给定的一组原始人脸图像集合,计算图像压缩最好的坐标系统,每个坐标事实上是他们定义为特征图(eigenpictures)的图像。他们认为从理论上来说,任何人脸图像集合都可以用两个集合近似的重建,其一是每个人脸的权值集合,其二是一组标准的图像集合(eigenpictures)。人脸的权值通过将人脸投影到对应的特征图像得到。Turk和Pentland[10][11]认为如果大量的人脸图像可以由一组特征图像的加权来重建,那么有效的人脸识别方法就是通过长期的经验建立特征图像,通过比较重建图像所需要的特征权值识别人脸。因此,每一个人脸都可以用一组重建的权值表示。简单地说,就是将一高维的向量,通过一个特殊的特征矩阵,投影到一个低维的向量空间,表征为一个低维向量,并保留主要信息。即通过低维表征的向量和特征向量矩阵就可以完全重构出所对应的高维向量。这种表达相对于图像本身就是一种高度压缩的方式。
      采用特征脸识别方法有良好的稳定性、位移不变性、特征向量与图像的高度成比例变化以及转置不变性。不足之处是受表情变化、光照角度强度变化和视角变化等严重影响,鲁棒性较差。为了解决上述缺点,研究人员在此基础上发展了许多改进方法:如将特征脸与线性判别函数相结合,可以使得对光照及人脸表情不太敏感。
  2.隐马尔可夫模型方法(Hidden Markov Model)是用于描述信号统计特征的一组统计模型。HMM的基本理论是由Baum和Welch等人在20世纪60年代末70年代初建立,在语音识别中应用较多。在HMM中,节点表示状态,有向边表示状态之间的转移。一个状态可以具有特征空间中的任一特征,对同一特征,不同状态表现出这一特征的概率不同。一个HMM主要由以下元素组成:
      (1)模型中状态总数N。若S为状态集,则S={S1,S2,…Sn}。模型在t时刻状态q(t)∈S,1≤t≤T,其中T为观测序列的长度(帧数)。
      (2)初始状态分布∏,即∏={πi},其中:
             πi=p[q1=si]  (1≤i≤N)                  
      (3)状态转移概率矩阵A,即A={αij},其中:
                          
      则有:
                          
      (4)状态概率矩阵B,即B={bj(Oi)},其中Oi为t时刻的观测向量。在连续密度HMM中,状态由连续观测密度函数表示。模型概率密度函数的最常用形式为:
                       
      式中cik为状态i的第k个混合的混合系数。不失一般性,设N(Ot,μik,Uik)为均值向量,协方差矩阵为Uik的Gaussian概率密度函数。
      由此,HMM可表示为。我们可以将人脸的重要区域按照从上到下形成自然顺序,每个区域从左到右分配一个一个连续HMM,人脸模型状态结构和非零状态概率如图1所示:
图1  从左到右的HMM
      HMM的优点是允许人脸表情有较大变化,较大的头部转动。缺点是实现的复杂度较高。
  3.弹性图匹配方法。弹性图匹配方法是一种基于动态连接结构(Dynamic Link ArchitectureDLA)的方法,它将人脸用格状的稀疏图表示,图中的节点用图像位置的Gabor小波分解得到的特征向量标记(称为jet),图的边用连接节点非距离向量标记。
      小波特征分析是一种时频分析,若空间一点周围区域的不同频率响应构成该点的特征串,则其高频部分就对应了小范围内的细节,而低频部分则对应了该点周围较大范围的概貌。因此采用小波变化特征的弹性图匹配方法,既考虑了局部人脸细节,又保留了人脸的空间分布信息,而且它的可变形匹配方式在一定程度上能够容忍人脸从三维到二维投影引起的变形。此外,Gabor小波与人眼视网膜对图像的响应具有相似的形状,而且对图像亮度具有鲁棒性,通过对jet的归一化处理,也能消除图像对比度的影响,因此弹性图匹配方法对光照、位移、旋转及尺度变化都不敏感。基于弹性图匹配的识别系统主要缺点是对每个存储的人脸需计算其模型图,因此计算复杂,存储量大,利用聚束图匹配可部分克服这个缺点。
  4.神经网络方法。人工神经网络是由多个神经元按照一定的排列顺序构成的,是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但由大量神经元所构成的网络系统却能够实现复杂丰富的功能。神经网络系统除了具有集体运算的能力和自适应的学习能力外,还有很强的容错性和鲁棒性,善于联想、综合和推广。
  严格地说,神经网络是一个具有下列性质的有向图:
   (1)每个神经元有一个状态变量xj
   (2)神经元到神经元有一个连接权值系数wij
   (3)每个神经元有一个阈值θj
          (4)每个神经元定义一个变换函数
 最常见的形式为:
      神经网络模型各种各样,它们是从不同的角度对生物神经系统不同层次的描述和模拟。有代表性的网络模型有感知器、多层映射BP网络、RBF网络、Ilopficld模型等。目前,在人工神经网络的实际应用中,绝大部分的神经网络模型都是采用BP网络及其变化形式,它也是前向网络的核心部分,是人工神经网络最精华的部分。BP网络主要用于函数逼近、模式识别、数据压缩等领域。
      使用BP神经网络作为模式分类器时,其节点数取决于数据源的维数,即特征空间的维数。但是人们在进行模式采集时,总是尽可能的多采集测量数据的多个特征值,致使样本维数很大。样本维数很大首先带来的问题是处理的困难,处理时间的消耗和费用都会很大,有时直接用于分类甚至是不可能的,即所谓“维数灾难”。其次,在过多的数据量中,有的可能对刻画事物的本质贡献并不大,甚至可以说非常微小。这就需要有一个样本空间到特征空间的转化,通过特征提取压缩样本的维数,在满足识别精度要求的前提下,尽可能的减少处理数据的冗余度,即尽量做到处理数据的各个特征之间不相关。此时,输出层的节点数就是要分成的类别数,即模式空间的维数。在用主成分分析法对人脸图像进行特征提取后,我们用这些特征向量和相应的教师信号来训练BP网络。
图2 神经网络人脸分类器
      由于原始灰度图像数据量十分庞大,神经元数目通常很多,神经网络需要的训练时间很长。
  三、总结
     今天,人脸识别技术虽然离我们的目标仍然有一定的差距,但是随着科学技术的发展及各种技术手段的综合应用,一定会推动人脸识别技术不断向前发展。
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册