首页 优秀范文 图像法论文

图像法论文赏析八篇

时间:2023-03-16 15:56:45

图像法论文

图像法论文第1篇

关键词:模式识别 图像分割 识别方法 特征提取

中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2014)07(a)-0228-01

1 图像分割

作为一种图像技术,图像分割得到了人们广泛的研究与重视,并在实践中也得到应用。在图像应用中,图像分割技术可以在需要进行图像目标提取的工作中发挥重要的作用。如生物医学图像分析、遥感图像分析、文档图像处理、生产过程控制、在线产品检验以及工业自动化中都应用了图像分割技术。应用领域的不同也让图像分割技术具有着不同的名称,如目标追踪技术、目标识别技术、阀值化技术、目标轮廓技术等,这些技术的核心或者本身等同于图像分割技术。图像分割是将某个图像分为具有自身特色的几个区域,并对感兴趣区域提取的过程与技术。这里所提出的特色包括像素的纹理、颜色、灰度等,目标经过预先定义后可以指向单个区域,也可以指向多个区域。由于在研究图像和应用图像的过程中,往往只是对图像的某个部分感兴趣,所以为了对这些部分进行分析与辨识,有必要将他们提取和分离出来,并对他们进行利用,由此可见,图像分割是对图像进行处理以及分析的重要步骤。图像分割的方法多年来一直得到了人们的重视,基于多样化的分割算法基础上,将图像进行分割与分类的方法也非常多,比较通用的分类是根据图像中相邻像素在像素值方面表现出的两个性质:相似性与不连续性。虽然区域内部中的像素都具有相似性,但是不同区域边界上却具有着不连续性,因此,分割算法可以以此为依据分为基于边界的算法和基于区域的算法两种,另外,以分割过程中所使用的处理方法的差异,分割算法可以分为串行算法与并行算法。

2 模式识别理论基础上的图像分割

一般而言,模式识别需要由设计与实现两个过程来组成,设计指的是使用样本开展分类器设计,实现指的是使用设计完成的分类器来对待识别的样本开展分类决策。随着模式识别理论以及技术的发展,模式识别方法也得到了一定程度地创新,当前的模式识别方法主要包括统计模式识别方法;以句法规则结构化模式为依据的模式识别方法以及神经元网络模式识别方法。

图像分割所具有的难点在于分割依据的确定,即难以根据具有确定性的判定标准来对需要分割的图像各个部分开展判断以确定分割对象的位置,因此,基于知识的多特征多级判别的变化域分割概念被提出。在这一概念中,需要对特征进行分析,确定分割对象之间最明显的区分特征来作为分割依据,随后可以根据特征标准来使用经典的图像分割技术分割特征空间并得到可靠的位置结构。同时以分割精确度的差异为依据,开展多特征多级的分割,即在进行特征抽取后以具体需求为依据再次开展特征抽取或者开展多次的特征抽取,每一个提取过程中所使用的特征依据都需要达到减少分析区域的效果,并在此基础上对分割范围进行进一步的确定。具体而言,基于模式识别理论对分割问题作出考虑,分割对象可以根据图像本身的结构特性和统计特性分为分割类与非分割类。每一种事物都具有某些特征来与其他事物进行区分,所以在图像分割过程中也必然能够提取出一些和分割背景具有差异的特征来当做分割依据。在对定位对象进行分割的过程中,可以选择由这些特征所构成的特征空间来开展定位识别,所以本文认为,可以将图像分割的对象当做模式识别对象,把图像分割过程当做模式识别中识别特定模式类并以特征模式类特征为依据来进行分割的过程。

基于模式识别理论的图像分割主要分为四个步骤。

一是对分割对象本身所具有的所有特性做出分析,为分割需要提供依据。在图像分割过程中,选取这些特征的原则为更好、更容易的区分分割对象。在此方面又包括以下几点内容:可靠性,属于同类对象的特征应当相似。区别性,属于不同类别的识别对象所具有的特征值应当存在差异。独立性,在分割过程中所使用的特征应当不存在紧密关联。虽然十分相似的特征可以进行组合,但是不能当做相同的特征。对数量进行控制。特征个数的增加会增大模式识别系统在进行图像分割过程中的复杂程度,其中用于结构测试的样本数量会随着特征量的增加呈现出指数关系的增长。在模式识别理论基础上的图像分割工作中,一般需要开展大量的实验、计算与分析才能够充分了解分割对象所具有的特性,同时需要在具体的图像分割过程中寻找能够区别于复杂背景且稳定、有效的特征来当做图像分割的依据。

二是通过特征空间转换将图像转换成为确定特征基础上的特征空间。在此过程中变换域方法、神经网络方法以及模糊理论等方法都可以作为变换方法。这主要是由于图像分割过程中的复杂背景会产生很多的不确定性因素,并对特征的确定产生干扰,所以在开展图像分割之前,有必要采用数学方法和一些其他的学科理论来变换图像,其目的主要在于让特征这一作为图像分割的依据更加突出。

三是根据已经明确的特征范围和特征标准,采用合理的分割技术来分割特征空间,同时以分割对象的特征标准度范围和标准度量值为依据来匹配图像中的各个区域以确定需要进行分割的区域。另外在分割图像的过程中,最底层环节为图像处理技术,分割中的工作都需要建立在图像处理技术基础上。

四是当分割精度没有达到需求和要求时,有必要进一步开展特征选择,即对以上三个部分进行重复。

综上所述,模式识别理论对于提高图像分割效果而言发挥着重要作用。无论是模式识别理论还是图像分割作为一种具有先进性和现代化特点的技术都具有着良好的应用前景,但是在此过程中,需要认识到二者的发展以及应用价值的提升都需要二者本身做出不断的完善。单从模式识别理论在图像分割中的应用于完善方面来看,首先需要对单识别器的性能进行进一步的提高;其次有必要继续强化对多分类器集成方法的谈论与研究。这对于增加模式识别理论在图像分割方面的应用价值具有重要意义。

参考文献

[1] 靳富丽.模式识别理论及其应用[J].湖北广播电视大学学报,2007(12).

[2] 曾庆鹏,吴水秀,王明文.模式识别中的特征提取研究[J].微计算机信息,2008(1).

[3] 林晓霞,杨晓东.二值图像的模式识别方式[J].福建电脑,2005(6).

图像法论文第2篇

摘 要:对人脸和指静脉在决策层的融合识别,给出一种新的组合图像质量评价方法,并采用一种改进的基于图像质量加权的D-S证据理论融合这两种生物特征。首先,组合图像质量评价法采用清晰度和对比度、相关系数的组合方法来评价生物特征图像质量;其次,应用改进的基于图像质量的匹配值增强方法和D-S证据理论,减少了极大值图像质量指标的影响,使图像质量加权与实际情况更趋一致。实验结果表明,与没有考虑图像质量因素相比,考虑了图像质量信息的D-S证据理论融合方法提高了识别效果。

关键词:人脸;指静脉;独立成分分析;主元分析;图像质量;D-S证据理论

中图分类号: TP391.413 文献标志码:A

Abstract: For the fusing recognition with face and finger-vein at decision level, a new quality score of image by combining three indexes was presented, and an improved fusion strategy based on D-S evident theory was adopted to fuse two biometric characteristics. At first, the quality score of image was computed by combining index of distinct, contrast and coefficient. Then an improved method based on image quality and D-S evident theory was adopted. This improved method reduced the impact of maximum of image quality score and made the weighted parameter with the actual situation more consistent. Compared with the result of D-S evident theory with no regard to image quality, the results reveal that the fusion method in this paper based on D-S evident theory taking account of image quality information improves the performance.

Key words: human face; finger-vein; Independent Component Analysis (ICA); Principal Component Analysis (PCA); image quality; D-S evident theory

0 引言

生物特征识别技术为身份识别和信息安全等领域提供了一条便捷、高效、安全的新途径。目前常见的生物特征识别技术有人脸、指纹、虹膜、指形、静脉、掌纹、步态以及签名等识别技术,其中指纹和人脸识别技术则是最成熟、应用最广泛的技术。

然而这些生物识别方式都有各自的缺点,尚无能取代所有其他生物特征识别的特征,尤其是一些生物特征可能被复制和伪造,影响其安全性。但若能采用融合理论,综合多个生物特征,从理论和实践上都表明能得到比单一生物特征更优的识别性能和通用性[1-3]。

图像质量对生物特征识别系统的识别性能影响很大,对信息完整、图像质量高的样本库所获得的识别率,可能因为图像质量下降而迅速降低。文献[4-10]都对基于图像质量的生物特征做了深入的研究,取得较大进展。其中,Nandakumar等以虹膜和指纹为融合对象,对每次需要匹配的单个待测样本和模板样本的图像质量做出评价,给出一种基于图像质量的似然率指标,对此进行融合得到了满意的识别结论[4]。文献[5]则给出一种新的基于贝叶斯网络的基于图像质量的多生物特征融合系统,将生物特征图像质量和匹配值看作同等地位的量,用贝叶斯网络融合识别。Richiardi等对基于图像质量的语音、人脸、指纹和签名的图像质量评价指标作了综述并分析了将图像质量信息应用到多生物特征融合识别的方法[8]。Fierrez-Aguilara等在文献中分别就指纹与签名、指纹与语音的基于图像质量的融合方法做了分析,主要思路是在每次计算匹配值时考虑图像质量指标,再用基于支持向量机的方法进行融合[10]。

本文结合人脸和手指静脉两种生物特征进行融合识别,以提高识别的精确性和系统的通用性。针对图像采集中易产生噪声干扰,受光照等因素影响而生成质量差的图像,尤其是手指静脉图像采集困难,实现了一种基于图像质量信息加权的D-S证据理论融合手指静脉和人脸特征量的多特征融合识别系统。

1 融合识别系统结构

选择指静脉和人脸进行融合识别出于如下的考虑:静脉识别技术因可实现活体检测,具有更好的精确度和稳定性;速度快、特征唯一,安全性好;且静脉识别以非接触的方式进行认证,也易于被人们接受,并减少因皮肤表面的皱纹及污垢的干扰。而人脸识别作为一种被动识别方式,易于被人接受,也是目前实用化程度较高的一种生物特征识别方法。选择人脸和指静脉进行多生物特征融合识别,可利用人脸识别中成熟的识别算法,并发挥的指静脉识别精度高、不易被伪造的优势,形成互补。

考虑图像质量因素的影响,一种新的基于图像质量的加权D-S证据理论融合系统的结构如图1所示。

由于尚无公开的多生物特征测试数据库,这里选择ORL人脸库[11]和指静脉库[12]组成多生物特征库,包含40个对象,每人10幅人脸和指静脉图像,人为组合组成测试数据库,如图2(a)~(d)所示是其中的4组样本,这种人为的指定并不影响对融合结果的实验效果。

2 生物特征抽取

2.1 基于独立成分分析的指静脉特征抽取

静脉图像匹配方法包括结构匹配、模板匹配等,然后根据实验数据得到的阈值进行判断。

目前的静脉识别方法多集中在模板匹配或细节特征点匹配[13-15]、Gabor滤波和编码[16]等,例如Wan等提出基于细节点特征提取的指纹静脉提取方法,通过匹配汇合点和分叉点的方法实现手指静脉识别[14]。但较少利用静脉图像的全局信息或整体纹理信息进行分析的。这里借鉴独立成分分析在人脸、掌纹等生物特征识别中的应用[17-18],采用基于独立成分分析的方法来抽取特征量,具体步骤如下。

1)归一化图像。

为了方便处理和简化计算,将大小为376×328的原始图像剪切成为150×150大小图像。将该矩阵的每个列向量提出来串接成为一个列向量。新的列向量表示一幅原始图像,所以待处理的n幅图像就组成n×2250的一个矩阵N。

2)对N做独立成分分析。

采用FastICA算法[19],对N做去均值后,FastICA首先对数据做主元分析(Principal Component Analysis, PCA),保留主要信息的基础上,压缩数据;然后进行独立成分提取,经过独立成分分析法抽取特征后所得指静脉基图像的部分示例如图3所示。

补充图3中每个子图的图名。

2.2 基于主元分析的人脸特征抽取主元分析法抽取人脸特征

人脸识别作为生物特征识别中研究最早也较成熟的方法之一,特征提取方法有基于代数的特征提取方法,如最基本的独立成分分析法、主元分析法和线性判别分析法等。Turk等首先提出基于主元分析的特征脸概念,并取得很好的识别效果[20]。其基本思路是将人脸图像数据用基于二阶统计矩的提取方法,映射到主元分量子空间。这里为了分析手指静脉图像和人脸进行融合对识别性能的影响,选用主元分析的方法提取人脸特征。

对ORL人脸库做基于主元分析法的特征提取,首先计算人脸库的人脸图像平均值,然后求取基于主元分析的特征脸,如图4所示为基于主元分析法特征抽取后的部分特征脸示例。

3 基于图像质量信息的人脸和手指静脉特征融合

生物特征的图像质量对识别性能有重要的影响,随着图像质量的下降,识别率将迅速降低,甚至会导致错误的识别结果。而人脸图像的采集容易受光照、采集角度的影响;手指静脉作为一种新兴的生物特征方法,其图像采集更易受可见光、被采集个体等因素的影响,较易产生清晰度差、对比度弱的图像。针对这个存在较差图像质量的情况,若能够在识别过程进行前,对样本的质量信息进行量化,并弱化质量差的信号的影响,将有可能提高系统的识别性能。下面先给出一种组合的图像质量评价方法。

3.1 图像质量评估

图像质量是图像的一个重要信息,对图像质量的评价量主要有主观评价和客观评价,主观评价由人们根据自己的视觉感受,根据视觉效果做出评判,受主观因素影响较大;客观评价以图像内容的数学表示,通过定义定量的数学质量指标,进而判断图像信息[21-23]。客观评价标准分无参考和有参考两大类。有参考的图像质量评价量根据待测图像和标准图像之间的差异性来判断,差异性越大,说明图像质量与标准图像相差越大,质量越差,常用的指标有峰值信噪比和均方误差等。但应用过程中,标准图像的较难选择或找不到合适的量。图像质量评价的主要问题是评价指标的通用性差,对某些图像,有些指标甚至背离了人类视觉感受。

常用的图像质量评价可根据结构信息相似量、图像中包含信息量多少、图像对比度、清晰度和图像边缘信息等角度进行分析。以下是几种主要客观图像质量评价度量指标。

1)无参考图像质量指标。

无参考图像质量指标有图像的均值、图像的方差、图像的熵、拉普拉斯和值等。图像的熵的定义为:

H=-∑L-1i=0p(i) ln p(i)(1)

其中p(i)是灰度i的分布概率。该指标表示图像包含平均信息量多少的度量。熵值越大说明图像包含信息量越多。

2)有参考图像质量指标。

有参考图像质量指标有均方根误差、峰值信噪比、相关系数、结构相似度等。皮尔松相关系数定义为:

Qp=corrcoeff(IA,I)(2)

其中:I为待测图像,IA训练样本平均值,Qp为图像质量的量度值。

3)亮度对比值。

人们观察图像时,对局部区域的绝对亮度不敏感,对局部区域与相邻区域的相对亮度变化敏感,根据这一特点将图像划分成N×N的不重叠的子图像,第(m,n)个块的亮度对比度值定义为其亮度的标准差[21]:

Ic(m,n)=1N×N ∑n×N+Nj=n×N+1 ∑m×N+Ni=m×N+1(I(i, j)-I(m,n))2(3)

4)图像清晰度指标[22-23]。

清晰度方法是利用相邻像素点的差异来度量图像清晰度。利用高斯拉普拉斯算子:

LOG(x,y)是L0G,还是数学上的对数书写形式Log?即中间的是零,还是字符“o”?请明确。=-1πδ41-x2+y22δ2exp-x2+y22δ2(4)

其中:σ为高斯函数的标准方差,其值较小时,锐化图像;反之则平滑图像。常用大小为5×5的高斯拉普拉斯算子。

利用待测图像与高斯拉普拉斯算子卷积后的水平像素灰度均值来定义图像清晰度[22]:

Q0(y)=∑yI(x,y)*LOG这个“LoG”中,中间的字母是“o”,还是零?请明确。(x,y)(5)

Qq=1N∑yQ0(y)(6)

其中N为图像高度。若图像清晰,对应的Qq值大;反之若图像模糊,则每个像素附近的灰度值变化很小,对应的图像高频量小,Qq值也小。

5)组合的图像质量评价法方法。

本文根据图像质量评价指标的特点,综合图像清晰度Qq、亮度对比度Ic和相关系数Qp的质量评价指标,定义整体质量评价量为:

Qs=W1Qq+W2Ic+W2Qp(7)

图5是一组图像质量由好到差的样本,除了个体因素的差异外,主要是图像采集装置性能、光照条件等都不可能完全一致,导致了存在一定量的较差图像质量样本。其中图(a)、(b)图纹理清晰,对比度好,图(c)对比度强,图(d)、(e)质量较弱。

根据计算结果和主观评价赋予权值量W1,W2,W3分布为1,0.5,0.5。最后所得Qs如表1所示,所得结果和主观评价基本符合,能够反映图像清晰度和对比度,体现了人眼对图像质量的主观感受。

下面分析一种基于图像质量的加权D-S证据理论融合方法,来探讨考虑图像质量信息后对识别性能的影响。

3.2 基于图像质量加权的证据理论融合方法

由于待识别的对象个性差异及硬件因素,存在着图像噪声、图像质量差、所需生物特征信息缺损等不利因素,此外还有识别算法的内在缺陷,两个来自同一对象的生物特征可能得出不同的结果,这时常规的如加和、乘积、最大值法等融合策略的结果有可能比单生物特征识别还差。通过D-S证据理论对不确定信息的融合有望提高融合识别性能。

Vatsa等提出基于图像质量和Dezert-Smarandache理论的多个指纹特征融合识别方法[6]。首先对指纹图像的质量信息用基于冗余离散小波变换(Redundant Discrete Wavelet Transform, RDWT)方法求得度量值,然后对图像匹配值做基于图像质量评估度量值的增强,最后采用Dezert-Smarandache理论进行融合识别。

本文对Vatsa的对基于图像质量的图像匹配值增强方法作了改进,并对人脸和手指静脉图像进行基于图像质量D-S证据理论进行融合识别,具体方法如下。

先对图像采用式(7)方法计算图像质量的量化值:求出一组训练样本的平均值IA,然后计算每个待测样本的图像质量数Qs。

然后在D-S证据理论组合规则上,考虑图像质量因素的影响,将图像质量信息正则化,Vatsa采用Tanh方法,使得其范围在[0,1]。

在3.1节的图像质量评估分析中,本文采用组合的图像质量评估方法使其与主观评估相一致,但考虑到图像质量评估对不同光照、对比度和纹理等差别的反映情况不同,且通用性有限,其图像质量评估指标的最高值并不意味着该图像一定具有最强的可分性,本文对以上的图像质量信息正则化方法进行如下改进:

Qnorm=Qs-min(Qs)med(Qs)-min(Qs)(8)

该方法用中间值med(Qs)代替质量评估量化的最大值,减少图像质量最大值的影响,使正则化的结果更为恰当。

Vatsa采用的方法中对所有质量信息以阈值为0.5分作两种情况对特征匹配值进行基于图像质量的增强。根据本文采用的待融合生物特征,尤其是手指静脉图像,个别图像质量因光照和生物个体原因,难以根据该图像进行识别,根据这一情况,本文作如下改进,通过实验求得评估图像质量为差的阈值,该阈值以下的图像信息不参与融合识别。在图像质量分数值大于阈值时,可对特征匹配值进行基于图像质量的变换如式(9)所示:

Sqj=Qnormsj0.5, θ≤Qnorm≤0.5(1-Qnorm)sj0.5,0.5

下面采用D-S证据理论进行融合识别。Dempster于1967年提出D-S证据理论,之后Shafer用信任度函数和似然度函数扩展了该理论,成为处理不精确性的信息的数学方法,称做D-S证据理论[24-25]。该理论可看作对贝叶斯决策的推广,通过定义信任函数和似然函数把命题的不确定性问题转化成集合的不确定问题,解决因信息不完备或模糊性导致的不确定,只要求证据间相互独立。D-S证据理论已经成为不确定性决策的常用理论,可以用于决策分析或故障诊断等领域。

D-S证据理论作为表达和处理不确定性知识的数学工具,可有效处理单生物特征在识别系统中存在的冲突性和不确定性。利用人脸和手指静脉的基于D-S证据理论融合识别时,是由人脸和手指静脉两个识别子系统提供两个证据实现融合识别,其中首先需要确定每条证据的基本概率赋值函数。在此基础上,利用D-S证据理论的合成规则将相关证据生成一个新的证据,得到最后的可信度和判决结果。这里的证据信息来自两个识别子系统,保证了证据间相互独立。

定义U是完备的有限集合,用2U表示U所有子集和空集。

定义m(•)=2U[0,1],称做基本概率赋值,0表示完全不信任,1表示完全信任。对每个分类器有确认a和拒绝-a(-a=U-a)两个结果,计算相应的分类识别率作为基本概率赋值[6]。假设对一个输入模式类别为j(j∈c)被分配到包括拒绝类的k(k∈c+1)类,则分类器输出[24]为k的预测率Pk是输入模式正确分类的个数和被分类到k所有模式总数的比率。该方法表明对匹配值Sqj对第j个对象分类到k,所有对象被正确分类的可能性是Pkj,没有正确分类的可能性是1-Pkj,对第j个对象的基本概率赋值计算如式(10):

mj(k)=Pkj•sqj(10)

利用D-S证据组合规则,对多个证据的组合为:假定A,B用来计算焦元C新的信任函数,D-S证据组合规则:

m(C)=∑A∩B=Cm(A)m(B)1-∑A∩B=m(A)m(B)(11)

这里有两种生物特征对应两个分类器, j=1,2,在获得基本概率赋值后,利用基于证据理论的组合规则求:

mfinal=m1m2(12)

最后用阈值法进行判决。

判决结果=接受, mfinal≥t拒绝,其他 (13)

4 融合实验结果分析

本文选择ORL库和指纹静脉图像组合形成融合特征库。多生物特征库中每个对象每种特征的前5个样本进行训练,其余的样本进行测试。在进行同类测试和异类测试时候,计算欧几里得距离作为匹配值。采用基于图像质量因素的加权D-S证据理论融合,首先求取一组待融合的人脸和手指静脉图像的图像质量度量,根据第3章的方法将图像质量的信息增加到融合过程中。再采用D-S证据理论融合,对基本概率赋值进行组合,得到最后的融合结果。为评价和分析考虑图像质量信息的效果,与不考虑图像质量信息时的D-S证据理论融合作对比分析。将错误接受率(False Acceptance Rate, FAR)和错误拒绝率(False Rejection Rate, FRR)在同一坐标中表示的结果如图6所示,是对基于图像质量加权D-S证据理论融合和常规D-S证据理论融合的结果比较。

结果表明基于图像质量加权的D-S证据理论能降低识别结果的不确定性,提高识别性能,得到更好的识别效果。

已有较多研究工作[6-10]充分利用图像质量信息来提高识别系统的性能,这些文献中基于图像质量的融合识别不仅比单生物特征优越,也明显优于基本的Sum、加权和、最大或最小、乘积等融合策略,现将这些已有的考虑图像质量信息的融合方法加以比较,其中EER(Equal Error Rate)即等错误率,如表2所示。

5 结语

D-S证据理论定义信任函数和似然函数分析处理随机性或模糊性产生的不确定性,可避免先验概率和条件概率的求取。鉴于生物特征识别系统中图像质量对识别性能的重要影响,以及多生物特征(尤其是诸如手指静脉和人脸不相关的特征)融合识别可提升系统识别性能,本文结合融合理论利用多源信息的冗余性和互补性来克服信息的不精确性和不完整性,并考虑图像质量信息进行基于D-S证据理论的多特征融合识别分析。结果表明该方法可有效地处理不确定性和不精确性的信息,基于图像质量加权的D-S证据理论的多特征融合识别有效提高了系统的识别性能。

参考文献:

[1]

ROSS A, JAIN A K, QIAN J Z. Information fusion in biometries [J]. Pattern Recognition Letters, 2003, 24(13): 2115-2125.

[2]

HONG L, JAIN A, PANKANTI S. Can multibiometrics improve performance? [C]// Proceedings of 1999 IEEE Workshop on Automatic Identification Advanced Technologies. Piscataway: IEEE, 1999: 59-64.

[3]

JAIN A K, PANKANTI S, PRABHAKAR S, et al. Biometrics: A grand challenge [C]// Proceedings of the 17th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 935-942.

[4]

NANDAKUMAR K, CHEN Y, Jain A K, et al. Quality-based score level fusion in multibiometric systems [C]// Proceedings of the 18th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, (4): 473-476.

[5]

MAURER D E, BAKER J P. Fusing multimodal biometrics with quality estimates via a Bayesian belief network [J]. Pattern Recognition, 2008, 41(3): 821-832.

[6]

VATSA M, SINGH R, NOORE A, et al. Quality-augmented fusion of level-2 and level-3 fingerprint information using DSM theory [J]. International Journal of Approximate Reasoning, 2009, 50(1): 51-61.

[7]

FIERREZ-AGUILAR J, CHEN Y, ORTEGA-GARCIA J, et al. Incorporating image quality in multi-algorithm fingerprint verification [C]// Proceedings of the International Conference on Biometrics. Berlin: Springer-Verlag, 2006: 213-220.

[8]

RICHIARDI J, KRYSZCZUK K, DRYGAJLO A. Quality measures in unimodal and multimodal biometric verification [C]// Proceedings of the 15th European Conference on Signal Processing. Poznan, Poland: EURASIP, 2007: 301-310.

[9]

SINGH R, VATSA M, NOORE A, et al. DS theory classifier fusion with update rule to minimize training time [J]. IEICE Electronics Express, 2006, 3(20): 429-435.

[10]

FIERREZ-AGUILAR J, ORTEGA-GARCIA J, GONZALEZ-RO-DRIGUEZ J, et al. Discriminative multimodal biometric authentication based on quality measures [J]. Pattern Recognition, 2005, 38 (5): 777-779.

[11]

AT&T Laboratories Cambridge. The ORL database of faces [EB/OL]. [2011-03-25]. .

[12]

余成波,秦华锋.手指静脉识别技术[M].北京:清华大学出版社,2009.

[13]

MIURA N, NAGASAKA A, MIYATAKE T. Feature extraction of finger-vein patterns based on repeated line tracking and its application to personal identification [J]. Machine Vision and Applications, 2004, 15(4): 194-203.

[14]

WAN LINGYU, LEEDHAM G, CHO D S-Y, et al. Minutiae feature analysis for infrared hand vein pattern biometrics [J]. Pattern Recognition, 2008, 41(3): 920-929.

[15]

WAN LINGYU, LEEDHAM G. A thermal hand vein pattern verification system [C]// Proceedings of the Third International Conference on Advances in Pattern Recognition and Image Analysis. Berlin: Springer-Verlag, 2005: 58-65.

[16]

YANG JINFENG, SHI YIHUA, YANG JINLI. Personal identification based on finger-vein features [J]. Computers in Human Behavior, 2011, 27(5): 1565-1570.

[17]

BARTLETT M S, MOVELLAN J R, SEJNOWSKI T J. Face recognition by independent component analysis [J]. IEEE Transactions on Neural Network, 2002, 13(6): 1450-1464.

[18]

DENIZ O, CASTRILLON M, HERNANDEZ M, et al. Face recognition using independent component analysis and support vector machines [J]. Pattern Recognition Letters, 2003, 24(13): 2153-2157.

[19]

HURRI J. FastICA [EB/OL]. [2011-04-19]. cis.hut.fi/projects/ica/fastica.

[20]

TURK M, PENTLAND A. Eigenfaces for recognition [J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86.

[21]

李奇,冯华君,徐之海,等.数字图象清晰度评价函数研究[J].光子学报,2002,31(6):736-738.

[22]

王鸿南,钟文,汪静,等.图像清晰度评价方法研究[J].中国图象图形学报,2004,9(7):828-892.

[23]

WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[24]

PARIKH C R, PONT M J, JONES N B. Application of Dempster-Shafer theory in condition monitoring systems: A case study [J]. Pattern Recognition Letters, 2001, 22 (6/7): 777-785.

[25]

DEZERT J. Foundations for a new theory of a plausible and paradoxical reasoning [J]. Information and Security Journal, 2002, 12(1): 13-57.

收稿日期:2011-06-15;修回日期:2011-08-08。

图像法论文第3篇

关键词:雾气理论;视频;去雾;大气透射率

0 引言

雾天单幅图像的处理方法可以分为两类:图像增强和图像复原。图像增强方法通过增强图像的细节,改善图像的视觉效果来达到视觉上的去雾效果。这种方法计算相对简单,适应性广,但对于局部景深的变化细节处理有待改进。而图像的复原方法是建立雾天退化模型,通过补偿退化过程造成的失真进而获得无雾图像或者是最贴近的估计结果。目前,第二种方法发展较快,有Tan[1]提出的算法,此算法通过最大化提升雾天图像的局部对比度来达到去雾的目的。Fattal等人[2]则假设雾天图像局部区域的反射强度为常向量,利用独立成分分析估计场景的常向量反射强度。HE等人[3]提出一种暗原色先验去雾算法,这种方法利用雾气浓度的暗原色先验规律,估算出场景透射率,然后求出无雾图像。

目前针对雾天视频的去雾方法主要建立单幅图像去雾的基础上,也可分为基于图像增强和基于物理模型的视频去雾方法两类。前者对视频的每一帧进行直方图去雾化处理,后者则是对背景图像采用去雾算法进行处理,求取得到相关的参数后,再将物理模型与原始视频结合得到完整的去雾视频。

1 雾气理论

1.1 大气散射理论

大气散射模型由大气光成像模型和入射光衰减模型组成[4]。何恺明[3]给出了雾霾天气下单色大气散射模型的简化表达式为:

其中,A为大气光强为输入的有雾图像,为空间坐标x处的场景反照率,为大气的散射系数,是观测点到场景点的距离。去雾的本质就是通过求取以及A的值以从原有雾图像中得到去雾后的图像。

1.2 暗原色先验理论

在原始的雾气图像中,雾气的浓度会随着景物距离的变化而变化,因此透射率是一个变化的参数,而暗原色先验则提供了估算透射率的方法。暗颜色先验理论是对大量室外无雾图像的观察统计得到的:在排除了天空等大面积明亮区域后的无雾图像中,存在这样的一些像素点,它们在RGB3个颜色通道中至少一个通道的值很低,这就是暗原色的概念,数学模型为[3]:

其中为原始图像的颜色通道,为红绿蓝3个颜色通道,c为颜色通道的合集;为以x为中心的局部区域。通过观察统计得到,的值较低且趋近于0。如果J是无雾图像,则被称为J的暗通道。

2 基于大气散射理论的去雾算法

2.1 简化的大气散射理论

从大气散射模型出发,定义,,则散射模型表达式变换如下:

其中,表示介质在图像位置x处的传播函数或者透射率,为复原后的无雾图像。定义,则(3)式变换为:

其中,为大气耗散函数,它表示环境光对图像的附加部分。这里去雾问题就转化为计算大气透射率和大气光强的问题。

2.2 去雾算法流程

本文的去雾算法:第一步,假定是固定场景的有雾视频,因此可以通过帧差法获得视频的背景图像;再通过暗原色的值的变化来估计大气透过率,获得背景图像的大气透射率,由此即可通过运算求得。第二步,用暗原色先验方法的统计信息估算出大气光强值A,并将原始图像数据代入到(4)式中即可求得去雾后的复原图像。

2.3 大气透射率估计

在雾霾天气下获得的图像,由于大气光参与成像,会使得暗原色强度值发生变化,而大气透射率是与这个值直接相关的,因此可以通过暗原色值的变化来估计大气透射率[3]。这个粗略估计的大气透射率可以表示为:

其中是调节因子,使复原的图像更接近真实图像。

本文采用双边滤波的方法对原始图像进行处理,目的在于消除其中可能导致图像复原错误的细节信息。双边滤波采用加权平均获取图像的强度值[5],其定义为:

这里为粗略估计的大气透射率,为滤波优化后的大气透射率,表示像素的邻域,和分别是空间域和灰度域的权重,是归一化参数,而后三个权重参数可由以下公式求取:

越小则图像细节和边缘越清晰,则这里取8,取0.1。

2.4 大气光强估计

目前已经有很多方法解决这一问题。如对边缘检测处理后的图像采用灰度腐蚀的方式进行分块统计,找到候选的天空区域,但这种方法要求场景中必须存在天空区域。本文先对三个颜色分量进行灰度腐蚀,然后将处理后的图像中各像素点的亮度值按照递减的方式进行排序,从这些最小值中选取0.1%最亮的像素所在的位置,找到这些位置所对应的原始有雾图像区域,而这些区域中的像素最大值就是大气光强A的估算值。

3 分析与应用

3.1 去雾效果验证

实验采用了VS2008在Core(TM)i5,3.20GHz,3.47GB内存的PC机上对本文提出的去雾算法进行了分析验证,图1图2即为采用本算法后的图像去雾效果图。

3.2 计算速度

视频去雾处理的时间长短取决于视频帧图像的大小、视频算法的复杂度以及场景的复杂度。本文算法是对暗颜色先验去雾方法的改进。对于暗颜色先验去雾方法而言,算法需对每帧图像进行按雾气浓度的局部颜色修复,因而计算量较大。相比之下,双边滤波估算大气透射率的去雾方法,其复杂度与视频帧图像总像素数目线性相关,因而该方法的运算速度比较快。表1是这两种算法的运算速度对比。

3.3 视频图像去雾系统

利用本文的理论,构建了一套视频图像去雾系统。这套系统可以降低监控视频画面中雾霾的影响,改善视频图像质量,减少恶劣天气对CCD摄像机的监控画面的干扰,让视频监控系统看得更远、更清楚、更准确。目前,这套系统已经应用在了黄山风景区的视频监控系统之中,改善图像的成像质量,使得图像信息更加丰富,为黄山景区视频监控提供亮丽、清晰、准确的图像画面。

4 总结与展望

本文提出了基于大气散射理论的视频去雾算法。这种算法基于固定场景下使用双边滤波的方式改进了原有的暗原色先验估计大气透射率的方法。实验结果显示这种算法去雾效果较为清晰,对比度较原始图像有明显的提升,且处理速度相对较快。而对于不断发生变化的有雾场景,还需要提出一种更精确的背景建模和检测场景变化的方法,这个是下一步需要解决的问题。

参考文献:

[1]TAN R.Visibility in bad weather from a single image[c]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington,DC:IEEEComputer Society,2008:2347-2354.

[2]FATTALR.Single image dehazing[J].ACM Transactionson Graphics,2008,27(03):721-729.

图像法论文第4篇

论文摘要:分割的目的是将图像划分为不同区域。图像分割算法一般是基于亮度值的两个基本特性之一:不连续性和相似性。第一类性质的已用途径是基于亮度的不连续变化分割图像,比如图像的边缘。第二类的主要应用途径是依据事先制订的准则将图像分割为相似的区域。门限处理、区域生长、区域分离和聚合都是这类方法的实例。遗传算法具有简单、鲁棒性好和本质并行的突出优点。其在应用领域取得的巨大成功,引起了广大学者的关注。在图像分割领域,遗传算法常用来帮助确定分割阈值。

本文介绍讨论了几种目前广泛应用的图像边缘检测、图像阈值分割的各种算法,并给出了对比分析;对遗传算法的基本概念和研究进展进行了综述;给出了标准遗传算法的原理、过程、实验结果及分析.实验结果表明,本文提出的遗传分割算法优于传统分割算法。

第一章绪论1.1图像分割综述

图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。这里所说的特性可以是灰度、颜色、纹理等,而目标可以对应单个区域,也可以对应多个区域。图像分割是数字图像处理中的一项关键技术,它使得其后的图像分析,识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。而且,在数字图像处理工程中,一方面,图像分割是目标表达的基础,对特征测量有重要的影响;另一方面,图像分割是自动目标识别的关键步骤,图像分割及其基于分割的目标表达、特征提取和参数测量等将原始图像转化为更抽象更紧凑的形式,分割中出现的误差会传播至高层次处理阶段,因此分割的精确程度是至关重要的。只有通过细致精细的图像分割,才能使得更高层的图像分析和理解成为可能。因此,图像分割是由图像处理进到图像分析的关键步骤,在图像工程中占据重要的位置。

1.2图像分割的研究意义与发展现状

作为计算机视觉和图像处理中的难点和热点之一,图像分割的研究受到了研究工作者的高度重视,对图像分割进行了深入、广泛的研究。作为一种重要的图像技术,图像分割在不同领域中有时也用其它名称:如目标轮廓(objectdelineation)技术,阈值化(thresholding)技术,图像区分或求差(imagediscrimination)技术,目标检测(targetdetection)技术,目标识别(targetrecognition)技术,目标跟踪(targettracking)技术等,但这些技术本身或其核心实际上也就是图像分割技术。图像分割作为图像处理、分析的一项基本内容,其应用非常广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。在工业自动化、在线产品检验、生产程控、文件图像处理、遥感图像、保安监视、以及军事、体育、农业等行业和工程中,图像分割都有着广泛的应用。例如:在遥感图像中,合成孔径雷达图像中目标的分割、遥感云图中不同云系和背景分布的分割等;在医学应用中,脑部MR图像分割成灰质(GM)、白质(WM)、脑脊髓(CSF)等脑组织和其它脑组织区域(NB)等;在交通图像分析中,把车辆目标从背景中分割出来等;在面向对象的图像压缩和基于内容的图像检索中将图像分割成不同的对象区域等。在各种图像应用中,只要需对图像目标进行提取,测量等都离不开图像分割。

自20世纪70年代至今,已提出上千种各种类型的分割算法。如:门限法、匹配法、区域生长法、分裂-合并法、水线法、马尔可夫随机场模型法、多尺度法、小波分析法、数学形态学等。随着新理论、新技术的发展,一些新的图像分割方法也随之出现,但这些分割算法都是针对某一类型图像、某一具体的应用问题而提出的,并没有一种适合所有图像的通用分割算法。通用方法和策略仍面临着巨大的困难。另外,还没有制定出选择适用分割算法的标准,这给图像分割技术的应用带来许多实际问题。

1.3本论文所作的工作

据此,在本论文中只对常用的、并在实践中行之有效的边缘检测方法和阈值分割方法进行深入的了解,并对阈值分割方法中的灰度直方图双峰法和基于遗传算法的最大类间方差法进行详细的讨论,同时用Matlab对上述两种方法进行验证并给出结果。

1.4本论文的论述内容

本文对图像分割的整个过程中的一些常用的,经实践检验行之有效的算法进行了讨论和改进。全文共七章。第一章为绪论,主要介绍了现阶段图像分割技术的发展现状和研究意义。其他六章分别在以下几个方面介绍了本文所做的工作:

1.对本文所采用的试验测试工具Matlab进行简介。

2.简介数字图像的基础问题。概述了数字图像的基本概念和特点,简介了各种图像格式的特点和应用,为全文的讨论作一铺垫。

3.详细讨论了图像分割中的基于阈值的图像分割方法,给出了直方双峰法的算法和验证结果,并简要介绍了普通最大类间方差法的算法过程。

4.对遗传算法理论进行简介。详细讨论了遗传算法的定义和标准遗传算法的流程和要素。为应用此方法对最大阈值进行迭代寻优打下基础。

6.应用遗传算法改进了最大类间方差法。给出了整个遗传操作的使用函数与具体进程,并对实例图片进行处理,得到处理结果并得到迭代最优阈值M。

本文研究了图像分割的相关理论和常用技术,并对遗传算法进行了介绍,对遗传算法应用于图像分割进行了验证.

第二章Matlab简介2.1MATLAB的概况和产生背景2.1.1MATLAB的概况

MATLAB是矩阵实验室(MatrixLaboratory)之意。除具备卓越的数值计算能力外,它还提供了专业水平的符号计算,文字处理,可视化建模仿真和实时控制等功能。MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多.

当前流行的MATLAB包括拥有数百个内部函数的主包和三十几种工具包(Toolbox).工具包又可以分为功能性工具包和学科工具包.功能工具包用来扩充MATLAB的符号计算,可视化建模仿真,文字处理及实时控制等功能.学科工具包是专业性比较强的工具包,控制工具包,信号处理工具包,通信工具包等都属于此类.开放性使MATLAB广受用户欢迎.除内部函数外,所有MATLAB主包文件和各种工具包都是可读可修改的文件,用户通过对源程序的修改或加入自己编写程序构造新的专用工具包.

2.1.2MATLAB产生的历史背景

在70年代中期,CleveMoler博士和其同事在美国国家科学基金的资助下开发了调用EISPACK和LINPACK的FORTRAN子程序库.EISPACK是特征值求解的FOETRAN程序库,LINPACK是解线性方程的程序库.在当时,这两个程序库代表矩阵运算的最高水平.到70年代后期,身为美国NewMexico大学计算机系系主任的CleveMoler,在给学生讲授线性代数课程时,想教学生使用EISPACK和LINPACK程序库,但他发现学生用FORTRAN编写接口程序很费时间,于是他开始自己动手,利用业余时间为学生编写EISPACK和LINPACK的接口程序.CleveMoler给这个接口程序取名为MATLAB,该名为矩阵(matrix)和实验室(labotatory)两个英文单词的前三个字母的组合.在以后的数年里,MATLAB在多所大学里作为教学辅助软件使用,并作为面向大众的免费软件广为流传。1983年春天,CleveMoler到Standford大学讲学,MATLAB深深地吸引了工程师JohnLittle.JohnLittle敏锐地觉察到MATLAB在工程领域的广阔前景.同年,他和CleveMoler,SteveBangert一起,用C语言开发了第二代专业版.这一代的MATLAB语言同时具备了数值计算和数据图示化的功能.1984年,CleveMoler和JohnLittle成立了MathWorks公司,正式把MATLAB推向市场,并继续进行MATLAB的研究和开发.

在当今30多个数学类科技应用软件中,就软件数学处理的原始内核而言,可分为两大类.一类是数值计算型软件,如MATLAB,Xmath,Gauss等,这类软件长于数值计算,对处理大批数据效率高;另一类是数学分析型软件,Mathematica,Maple等,这类软件以符号计算见长,能给出解析解和任意精确解,其缺点是处理大量数据时效率较低.MathWorks公司顺应多功能需求之潮流,在其卓越数值计算和图示能力的基础上,又率先在专业水平上开拓了其符号计算,文字处理,可视化建模和实时控制能力,开发了适合多学科,多部门要求的新一代科技应用软件MATLAB.经过多年的国际竞争,MATLAB以经占据了数值软件市场的主导地位.

在MATLAB进入市场前,国际上的许多软件包都是直接以FORTRANC语言等编程语言开发的。这种软件的缺点是使用面窄,接口简陋,程序结构不开放以及没有标准的基库,很难适应各学科的最新发展,因而很难推广。MATLAB的出现,为各国科学家开发学科软件提供了新的基础。在MATLAB问世不久的80年代中期,原先控制领域里的一些软件包纷纷被淘汰或在MATLAB上重建。

时至今日,经过MathWorks公司的不断完善,MATLAB已经发展成为适合多学科,多种工作平台的功能强大大大型软件。在国外,MATLAB已经经受了多年考验。在欧美等高校,MATLAB已经成为线性代数,自动控制理论,数理统计,数字信号处理,时间序列分析,动态系统仿真等高级课程的基本教学工具;成为攻读学位的大学生,硕士生,博士生必须掌握的基本技能。在设计研究单位和工业部门,MATLAB被广泛用于科学研究和解决各种具体问题。在国内,特别是工程界,MATLAB一定会盛行起来。可以说,无论你从事工程方面的哪个学科,都能在MATLAB里找到合适的功能。

2.2MATLAB的语言特点

一种语言之所以能如此迅速地普及,显示出如此旺盛的生命力,是由于它有着不同于其他语言的特点,正如同FORTRAN和C等高级语言使人们摆脱了需要直接对计算机硬件资源进行操作一样,被称作为第四代计算机语言的MATLAB,利用其丰富的函数资源,使编程人员从繁琐的程序代码中解放出来。MATLAB最突出的特点就是简洁。MATLAB用更直观的,符合人们思维习惯的代码,代替了C和FORTRAN语言的冗长代码。MATLAB给用户带来的是最直观,最简洁的程序开发环境。以下简单介绍一下MATLAB的主要特点。

1.语言简洁紧凑,使用方便灵活,库函数极其丰富。MATLAB程序书写形式自由,利用起丰富的库函数避开繁杂的子程序编程任务,压缩了一切不必要的编程工作。由于库函数都由本领域的专家编写,用户不必担心函数的可靠性。可以说,用MATLAB进行科技开发是站在专家的肩膀上。更为难能可贵的是,MATLAB甚至具有一定的智能水平,所以用户根本不用怀疑MATLAB的准确性。

2.运算符丰富。由于MATLAB是用C语言编写的,MATLAB提供了和C语言几乎一样多的运算符,灵活使用MATLAB的运算符将使程序变得极为简短。

3.MATLAB既具有结构化的控制语句(如for循环,while循环,break语句和if语句),又有面向对象编程的特性。

4.程序限制不严格,程序设计自由度大。例如,在MATLAB里,用户无需对矩阵预定义就可使用。

5.程序的可移植性很好,基本上不做修改就可以在各种型号的计算机和操作系统上运行。

6.MATLAB的图形功能强大。在FORTRAN和C语言里,绘图都很不容易,但在MATLAB里,数据的可视化非常简单。MATLAB还具有较强的编辑图形界面的能力。

7.MATLAB的缺点是,它和其他高级程序相比,程序的执行速度较慢。由于MATLAB的程序不用编译等预处理,也不生成可执行文件,程序为解释执行,所以速度较慢。

8.功能强大的工具箱是MATLAB的另一特色。MATLAB包含两个部分:核心部分和各种可选的工具箱。核心部分中有数百个核心内部函数。其工具箱又分为两类:功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能,图示建模仿真功能,文字处理功能以及与硬件实时交互功能。功能性工具箱用于多种学科。而学科性工具箱是专业性比较强的,如control,toolbox,signlproceessingtoolbox,commumnicationtoolbox等。这些工具箱都是由该领域内学术水平很高的专家编写的,所以用户无需编写自己学科范围内的基础程序,而直接进行高,精,尖的研究。

9.源程序的开放性。开放性也许是MATLAB最受人们欢迎的特点。除内部函数以外,所有MATLAB的核心文件和工具箱文件都是可读可改的源文件,用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。

2.3MATLAB遗传算法工具箱简介

鉴于Matlab强大的扩展功能和影响力,各个领域的专家相继突出了许多基于Matlab的专用工具箱。本文所采用的遗传算法工具箱,就是由英国谢菲尔德(Sheffield)大学设计推出的。相对于其他版本的遗传算法工具箱,如:美国北卡莱罗纳州立大学推出的遗传算法优化工具箱GAOT(GeneticAlgorithmOptimizationToolbox),以及MathWorks公司最新的一个专门设计的Matlab遗传算法和直接搜索工具箱(GeneticAlgorithmandDirectSearchToolbox),本工具箱的出现最早,影响较大且功能较为完备。文中所采用的所有遗传操作函数大部分出自本工具箱。

第三章数字图像基础简介

图像处理的首要一步,就是要了解图像的基本性质与特点。只有充分了解和掌握了所要处理得图像的特点和性质,才能在接下来的处理中根据图像的特点获取所需的信息,并对其进行相应的处理。

本章将介绍数字图像的基础知识,以及图像在计算机处理中的信息表达形式,并对几种常用的图像文件格式Bmp,Jpeg以及Png等做简要的介绍。

3.1图像的基本概念及其特点

要对图像进行处理,必须清楚图像的概念。一般来说,二维或三维景物呈现在人眼中的样子就是图像。图像具有以下三个方面的特点:

①图像带有大量的信息,一幅图像顶得上千言万语;

②图像种类繁多,包括照片、绘图视频图像等;

③人类从外界获得的大部分信息来自视觉系统。

人们看到的任何自然界的图像都是连续的模拟图像。其形状和形态表现由图像各位置的颜色来决定。可以用f(x,y)表示一幅模拟图像,其中x,y表示空间坐标点的位置,f表示图像在点(x,y)的某种性质的数值,如亮度、颜色等,f、x、y可以是任意的实数。而把连续空间的图像在坐标空间(X,Y)和性质空间F都离散化,以便于计算机进行加工处理的离散化的图像则称为数字图像。数字图像用I(r,c)来表示,其中:r=row为行,c=col为列,表示空间离散点的坐标,I表示离散化的图像f。I,r,c都是整数。实际中仍习惯用f(x,y)表示数字图像。图像存储画面的形式为栅格结构:即将图像划分为均匀分布的栅格(像素),显式的记录每一像素的亮度和颜色;而将像素的坐标值规则地隐含起来,其位置排列规则,通常为矩形排列。

3.2图像的格式

组成数字图像的基本单位称为像素(Pixel),把像素按不同的方式进行组织和存储,就得到不同的图像格式;把图像数据存为文件就得到图像文件。图像文件按其格式的不同一般具有不同的扩展名。常用的图像文件格式有位图文件、JPEG文件、GIF文件、PNG文件等。每一种格式都有它的特点和用途,在选择输出的图像文件格式时,应考虑图像的应用目的以及图像文件格式对图像数据类型的要求。下面我们介绍几种常用的图像文件格式及其特点。

3.2.1BMP图像格式

这是一种DOS和Windows兼容计算机系统的标准图像格式。BMP格式支持索引色、灰度等色彩模式。图像存储为BMP格式时,每一个像素所占的位数可以是1位、4位、8位或32位,相对应的颜色数也从黑白一直到真彩色。对于使用Windows格式的4位和8位图像,可以指定采用RLE压缩。BMP图像文件含文件头、调色板数据和图像数据三个层次。其中文件头由定义文件标识、大小即图像数据偏移量的BITMAPF工LEHEADER以及指定BMP图像自身的若干参数的BITMAPINFOHEADER两部分组成。这种格式在PC机上应用非常普遍。

3.2.2JPEG图像格式

JPEG是由联合照片专家组(JiontPhotographicExpertsGroup)开发的一种图像文件格式。它采用有损压缩方式去除冗余的图像和彩色数据,在获取极高的压缩率的同时也能展现十分丰富生动的图像。也就是说,可以用较少的磁盘空间得到较好的图像质。另外,JPEG还是一种比较灵活的格式,当将图像保存为JPEG格式时,允许用户用不同的压缩比例对文件进行压缩,就是可以指定图像的品质和压缩级别。

3.2.3TIFF图像格式

TIFF文件主要由三部份组成,包括文件头、标识信息区和图像数据区。T工FF文件的图像数据区以行扫描的方式存取图像,存储图像前先将图像分割成若干部分,压缩后再存储。存储时,单色图像一个字节存储8个点,16色图像一个字节2个点,而256色图像就是一个字节存储一个点。TIFF图像格式是一种应用非常广泛的位图图像格式,几乎被所有绘画、图像编辑和页面排版应用程序所支持。TIFF格式常常用于在应用程序之间和计算机平台之间交换文件。

3.2.4GIF图像格式

CIF是GraphicsInterchangeFormat(图形交换格式)的缩写,是由ComputerServe公司推出的一种图像格式。该种图像格式的特点是压缩比高,可以极大地节省存储空间。最初的GIF只是简单的用来存储单幅静止图像,后来可以同时存储若干幅静止图像从而形成连续的动画;同时,GIF格式支持透明背景,可以较好地与网页背景融合在一起。因此,GIF常常用于保存作为网页数据进行传输的图像文件,成为网络和BBS上使用频率较高的一种图像文件格式。但是GIF最多只能处理256种色彩,不能用于存储真彩色的图像文件。

3.2.5PNG图像格式

这种格式称为可移植网络图像文件格式(PortableNetworkGraphics),由ThomasBoutell,TomLan。等人提出并设计。其特点是:①支持48位真彩色图像、16位灰度图像和颜色索引数据图像;②主要面向网络图像传输和图像编辑,其提供的二维交叉存储机制使用户在图像网络传输过程中能更快的观察到接近真实的近似图像;③对用户完全透明且无专利限制,用户可以从Internet上随时下载与PNG文件格式配套的图像数据压缩算法源程序代码:④具有比GIF高5-20%的压缩效率;⑤具有可扩展性。

作为目前最不失真的图像格式,PNG格式图像吸取了GIF和JPEG二者的优点。它可以把文件压缩到极限以利于网络传输,但由于采用无损压缩方式来减少文件大小,PNG格式能保留所有与图像品质有关的信息。同时,PNG支持图像背景透明,显示速度快。

本文的所有图像的处理都是对由JPG格式图像通过图像格式转化得来的Bmp格式的索引色图像进行的,其具体转换程序参见附录[一]。

第四章图像分割4.1图像分割算法的定义与分类

在图像的研究和应用中,人们往往只对一幅图像中的某些部分感兴趣,这些感兴趣的部分一般对应图像定的、具有特殊性质的区域(可以对应单个区域,也可以对应多个区域),称之为目标或前景;而其它部分称为图像的背景。为了辨识和分析目标,需要把目标从一幅图像中孤立出来,这就是图像分割要研究的问题。所谓图像分割,从广义上来讲,是根据图像的某些特征或特征集合(包括灰度、颜色、纹理等)的相似性准则对图像象素进行分组聚类,把图像平面划分成若干个具有某些一致性的不重叠区域。这使得同一区域中的象素特征是类似的,即具有一致性;而不同区域间象素的特征存在突变,即具有非一致性。从集合的角度出发,图像分割定义如下:

设整个图像空间为一集合R。根据选定的一致性准则P,R被划分为互不重叠的非空子集(或子区域):{R1,R2,L,Rn},这些子集必须满足下述条件:

(1)R=

(2)对于所有的i和j,当i≠j,=空集

(3)P(Ri)=True,对所有的i

(4)所有i≠j;Ri,Rj相邻,P(RiURj)=False

(5)对i=1,2,L,n,Ri是连通区域

其中:P(Ri)为作用于Ri中所有象素的形似性逻辑谓词,i,j=1,2,L,…n。上述条件

(1)指出分割后的全部子区域的总和应包含图像中的所有元素,或者说分割应将图像中每个象素都分进一个子区域中。

(2)指出各个子区域相互不重叠。

(3)指出分割后得到的属于同一区域中的元素应该具有某种相同特性。

(4)指出对于分割后得到的属于相邻两个区域中的元素具有某种不同的特性。(5)要求同一个子区域内的元素应当是连通的。

其中分割准则P适用于所有象素,由它来确定各区域元素的相同特性。上述数学条件说明了图像分割算法的一些特点,凡不符合以上特点的图像处理算法则不能称为图像分割算法。

目前,在己提出的多种类型的分割算法中,大致可以分为基于边缘检测的方法和基于区域的方法。而在实际应用中,这些方法主要又可划分为三种类型:边缘检测型、阈值型和区域跟踪型。本文的讨论正是基于阈值型图像分割方法展开的。

4.2基于阈值的分割4.2.1方法定义与特点

基于阈值的分割方法是一种应用十分广泛的图像分割技术。所谓阈值分割方法的实质是利用图像的灰度直方图信息得到用于分割的阈值。它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的象素是同一个物体。它不仅可以极大的压缩数据量,而且也大大简化了图像信息的分析和处理步骤。因此,在很多情况下,是进行图像分析、特征提取与模式识别之前必要的图像预处理过程。它特别适用于目标和背景占据不同灰度级范围的图像。阈值分割方法的最大特点是计算简单,运算效率高,在重视运算效率的应用场合,它得到了广泛的应用。

4.2.2阈值的分割的描述

设(x,y)是二维数字图像的平面坐标,图像灰度级的取值范围是G={0,1,2,…L-1}(习惯上0代表最暗的像素点,L-1代表最亮的像素点),位于坐标点(x,y)上的像素点的灰度级表示为f(x,y)。设t∈G为分割阈值,B={b0,b1}代表一个二值灰度级,并且b0,b1∈B。于是图像函数f1(x,y)在阈值t上的分割结果可以表示为:

阈值分割法实际就是按某个准则函数求最优阈值t的过程。域值一般可写成如下的形式:

T=T[x,y,f(x,Y),p(x,y)]

其中f(x,y)是在像素点(x,y)处的灰度值,p(x,y)是该点邻域的某种局部性质。4.3.3阈值分割方法的分类

通过上文的讨论,结合所给公式,可以将阈值分割方法分为以下3类:

1)全局阈值:T=T[p(x,y)〕,即仅根据f(x,y)来选取阈值,阈值仅与各个图像像素的本身性质有关。

2)局部阈值:T=T[f(x,y),p(x,y)],阈值与图像像素的本身性质和局部区域性质相关。

3)动态阈值:T=T[x,y,f(x,y),p(x,y)],阈值与像素坐标,图像像素的本身性质和局部区域性质相关。

全局阈值对整幅图像仅设置一个分割阈值,通常在图像不太复杂、灰度分布较集中的情况下采用;局部阈值则将图像划分为若干个子图像,并对每个子图像设定局部阈值;动态阈值是根据空间信息和灰度信息确定。局部阈值分割法虽然能改善分割效果,但存在几个缺点:

1)每幅子图像的尺寸不能太小,否则统计出的结果无意义。

2)每幅图像的分割是任意的,如果有一幅子图像正好落在目标区域或背景区域,而根据统计结果对其进行分割,也许会产生更差的结果。

图像法论文第5篇

〔关键词〕图像检索;共词分析;知识图谱;研究热点

DOI:10.3969/j.issn.1008-0821.2013.11.023

〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2013)11-0100-08

图像检索是信息检索的重要组成部分,从20世纪70年代开始,很多学者都对图像检索技术进行研究,先后提出基于文本的图像检索、基于内容的图像检索以及基于语义的图像检索技术。传统的文字搜索主要是以关键词匹配为基础,着重优化搜索路径算法,加强建立学习和反馈模型,比如百度和谷歌都取得了巨大的成功。但图像检索与文字检索存在很大的区别,存在很多问题,如图像内容描述、语义理解鸿沟、特征提取复杂等。这些问题制约着图像检索研究领域的进一步发展,也是图像检索研究的热点问题。

本文以CNKI近十年来发表的图像检索文献为研究对象,以文献关键词为研究载体,以共词分析方法为研究基础,采用聚类分析、多维尺度分析、社会网络分析等方法,结合可视化软件Ucinet,绘制近十年来图像检索研究图谱。笔者研究目的在于通过这篇研究论文,图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。

1 文献来源及研究方法

1.1 研究文献来源

为了确保检索的文献符合笔者的分析需求,笔者检索条件设置为:数据来源为CNKI(中国学术文献网络出版总库),检索时间为2003-2012年,关键词中包含“图像检索”,检索策略为“精确”进行检索,共检索出期刊2 477篇。

1.2 基于研究样本的文献计量情况

论文载文量的变化,在一定程度上反映该学科的理论水平和发展速度[1]。笔者对国内图像检索相关的2 477篇文献进行统计,并利用Excel软件绘制出图像检索文献年代分布折线图,如图1所示。图1的数据表明,图像检索论文数量从总体上来看,是成上升趋势,在2008年达到顶峰。论文增长曲线呈现“S”型。根据普莱斯逻辑增长曲线规律,笔者发现图像检索研究是逐步发展的,并逐渐走向成熟的过程。图1 2003-2012年图像检索研究期刊发文量

1 通过文献计量软件SATI 2.2软件,对检索的2 477篇文章的文章进行统计分析,得到作者的总人数为3 917人(包括第一作者、第二作者等)。经过计算,笔者发现西安电子科技大学多媒体研究所的周利华教授和河南理工大学的孙君顶教授发表的文章最多,同为33篇,根据普莱斯计算公式,核心作者发文数m≈4.31,因此将文章数量为5篇及以上的著者定为核心著者,统计得到核心著者有153人,占全部作者总数的3.9%。笔者筛选出发文数量排名前20的作者及其单位,如表1所示。从表1中,我们发现图像检索研究机构以高校为主,并且相对集中。西安电子科技大学、西北大学、西北工业大学、河南理工大学等。高校是图像检索的主要研究机构,这也表明,图像检索的研究目前以理论研究为主,实际应用并不广泛。

表1 2003-2012年图像检索期刊发文量前20位作者及其单位

1.3 期刊分析

期刊载文分析主要反映学科研究文献的期刊分布情况,期刊的分布也可验证布拉德福定律。由于核心期刊的载文量水平较高,更能反映学科研究水平,因此本文的期刊分析,都以核心期刊为主。表2是排名前20位发文量超过15篇的核心期刊。

表2 载文前20种核心期刊表

1.4 研究主题分析

研究主题变化通过关键词词频变化来揭示。本文对2 477篇图像检索的关键词进行统计,在统计过程中,对一些关键词进行合并处理,如“基于内容的图像检索”、“基于内容”和“CBIR”;“纹理”和“纹理特征”等。为了能够清晰的揭示出研究主题的变化,笔者对每一年的论文关键词分别进行统计,统计结果见表3。

表3 2003-2012年论文关键词词频变化表

随着时间的推移以及研究的深入,图像检索领域的研究热点也在不断的变化中。笔者参考安徽大学储节旺教授将热点关键词进行分类的研究方法,将图像检索领域的热点关键词分为3种类型:恒星关键词、流星关键词和新星关键词[2]。(1)恒星关键词指的是那些一直处于研究热点的关键词,如“图像检索”、“基于内容的图像检索”、“相关反馈”、“特征提取”、“颜色直方图”等,这类关键词也是图像检索的核心内容。(2)流星关键词指的是那些研究一段时间后缺乏持续研究的关键词,如“图像数据库”、“医学图像检索”、“数字图书馆”等。这类关键词研究的内容深度不够,没有涉及到图像检索的核心内容,研究的是图像检索应用研究。图像检索研究本身存在很多技术有待突破,目前主要停留在理论研究层面,这些基于图像检索技术的应用研究明显研究深度和热度。(3)新星关键词指的是那些总体增长比较平稳并且在未来会受到重点研究的关键词,如“图像分割”、“小波变换”、“支持向量机”、“灰度共生矩阵”等。这类关键词涉及到图像检索的核心技术,也是未来提高图像检索速度和效果的关键所在。

1.5 高频关键词的确定

通过文献计量软件,统计得出2 477篇文章中共有关键词3 463个。通过对关键词进行认真分析,将一些表述相近意思的关键词进行合并,如“基于内容的图像检索”、“CBIR”和“基于内容图像索”;“纹理”和“纹理特征”进行合并,取词频大于20的关键词作为高频关键词,共有48个,如表4所示。表4 高频关键词表(部分)

关键词频次关键词频次图像检索1 190直方图48基于内容的图像检索488基于内容44相关反馈261灰度共生矩阵43特征提取210MPEG-743颜色直方图130数字图书馆37纹理特征94相似度37支持向量机86医学图像检索36颜色特征72图像特征35小波变换71图 像32图像分割65检 索31形状特征58信息检索30相似性度量56图像语义30图像数据库54图像分类29颜 色52颜色空间28聚 类49不变距27

为了进一步的分析关键词内部之间的联系,对48个高频关键词进行两两检索,形成48×48的共词矩阵,如图2所示。图像检索基于内容的

图像检索相关反馈特征提取颜色直方图纹理特征纹 理图像检索1 18910129104814942基于内容的图像检索103876341161916相关反馈12963261238310特征提取1044123210599颜色直方图81168513001图2 高频关键词共现矩阵(部分)

1.6 构造相关矩

通过对共词矩阵进行卡方检验,发现共词矩阵不符合正态分布规律,为了能够用更多的统计方法对数据进行统计分析,需要利用Ochiia系数对共词矩阵进行转换,构造相关矩阵和相似矩阵。用Ochiia系数将共词矩阵转换成相似矩阵,如图2所示。但是相似矩阵中的0值过多,统计时容易造成误差,为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到关键词相异矩阵,部分数据如图3所示[3]。

图像检索基于内容的

在相似矩阵中,数值的大小表明了两个关键词之间距离的远近,数值越大表明关键词之间的距离越近,相关程度越大;数值越小则表明关键词之间的距离越远,相关程度越小。图像检索基于内容的

在相异矩阵中,数值越小表明关键词之间的距离越近,相关程度越大;数值越大则表明关键词之间的距离越远,相关程度越小。

1.7 知识图谱分析

科学知识图谱是显示科学知识的发展进程与结构关系的一种图形。它的悄然兴起,一方面是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,另一方面又是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。基于社会网络的Ucinet软件,通过构建行动者节点及其联系网络的互动关系,解释社会网络的层次性、等级性、结构性等,并以网络图谱的形式揭示该研究领域的主题热点[4]。图5 关键词共现图谱

分析显示,网络密度为10.95%,中间中心度为19.62%,一致性指数为0.962,上述3个指数表明,关键词共现网络集聚程度不高。其中,图中节点大小由关键词频次决定,线条的粗细,由两个关键词共现的次数决定。线条越粗,表明共现次数越多,反之,表明共现次数越少。节点围绕图像检索、基于内容的图像检索、相关反馈、特征提取形成相对密集的圈层。图5,点的中间中心度排名前15位的分别是图像检索(982.269,1)、基于内容的图像检索(529.658,2)、相关反馈(365.832,3)、特征提取(343.531,4)、颜色直方图(160.999,5)、纹理特征(108.175,6)、支持向量机(95.334,7)、颜色特征(78.884,8)、小波变换(73.287,9)、图像数据库(57.513,13)、形状特征(46.640,11)、相似性度量(45.965,12)、聚类(44.494,15)、医学图像检索(40.030,22)、图像分割(34.788,10),括号内为关键词的中间中心度及频次排序。网络连线的粗细能反映节点的关联度,是识别意义类团的重要特征,如“图像检索——基于内容的图像检索——图像分割——相关反馈——纹理特征”、“图像检索——颜色直方图——颜色特征——兴趣点——颜色量化——特征匹配”、“图像检索——聚类——语义鸿沟——高层语义——图像索引”、“图像检索——特征提取——纹理特征——相似度——图像数据库——医学图像检索——图像检索系统”等。

1.8 多维量表分析

多维量表分析(MDS)是将一组个体间的相异性数据经过MDS转换成空间的构形,且尽可能保留原始数据的相对关系。在SPSS 19中文版中,选择“分析——度量——多维尺度(ALSCAL)”,得到空间二维图,如图6所示。图6 多维尺度分析结果图

从图6可以看出,关键词大体可以分为六大类。第一类,语义图像检索、多媒体数据库、纹理检索、图像匹配、空间关系、高层语义、主色调、纹理谱、位平面、粗糙集、纹理图像检索、商标图像检索、环形颜色直方图;第二类,纹理分析、边缘检测、图像检索技术、图像检索系统、兴趣点、搜索引擎;第三类,视觉特征、半监督学习、相关反馈、流形学习、多示例学习支持向量机、图像检索;第四类,图像特征、不变距语义、语义鸿沟、相似性度量、相似度、图像分类;第五类,数字图书馆、聚类、形状特征、颜色特征、特征提取;第六类,医学图像、图像数据库、医学图像检索、灰度共生矩阵、颜色距、图像语义、MPEG7、图像分割、颜色空间、图像标注等。

2 研究热点分析

通过上文对图像检索研究领域的多维计量分析(知识图谱分析、多维尺度分析)以及关键词词频的变化分析,笔者发现目前国内对图像检索的研究领域比较集中,主要集中在图像检索的算法研究、图像特征研究(如颜色特征,纹理特征,形状特征等)、图像语义研究等。具体分为以下几个方面:

2.1 图像算法研究

图像算法研究是图像检索的研究热点之一,不同的学者从不同的角度提出不同的图像检索算法,来提高图像检索的效果。鲁珂等提出基于支持向量机的理论提出了一种用于图像检索的半监督学习算法[5]。许相莉等提出一种基于粒子群的图像检索相关反馈算法,使得用户对检索目标的理解逐渐清晰,能够有效全面的搜索图片库,同时避免多次反馈造成的算法效率和检索效果之间的矛盾[6]。王崇骏等在IPSM模型对图像的语义分类特征进行描述和提取的基础上,提出并实现了基于高层语义的图像检索算法以及基于高层语义的相关反馈算法[7]。李健提出一种以曲波变换为基础,综合香农熵与频域子带能量特征的图像检索算法。该方法用香农熵进行预分类,用子带图像的能量特征进行相似度度量,并加入检索者的反馈信息,实现图像的精确检索[8]。牛蕾等回顾了早期的启发式相关反馈算法和近期的最优相关反馈算法,对现有的相关反馈算法进行了分析、总结和对比,并提出了今后相关反馈算法的发展方向[9]。因限于篇幅,不一一列举图像检索算法。

2.2 图像特征研究(颜色特征、纹理特征、形状特征、空间关系特征等) 特征提取是计算机视觉和图像处理中的一个概念,是图像检索的核心内容。它指的是使用计算机将图像信息进行分解、匹对,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。目前,特征提取算法各种各样,算法计算复杂性和可重复性也非常不同。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质,由于颜色特征不能反映颜色信息的空间分布等特点,因此基于颜色特征的图像检索存在一定的缺陷,影响图像检索效果。王向阳等提出一种鲁棒的多特征彩色图像检索新方法,实验结果表明,该方法不仅能够准确、快速的检索出用户所需图像,而且对光照、锐化、模糊等噪声攻击均具有较好的鲁棒性[10]。纹理特征也是全局特征,它和颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算,这样提高了模式匹配的成功率,但光照、反射情况对图像检索存在一定干扰。安志勇等在构造了具有旋转、平移和尺度不变的纹理特征的基础上,提出基于纹理特征的图像检索算法,该算法具有旋转、平移和尺度不变性,与其它方法相比,具有较高的检索率[11]。形状特征有两类表示方法:一类是轮廓特征;另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。形状特征可以比较有效地利用图像中感兴趣的目标来进行检索,但图像形状本身存在容易出现变形的情况,而且人的主观意识对图像形状的判别也存在影响。何姗等提出一种基于兴趣点的图像检索新方法ACSM,利用兴趣点的位置信息,提取兴趣点周围局部区域的颜色矩特征和区域形状不变矩特征,由于将颜色和形状特征有机结合,ACSM算法有效提高了图像检索的准确性[12]。空间关系,是指将一幅图像进行分割,分割出来的多个目标之间的相互的空间位置或相对方向关系(邻接、重叠等关系)。空间关系特征的使用可加强对图像内容的描述区分能力,但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。张伟等构造了在平移缩放旋转下保持不变的基于度量矩阵特征值的图像空间关系描述子。研究表明这种描述与人的主观视觉心理相一致,在平移缩放旋转下以及小噪声下具有较强的鲁棒性,具有较好的类别可分离性[13]。

2.3 图像语义研究

图像语义研究是图像理解的重点和难点,在现实生活中,人的视觉特征因人而异,人对同一副图像的情感认知也不尽相同,导致不同的人对同一副图像特征提取出现天壤之别。如何对一幅图像的特征(颜色、纹理、形状等)描述与视觉特征相吻合,进行客观的语义描述,实现基于语义的图像检索是国内学者研究的热点之一。图像语义研究包括语义鸿沟、高层语义、底层特征语义等角度。语义鸿沟是图像检索系统广泛存在的问题之一,它是人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同,造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生。张菁等针对相关反馈和感兴趣区检测在弥补语义鸿沟时存在主观性强、耗时的缺点,提出了视觉信息是一种客观反映图像高层语义的新特征,基于视觉信息进行图像检索可以有效减小语义鸿沟[14]。高层语义主要涉及图像的场景语义、行为语义和情感语义。一般而言,高层的图像语义往往建立在较低层次的语义获得的基础上,并且层次越高,语义越复杂,涉及的领域知识越多,也是图像语义描述的难点之一。吴楠等利用图像的高层语义信息来进行图像检索,在深入研究图像高层语义的低层特征描述的基础上,提出了图像语义的层次划分,并对每个高层语义层提出了语义抽取和检索算法。该检索算法可以有效地对图像高层语义信息进行提取,并可作为新型高效图像检索系统的一个模型[15]。袁薇等指出了应用图像的高层语义特征和底层颜色特征作为图像检索的综合指标,将图像文本和视觉信息融合起来,给出了一种综合语义和颜色特征的图像检索系统的体系架构,以填补多媒体底层特征和高层语义之间的差异[16]。

2.4 图像检索技术研究

图像检索技术的发展是一个不断进化的过程,最初是基于文本的图像检索。基于文本的图像检索是首先对图像的特征进行文本描述,然后利用关键词进行检索图片,费时费力,而且检索效率低下,容易出现错误。为了克服基于文本的图像检索的局限性,提出了基于内容的图像检索系统,通过特征提取和高维索引技术进行检索,通过比较视觉特征的相似度来获得检索结果。洪俊明总结了图像数据库检索技术的发展轨迹和特点,针对基于内容的图像检索技术中的局限性,从计算机底层硬件的角度提出了基于内容检索的流水索引法[17]。但在现实生活中,人们往往习惯于对图像的语义进行检索,而不是图像的特征,如何建立从图像的低层特征到高层语义的映射,获取图像的语义概念,并在此基础上进行语义检索,是图像检索技术的一个新的方向,即基于语义的图像检索技术。陈久军等提出图像语义检索整体框架,系统采用XML技术,将图像内容层式描述、图像语义对象自动获取、图像语义相似测度等功能模块加以融合,实现语义层面的图像检索[18]。

3 结 语

国内对图像检索的研究热点主要集中在图像检索的算法研究、图像特征研究(如颜色特征,纹理特征,形状特征等)、图像语义研究等。当然,国内针对图像检索研究的热点还有,比如基于流行学习的图像检索技术、遗传算法、粗糙集理论在图像检索中的应用以及医学图像检索相关技术的研究等等,因限于篇幅,笔者主要列出国内学者研究比较集中的热点问题。通过共词分析法来展现国内图像检索研究的学科热点问题,这类文献基本没有。笔者的目的在于通过这篇研究论文,图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。本文在研究过程中,也存在不足。在介绍图像检索研究热点问题,因限于篇幅,很多相关热点没有一一展示;在文献选取时,以期刊为检索源,忽略了硕博士论文,对研究结果会有一定的影响;高频关键词的设定、多维量表分析、知识图谱分析等都具有一定的主观性,这些问题是笔者下一步需要完善的地方。

参考文献

[1]张玉双.我国高校图书馆知识管理研究的文献统计分析[J].晋图学刊,2008,(5):45-48.

[2]储节旺,王龙.近十年国内知识管理研究热点——基于CSSCI数据库的词频分析[J].情报科学,2011,(9):1425-1429.

[3]Manfred Wettler.Reinhard Rapp Computation of Word Associations Based on the Co-occurrences of Words in Large Corpora[EB/OL].2005-10-09.

[4](美)林顿·C·费里曼.社会网络分析发展史[M].张文宏,刘军,王卫东,译.北京:中国人民大学出版社,2008:2-3.

[5]鲁珂,赵继东,叶娅兰,等.一种用于图像检索的新型半监督学习算法[J].电子科技大学学报,2005,(5):669-671.

[6]许相莉,张利彪,刘向东,等.基于粒子群的图像检索相关反馈算法[J].电子学报,2010,(8):1935-1940.

[7]王崇骏,杨育彬,陈世福.基于高层语义的图像检索算法[J].软件学报,2004,(10):1461-1469.

[8]李健,牛振山.基于曲波的纹理图像检索系统的设计与实现[J].计算机工程与科学,2011,(3):62-66.

[9]牛蕾,倪林.基于内容的图像检索中的相关反馈算法[J].计算机工程与应用,2004,(32):65-70.

[10]王向阳,芦婷婷.一种鲁棒的多特征彩色图像检索新方法[J].中国图象图形学报,2007,(10):1757-1760.

[11]安志勇,曾智勇,赵珊,等.基于纹理特征的图像检索[J].光电子·激光,2008,(2):230-232.

[12]何姗,郭宝龙,洪俊标.基于兴趣点颜色形状特征的图像检索方法[J].微电子学与计算机,2006,(3):40-43.

[13]张伟,何金国,桑佩罗布.基于度量矩阵特征值的图像空间关系描述[J].计算机应用研究,2010,(11):4376-4378.

[14]张菁,沈兰荪,David Dagon Feng.基于视觉感知的图像检索的研究[J].电子学报,2008,(3):494-499.

[15]吴楠,宋方敏.一种基于图像高层语义信息的图像检索方法[J].中国图象图形学报,2006,(12):1774-1780.

[16]袁薇,高淼.综合语义与颜色特征的图像检索技术研究[J].微电子学与计算机,2006,(10):36-39.

图像法论文第6篇

在西方英语国家学术界,对视觉文化的研究,大致有英国学派和美国学派二者。尽管二者间的交流既多且频,甚至主要人物也跨越大西洋而在英美两国从事教学和研究,如英国学者诺曼· 布莱逊(norman bryson),但二者却有一些区别。就方法论而言,二者大同小异,基本上都借用了二十世纪的欧美哲学理论、文化研究理论、美术史研究方法和美术批评方法,并采纳了当代影视理论、传播学理论和大众传媒的方法。但在研究领域和研究对象方面,二者却同中有异。其异在于,英国学者的视觉文化研究,包括了视觉艺术,例如绘画。相对而言,美国学者的视觉文化研究,则跨出了视觉艺术的界线,主要研究美术之外的图像及其功用,例如新闻媒体和商业广告所使用的图像。

美国学派的代表学者是芝加哥大学教授米歇尔(w.j. thomas mitchell,1942-),他任教于该校英文系和美术史系,并任著名学术期刊《批评探索》的主编。米歇尔的学术专长在于比较文学和美术史论,他对二十世纪的批评理论和方法比较了解,并站在当代学术前沿,引领美国视觉文化研究的方向。米歇尔在中国的影响也比较大,其“图像转向”(pictorial turn)的概念,甚至成为国内文化商业界一些从业人员鼓吹文盲式“读图时代”的理论根据。米歇尔著述甚丰,涉及视觉文化之图像理论的主要有三部,《图像学:图像、文本、意识形态》(iconology: image, text, ideology,1986)、《图像理论》(picture theory,1994)和《恐怖的克隆:图像战争,从美国九一一到伊拉克虐囚》(cloning terror: the war of images, 9-11 to abu ghraib),其中《图像理论》有中文译本,由陈永国、胡文征翻译,北京大学出版社2006年出版 。WwW.133229.COM

2008年1月,米歇尔应邀到加拿大蒙特利尔,在康科迪亚大学美术学院讲学,介绍他的图像学新著《恐怖的克隆:图像战争》,研讨视觉文化与当代图像学。其间,笔者有机会向米歇尔请教诸多问题,尤其是与笔者正写作的专著《视觉文化传播》相关的一些具体观点和概念。

在涉及视觉文化的研究领域和对象时,笔者专门向米歇尔求证其观点:您主张的视觉文化研究,包括不包括视觉艺术,诸如美术或绘画?米歇尔的答复非常明确:不包括。作为视觉文化研究之美国学派的领军人物,米歇尔早在八九十年代就对潘诺夫斯基的传统图像学进行了挑战,并以“图像转向”为号召,主张超越绘画和视觉艺术,使图像研究成为后现代以来之文化研究的一个重要内容。为此,他弃用潘诺夫斯基图像学的专业术语iconology,转而使用一个极其普通的日常词汇picture(图画),以示自己的大众文化研究与前者的精英文化研究相区别。

要之,视觉文化研究中的美国学派,是指以米歇尔为代表的学者,他们主张从大众传媒的角度去研究非艺术的图像,而不再局限于美术的角度和作为艺术作品的图像。本文作者赞同超越美术领域去探讨美术,也认为美术研究不应该局限于大师及经典作品。但是,笔者不认可美术研究同视觉文化研究相对立的观点,不认为二者相互排斥。相反,笔者认为,美术研究是视觉文化研究的一个重要组成部分,美术研究与视觉文化研究的关系是,视觉文化研究包括了美术研究,并为美术研究提供了一个超越美术的视角,这使研究者有可能从其它视角去发掘美术的更广、更深的意义,及其可能被美术研究所忽略的潜在价值。

二 三种图像

虽然笔者不能全盘接受米歇尔关于视觉文化之研究领域和研究对象的褊狭主张,但这并不妨碍笔者向他进一步请教相关问题:美术史研究与视觉文化研究有何区别?米歇尔回答说,美术研究和美术史研究,是将美术作为一种艺术现象来看待,即研究“艺术的图像”(artistic image),正如文学研究之于语言,是探讨怎样艺术地使用语言。相反,视觉文化研究关注的是“非艺术的图像”(non-artistic image),也即世俗的图像(vernacular image),尤如语言研究中对日常用语及其使用方法的关注。

在这样的意义上讲,所谓“图像转向”就不符合我们国内一些学者为“读图时代”的视觉狂欢而寻找舶来理论的初衷。就这个问题,笔者特意向米歇尔求证:您说“图像转向”,是否意味着语言文字的表意功能被图像取代了,是否意味着语言文字在当代文化研究中不重要了?米歇尔的回答十分清楚:绝不是这样。他说,语言文字自有其价值,不可能被视觉图像所取代。今天,所谓图像转向,是说图像研究超越了美术研究的疆界,而进入了摄影、电视等新的大众传播领域。这个观点,正是米歇尔新著《恐怖的克隆:图像战争》的理论前提。

米歇尔的当代图像学涉及三个“图像”术语,颇能说明“图像转向”及美国学派之视觉文化研究所关注的新对象。第一个是潘诺夫斯基采用的图像学术语iconology,源出古希腊语和拉丁语中的“肖似”一词,后来指基督教的图像,自19世纪初则被东正教用来指称圣像。潘诺夫斯基将这个词发展为专业术语,用于他对中世纪和文艺复兴之宗教艺术的阐释。第二个术语picture以其通俗化和大众化而具有后现代主义之平民文化色彩,不仅是对潘诺夫斯基之专业术语的颠覆,也是对其图像学基本概念的颠覆。然而,在米歇尔新著《恐怖的克隆:图像战争》中,他又使用了一个比较中性的术语image。于是,笔者向米歇尔请教:在当代图像学和视觉文化研究中,image与picture这两个概念有什么异同?

米歇尔用形象的语言来解释这个问题:一个picture就象一张画片,你可以用电脑软件来修改它,也可以把它撕毁,但画片上的原初图像却无法被改变或毁掉,这原初图像就是image,它以不同的方式存在于不同的地方,例如,它以数码方式存在和传播。于是笔者问:这是不是说,picture指图像的物理(physical)存在,而image则是原初图像本身,超越了物理的存在,而隐身于变形的picture中?米歇尔回答说是这样,并进一步解释道:作为原初图像的image不能被人为地任意扭曲,而被扭曲的只能是picture。经过人为扭曲后的图像,已经不再是最早那个未被扭曲的原初图像,而是一个具有实际用途的picture,例如商业或宣传用途。然而,在这被扭曲的picture中,却以基因密码的方式保存着原初image的信息。米歇尔的当代图像学和视觉文化研究,关注image怎样变成了picture,关注image所携带的信息,以及image经过了加工或人为的扭曲而成为picture后,这picture所具有的信息传播和宣传功能。

米歇尔的新著《恐怖的克隆:图像战争》便是对这一理论的阐述和实践。在涉及image转化为picture的过程和方式时,米歇尔提出了一个关于当代图像学的关键词“生物图像”(biopictures)。

三 生物图像

米歇尔对“生物图像”这一概念的阐释,是从人工智能、遗传基因、生物工程、数码复制等角度进行的。他的基本看法是,当作为image的图像借助大众传播工具而被广泛复制和传输时,不会出现失真的情况,因为这是一个数码复制和传输的过程。在这个过程中,数码信息保留了image原初的dna编码。与此相对,失真的图像是人为操作时出现的有意扭曲,是操作者出于某种目的而特意为之。他认为,当代大众传媒对于图像的使用,有意利用了人为失真的picture,但我们透过这图像的表象,却能把握其原初图像的真实信息。

照我的理解,任何图像一旦经过传播,无论是image还是picture,都会失真。传播是一个大规模复制并散发的过程,处于传播之另一端的图像,与原初图像有时间和空间的距离,这使复制和传播的图像,失去了它原初的语境。图像携带的原初信息,在相当程度上由其语境所确定,一个失去了自身时空语境的图像,只能是一个失真的图像,这就像本雅明所言,失去了该图像产生时的特定“光晕”(aura)。因此,无论以何种方式传播图像,都是无根漂浮,在相当程度上失去了原初的本真。

针对笔者提出的这个疑问,米歇尔说,本雅明所说的图像复制,是机器复制,与今日数码复制完全不同。数码复制所传输的是图像的生物信息dna,而不是机器复制所传输的图像外观。生物信息虽然脱离了原初的“光晕”,但所携遗传密码并未改变,因此不存在失真问题,这是今日数码传输的要义。我在此注意到,米歇尔的探讨转入了技术层面,他绕过了图像文本与其语境的关系问题,而开始了形而下的解说。虽然笔者坚持认为,图像的信息受制于原初的语境,但“生物图像”之说,却仍然具有启发意义。

对我而言,这启发就在于“仿生学”(bionics)和仿生艺术。仿生学是二十世纪兴起的一门工程技术科学,它研究生物功能,并转而将其应用于工程设计。例如在潜艇的设计中,为了降低航行的噪音,设计师们研究鲨鱼皮肤的内部构造,并模仿其构造而设计出具有静音功能的人工鲨鱼皮,用以制成消音瓦,将其覆盖于潜艇外壳,从而降低潜航噪音。这种生物仿制,是一种仿生学复制,尽管不必复制生物的外在表象,但却把握了生物遗传的信息编码,这使工程技术中的复制得以实现高保真。仿生艺术在西方兴起于八十年代末九十年代初,是环境保护主义的产物,多是以装置为外在形态的观念艺术,旨在传播环保意识。

由于米歇尔强调图像所携带的信息是以生物编码的方式来复制和传输,于是笔者便问他为何不用现成的术语“仿生图像”(bionic pictures),而要生造一个新术语“生物图像”,并问及二者有何种关系。米歇尔回答说,“生物图像”是一种用类似于克隆技术复制的图像,与机器复制的图像不同,不仅没有失真,反而因基因改造而优化了图像,而机器复制却因“光晕”不再而失去了原初的本真,因此,“生物图像”与“仿生图像”并无本质区别。

笔者由此想到,借助仿生学技术来复制图像,涉及的不仅仅是图像的外形,更重要的是涉及了特定外形所携带的内部基因密码。正是由于这生命遗传的密码,才使生物的外形与其功能密不可分,而生物外形与其生命功能的关系,又是达尔文进化论的要义,在今天不仅涉及到科学技术的进步,也涉及到文化和学术的发展。在此,“生物图像”关注的是生物外形与生命信息的编码,关注二者间的功能关系,并与当代艺术的方式发生了某种关联。

四 恶搞图像

关于这种关联,在我看来,米歇尔的上述理论虽然不是关于美术的,但这理论的意义,却在于它可以帮助我们理解当代艺术。例如,生物图像的复制,可以帮助我们从理论渊源上认识今日艺术中的“恶搞”方式。恶搞是视觉艺术的一种修辞方式,然而西方当代艺术中的恶搞与今日中国时髦的恶搞却有本质的区别。尽管两者都以幽默为基调,但前者带有相对强烈的政治信息,而后者则大多出于赢利的商业目的和庸俗趣味。我这样说并不是要无条件地赞同西式恶搞或一概否定中式恶搞,我说的只是今日艺术中的一种倾向。

西式恶搞的政治内含,与米歇尔所说的“图像战争”(war of images)密切相关。米歇尔的讲座,从头至尾贯穿了他对美国总统布什及其发动伊拉克战争的指责,他在讲座中使用的图像,也大多是伊拉克战争的新闻图片。照他的说法,发动战争和反对战争的双方,都利用了战地新闻图像。布什发动战争,其视觉依据之一,是九一一恐怖袭击中纽约世贸中心浓烟滚滚的图像,而后来人们反对伊拉克战争,其视觉依据之一,则是伊拉克阿布格拉监狱的虐囚照片和视像资料。

在虐囚图像中有一令人触目惊心者,是一个囚徒从头披着一身破麻布,双手接通两条电线。这个图像经过新闻媒介和网络而迅速传向世界各个角落,成为布什战争罪行的一大证据。由于这一图像广为流传而且极具感召力,美国苹果公司便将其借用来作商业推销,把原初图像中受电刑的囚徒,修改为一个听ipod的人正载歌载舞。这个被修改被扭曲了的图像作为广告推出后,招来社会各界的一片责难,苹果公司只好收回了这一不道德的广告,并灵机一动,又改头换貌赶制了嘲讽伊拉克战争的广告,继续推销自己的产品。

苹果公司对虐囚图像的两次修改利用,其实就是一种恶搞,先是商业恶搞,然后涂上了政治色彩。的确,除了这种商业恶搞,在西方有更多人对虐囚图像作了政治恶搞。米歇尔展示的一幅政治恶搞图像,是利用图中人的外形相关性,而将受电刑的伊拉克囚徒与西方文化传统中经典的耶稣受难图重叠起来,由此赋予这一虐囚图像以强烈的政治性,表达了恶搞者对布什发动战争的不满。从米歇尔之当代图像学的角度看,原初的虐囚图像image和被修改的虐囚图像picture之间,虽然经过了复制和传播,外貌发生了变化和失真,但其生命遗传的编码却得到了保存。换言之,原初图像中的生命密码,通过数码复制和传播而被转移到扭曲的图像中。这生命密码所携带的信息就是有关人类蒙难的信息。正因为人类蒙难的基因密码以数字方式保存了下来,所以虐囚图才与耶稣受难图有了内在的同构,这类似于仿生学的同构,于是进一步唤起了读图者对这二者之视觉外形的认同,从而使政治恶搞的目的得以实现。

虽然米歇尔的视觉文化研究不涉及美术,但在虐囚图像的话题上,他却言及了旅居纽约的著名哥伦比亚画家费南多·博特罗(fernando botero),因为这位以描绘傻笨肥俗的浅薄形象而闻名于世的当代大师,近年绘制了一系列关于美军在伊拉克监狱虐待囚徒的作品,以幽默的恶搞,来表达了艺术家明确的反战态度。博特罗的作品在纽约和欧美各地展出后,引起了广泛的反响,应和了西方世界的反战呼声。

在博特罗的绘画中,作为一种寓言的政治恶搞,发挥了图像的修辞功能,显示了图像的威力。米歇尔的当代图像学是一种具有强烈政治色彩的视觉文化理论,他超越了美术的领域,将视觉文化研究引入了传媒政治中,使我们可以从大众传媒的角度来阐释博特罗绘画的政治性和批评价值。然而非常有趣的是,米歇尔却口口声声说自己是一个“死心塌地的形式主义者”(i am a die-hard formalist)。我猜测,米歇尔的视觉文化研究,关注图像的构成、存在、复制、扭曲和传播方式,因此他是形式主义的。但是,我们应该看到,在这一切的背后,以生命密码的方式潜藏着米歇尔的政治态度和批判精神,这使他成为一个具有批判性的文化政治学者。

如果借用他自己的术语,我想这样说:米歇尔之视觉文化研究的政治性,以生命遗传的密码方式而成为其当代图像学内在的原初图像image,而他从形式角度对图像构成和传播方式的研究,则是其外在的picture。反过来说,在这个image中,以生命密码的方式,潜藏着他的政治信息。唯其如此,我们才明白他为什么会批评布什发动的战争,而不是去进行浅薄的商业恶搞。

图像法论文第7篇

(1.南京大学金陵学院信息科学与工程学院,江苏南京210000;2.合肥师范学院计算机学院,安徽合肥230601)摘要:Retinex算法是图像增强的常用方法。基于Retinex理论提出一种新的视频光照增强算法,结合图像全局及局部灰度特性引入补偿系数,增强暗区域光照的同时克服了传统算法处理后的人工痕迹,使处理结果更加自然;同时,算法用引导滤波估计照度图像,在避免光晕现象的同时可以加快算法处理速度。实验结果表明,该方法简单有效,视觉效果提升显著。

关键词 :Retinex;图像增强;光照补偿;引导滤波

中图分类号:TN911.73?34 文献标识码:A 文章编号:1004?373X(2015)17?0068?04

0 引言

视频采集过程受诸多因素影响,如夜间或者暗光拍摄条件下表现为光照不足、亮度偏低;光线遮挡使得形成的图像一部分明亮另一部分较暗,造成光照不均;反光或强光源使得获取的图像亮度分布不均勾,高亮区域细节模糊。光照不足或者光照不均一方面会造成图像主观效果不佳,难以满足人们视觉感官的需要,另一方面对于后续的图像处理比如模式识别[1]、目标跟踪都会造成较大影响。由此出现图像增强技术对光照不均图像进行增强处理提高质量。

图像增强技术根据图像质量情况和不同的应用釆用信号处理技术手段达到增强局部或者整体特征的目的[2]。针对光照不均匀图像的增强处理,常常采用的算法主要有:灰度变换方法[3]、同态滤波方法[4]、小波变换增强[5]、基于Retinex 理论的算法[6]等。其中,基于Retinex理论的增强算法具有颜色保真、细节增强和动态范围压缩等多个方面的优势,它常常与其他算法结合使用可以达到更好的增强效果,目前已广泛应用于航空航天、生物医学、电视电影等多个方面,占据比较重要的地位。

自20世纪70年代Retinex理论提出以来,得到了很大的发展和关注。从采用同态滤波器的Retinex算法,到后来又出现了中心环绕Retinex,包括单尺度Retinex(SSR)和多尺度Retinex(MSR)以及带颜色恢复的Ret?inex(MSRCR)算法等。Michael Elad引入两种双边滤波器[7],一个滤波器处理图像的反射分量,另一个滤波器对图像的入射分量进行估计,算法对边缘处的增强效果也较好,在消除“光晕”方面有了一定效果。文献[8]又提出了一种亮度修正的Retinex 算法,算法将Canny 算子和Retinex算法结合起来,算法首先对入射分量分析,接着采用Canny算子检测图像边缘信息,该算法能够有效消除“光晕”现象。文献[9]提出了局部多尺度的Retinex算法,将小波变换和Retinex算法结合起来,实现了图像色彩保真与细节增强两者之间的权衡[10]。文献[11]将图像转换到HIS空间对亮度和饱和度进行调整,同时加入影像边缘细节特征。陈志斌等人针对烟雾区域灰度建立专门数学模型,利用信息熵进行灰度拉伸[12]。文献[13]基于Retinex框架在小波域自适应估计照度分量。

上述改进主要关注于消除Retinex 处理“光晕”现象、边缘的增强以及图像对比度的提升,忽略了处理所造成的人工痕迹明显以及时间效率等问题。本文对基于Retinex理论的算法进行研究,考虑日常影视及移动设备拍摄视频的增强处理要求,提出一种新的方法,使需要增强图像区域看起来更加自然,而对于无需增强的图像区域,处理后也不会变得更差。另外通过引入引导滤波使得算法满足实时应用要求,同时消除光晕。实验结果表明本文算法是切实有效的。

1 Retinex 算法简介

Retinex理论算法模型把原图像分解为反射分量和入射分量,反射分量决定图像的内在性质,而照射分量决定图像达到的动态范围,通过某种方法估计出图像的低频光照信息,进而提取出图像的反射分量,也就是图像的细节信息,还原物体的原貌。

虽然不同的文献对Retinex算法的数学表达形式可能不同,但实际上它们是相似的,都是通过对照度图像尽可能准确地估计进而提取反射图像,最终达到增强图像的目的。不同之处在于对照度图像估计方式的不同。Retinex理论算法数学模型为:

S(x,y) = R(x,y)?L(x,y) (1)

式中:R 表示入射分量,它决定物体的内在性质;L 表示照度分量,它决定了图像像素的动态范围。

通常需要将式(1)变换到对数域处理,一方面可以将复杂的乘法运算转换为简单的加法运算,另一方面对数域的数据更加接近人眼的感知能力。对式(1)两边取对数得:

Retinex虽然能够在一定程度上增强图像,但是它存在处理后的图像亮度偏高、“光晕”及处理后图像出现色偏等问题。“光晕”存在的原因在于“空间照度变化缓慢”的假设在图像中某些部分是不成立的,比如说明暗分明的边界、阴影等区域。算法在计算图像的全局照度分布时所采用的高斯卷积核是各向同性的,而且为防止结果图像颜色的失真,要求采用的卷积核尺度较大。当尺度较大的卷积核通过明暗变化剧烈的区域时,将会严重模糊阴影的边界致使模拟全局照度分布失败,最后将导致输出图像的阴影边界附加出现“光晕”现象,细节信息也丢失。

另外生成照度分量所用的低通滤波器通常选择高斯滤波,为了抑制光晕,一些文献提出使用双边滤波代替高斯滤波。这两种滤波器带来的卷积运算量都和滤波器支撑域成正比,大尺度卷积核会使运算量急剧增加,使处理过程缓慢,不能满足实时视频处理的要求。

2 基于Retinex 的视频自适应增强算法

虽然双边滤波等边缘保持滤波器能抑制“光晕”现象,但时间复杂度较高;而其他的算法如考虑边缘特性的各向异性算法[14]虽然能解决问题,但稍显繁杂。而且Retinex处理后的图像很多时候人工痕迹较为明显,典型表现为图像明亮区域抑制过多,图像暗区域增强太过,会出现色彩失真等不自然效果,如图1(b)和图2(b)所示,图1,图2 在天空、道路及灯光处都显得失真,Artifact明显。

考虑自然图像的增强,往往更关注暗区域部分,而对于高光区域,如果压缩太多,会使图像显得不真实;另外对于非光照不足或光照不均图像,算法处理的结果不应该变差。为此本文考虑实际应用中,对于处理结果自然度方面的要求较为重要,提出一种视频增强算法,利用引导滤波消除“光晕”和提高速度,满足实时处理要求;结合图像全局及局部灰度特性避免明显的人工痕迹,达到自适应处理需要增强的图像区域,同时不会影响视频中其他正常图像或区域质量的目的,取得较高的视觉效果。

2.1 结合全局及局部灰度特性的自适应Retinex对于光照增强而言,一个自然的想法是对原始图像中相对暗的区域加强补偿,而对原始图像中相对明亮的区域减少处理,从而在补偿光照的同时减少Artifact,因此,可以利用图像灰度特性改善Artifact。

图像的灰度特性可以直接通过像素颜色值大小反映,针对视频光照补偿的应用,本文研究提出一种补偿系数:

3 实验

文中所有实验图像来自手机拍摄视频和影视片段,转换到YUV 格式进行处理。手机拍摄视频尺寸为1 280×720,影视片段均从网络电影无损截取。实验环境为Window 7 系统的PC 机,利用Matlab R2010b 进行编程和算法运算。所有算法均调整至最佳效果。为了充分验证所提算法的有效性,本文进行了大量实验,下面选取几组进行对比评价。

图4为电影开头画面。图4(b)为用高斯滤波估计照度图像的处理结果,滤波核尺寸为32×32,可以看到在明暗分明的边界(红色矩形框区域),出现了“光晕”,这是由于高斯卷积引起照度图像边界模糊导致的;图4(c)为用引导滤波计算照度图像的结果,因为具有边缘保持性,所以可以较好地消除“光晕”,但对图像高亮区域不合理的抑制,导致处理结果失真(红色箭头指向区域);图4(d)为本文改进算法,引入补偿系数,在增强较暗区域的同时可以使处理后图像更加自然;图4(e)为补偿系数分布图像。

图5 和图6 同样为两组影视截取画面,图5 为综艺节目《爸爸去哪儿》,整体偏暗,图6为电影《木乃伊3》,存在高光区域。图5(b)为使用引导滤波的原算法,在天空、道路及屋檐灯光处人工痕迹明显,图5(c)为改进算法处理结果,在增强光照的同时可以保持一种很自然的风格;图6(b)在洞口高光及佛像处显得不自然,而图6(c)视觉效果更胜一筹。

图7为手机拍摄视频截图,存在阴影。需要指出的是本文算法的目的并非是完全消除阴影,而是在增强光照的同时保持图像自然风格,图7(c)很好的说明了这一出发点。

4 结语

本文着眼于视频光照增强处理的实际应用要求,基于Retinex理论自适应补偿系数消除人工痕迹保持自然度,利用引导滤波加快处理速度及避免“光晕”,满足日常影像处理的需求。下一步的工作将关注视频光照补偿所产生的帧间亮度闪烁问题,以及图像自然程度的定量衡量指标。

参考文献

[1] 肖燕峰.基于Retinex理论的图像增强陝复算法研究[D].上海:上海交通大学,2007.

[2] YU Z Y,BAJAJ C. A fast and adaptive method for image con?trast enhancement [C]// Proceedings of 2004 IEEE InternationalConference on Image Processing. Chicage:IEEE,2004,2:1001?1004.

[3] 梁琳,何卫千,雷蕾,等.光照不均图像增强算法综述[J].计算机应用研究,2010,27(5):1625?1628.

[4] 焦竹青.基于同态滤波的彩色图像光照补偿万法[J].光电子·激光,2010,21(4):602?605.

[5] ZAFAR I M,ABDUL G,MASOOD S A. Satellite image resolu?tion enhancement using dual ? tree complex wavelet transformand Nonlocal means [J]. IEEE Geoscience and Remote SensingLetters,2013,10(3):451?455.

[6] 蒋永馨,王孝通,徐晓刚,等.一种基于光照补偿的图像增强算法[J].电子学报,2009,37(z1):151?155.

[7] ELAD M. Retinex by two bilateral filters [C]// Proceedings of2005 the 5th International Conference on Scale?Space. Germa?ny:Springer,2005:217?229.

[8] SUN Bo,CHEN Weifang,LI Hongyu,et al. Modified luminancebased adaptive MSR [C]// Proceedings of 2007 the 4th IEEE In?ternational Conference on Image and Graphics. Washington,DC:IEEE,2007:116?120.

[9] 吴镇宇,姚洪利,杜少军.一种自适应的雾天降质图像凊晰化方法研宄[J].光电与控制,2010,17(8):52?56.

[10] 刘钦堂.基于Retinex算法的彩色图像增强研究[D].哈尔滨:哈尔滨工程大学,2012.

[11] 邵振峰,白云,周熙然.改进多尺度Retinex理论的低照度遥感影像增强方法[J].武汉大学学报,2015,40(1):32?39.

[12] 陈志斌,张超,宋岩,等.灰度拉伸Retinex在大动态范围烟雾图像增强中的应用[J].红外与激光工程,2014,43(9):3146?3150.

[13] EUNSUNG L,SANGJIN K,WONSEOK K. Contrast enhance?ment using dominant brightness level analysis and adaptive in?tensity transformation for remote sensing images [J]. IEEEGeoscience and Remote Sensing Letters,2013,10(1):62?66.

图像法论文第8篇

论文摘要:分割的目的是将图像划分为不同区域。图像分割算法一般是基于亮度值的两个基本特性之一:不连续性和相似性。第一类性质的已用途径是基于亮度的不连续变化分割图像,比如图像的边缘。第二类的主要应用途径是依据事先制订的准则将图像分割为相似的区域。门限处理、区域生长、区域分离和聚合都是这类方法的实例。遗传算法具有简单、鲁棒性好和本质并行的突出优点。其在应用领域取得的巨大成功,引起了广大学者的关注。在图像分割领域,遗传算法常用来帮助确定分割阈值。

本文介绍讨论了几种目前广泛应用的图像边缘检测、图像阈值分割的各种算法,并给出了对比分析;对遗传算法的基本概念和研究进展进行了综述;给出了标准遗传算法的原理、过程、实验结果及分析. 实验结果表明,本文提出的遗传分割算法优于传统分割算法。

第一章 绪论 1.1 图像分割综述

图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。这里所说的特性可以是灰度、颜色、纹理等,而目标可以对应单个区域,也可以对应多个区域。图像分割是数字图像处理中的一项关键技术,它使得其后的图像分析,识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。而且,在数字图像处理工程中,一方面,图像分割是目标表达的基础,对特征测量有重要的影响;另一方面,图像分割是自动目标识别的关键步骤,图像分割及其基于分割的目标表达、特征提取和参数测量等将原始图像转化为更抽象更紧凑的形式,分割中出现的误差会传播至高层次处理阶段,因此分割的精确程度是至关重要的。只有通过细致精细的图像分割,才能使得更高层的图像分析和理解成为可能。因此,图像分割是由图像处理进到图像分析的关键步骤,在图像工程中占据重要的位置。

1.2 图像分割的研究意义与发展现状 作为计算机视觉和图像处理中的难点和热点之一,图像分割的研究受到了研究工作者的高度重视,对图像分割进行了深入、广泛的研究。作为一种重要的图像技术,图像分割在不同领域中有时也用其它名称:如目标轮廓(object delineation)技术,阈值化(thresholding)技术,图像区分或求差(image discrimination)技术,目标检测(target detection)技术,目标识别(target recognition)技术,目标跟踪(target tracking)技术等,但这些技术本身或其核心实际上也就是图像分割技术。图像分割作为图像处理、分析的一项基本内容,其应用非常广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。在工业自动化、在线产品检验、生产程控、文件图像处理、遥感图像、保安监视、以及军事、体育、农业等行业和工程中,图像分割都有着广泛的应用。例如:在遥感图像中,合成孔径雷达图像中目标的分割、遥感云图中不同云系和背景分布的分割等;在医学应用中,脑部 MR 图像分割成灰质(GM)、白质(WM)、脑脊髓(CSF)等脑组织和其它脑组织区域(NB)等;在交通图像分析中,把车辆目标从背景中分割出来等;在面向对象的图像压缩和基于内容的图像检索中将图像分割成不同的对象区域等。在各种图像应用中,只要需对图像目标进行提取,测量等都离不开图像分割。

自 20 世纪 70 年代至今,已提出上千种各种类型的分割算法。如:门限法、匹配法、区域生长法、分裂-合并法、水线法、马尔可夫随机场模型法、多尺度法、小波分析法、数学形态学等。随着新理论、新技术的发展,一些新的图像分割方法也随之出现,但这些分割算法都是针对某一类型图像、某一具体的应用问题而提出的,并没有一种适合所有图像的通用分割算法。通用方法和策略仍面临着巨大的困难。另外,还没有制定出选择适用分割算法的标准,这给图像分割技术的应用带来许多实际问题。

1.3 本论文所作的工作 据此,在本论文中只对常用的、并在实践中行之有效的边缘检测方法和阈值分割方法进行深入的了解,并对阈值分割方法中的灰度直方图双峰法和基于遗传算法的最大类间方差法进行详细的讨论,同时用Matlab对上述两种方法进行验证并给出结果。

1.4 本论文的论述内容 本文对图像分割的整个过程中的一些常用的,经实践检验行之有效的算法进行了讨论和 改进。全文共七章。第一章为绪论,主要介绍了现阶段图像分割技术的发展现状和研究意义。其他六章分别在以下几个方面介绍了本文所做的工作:

1.对本文所采用的试验测试工具Matlab 进行简介。

2.简介数字图像的基础问题。概述了数字图像的基本概念和特点,简介了各种图像格式的特点和应用,为全文的讨论作一铺垫。

3.详细讨论了图像分割中的基于阈值的图像分割方法,给出了直方双峰法的算法和验证结果,并简要介绍了普通最大类间方差法的算法过程。

4.对遗传算法理论进行简介。详细讨论了遗传算法的定义和标准遗传算法的流程和要素。为应用此方法对最大阈值进行迭代寻优打下基础。

6.应用遗传算法改进了最大类间方差法。给出了整个遗传操作的使用函数与具体进程,并对实例图片进行处理,得到处理结果并得到迭代最优阈值M。

本文研究了图像分割的相关理论和常用技术,并对遗传算法进行了介绍,对遗传算法应用于图像分割进行了验证.

第二章 Matlab简介 2.1 MATLAB的概况和产生背景 2.1.1 MATLAB的概况 MATLAB是矩阵实验室(Matrix Laboratory)之意。除具备卓越的数值计算能力外,它还提供了专业水平的符号计算,文字处理,可视化建模仿真和实时控制等功能。MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多.

当前流行的MATLAB包括拥有数百个内部函数的主包和三十几种工具包(Toolbox).工具包又可以分为功能性工具包和学科工具包.功能工具包用来扩充MATLAB的符号计算,可视化建模仿真,文字处理及实时控制等功能.学科工具包是专业性比较强的工具包,控制工具包,信号处理工具包,通信工具包等都属于此类.开放性使MATLAB广受用户欢迎.除内部函数外,所有MATLAB主包文件和各种工具包都是可读可修改的文件,用户通过对源程序的修改或加入自己编写程序构造新的专用工具包.

2.1.2 MATLAB产生的历史背景 在70年代中期,Cleve Moler博士和其同事在美国国家科学基金的资助下开发了调用EISPACK和LINPACK的FORTRAN子程序库.EISPACK是特征值求解的FOETRAN程序库,LINPACK是解线性方程的程序库.在当时,这两个程序库代表矩阵运算的最高水平.到70年代后期,身为美国New Mexico大学计算机系系主任的Cleve Moler,在给学生讲授线性代数课程时,想教学生使用EISPACK和LINPACK程序库,但他发现学生用FORTRAN编写接口程序很费时间,于是他开始自己动手,利用业余时间为学生编写EISPACK和LINPACK的接口程序.Cleve Moler给这个接口程序取名为MATLAB,该名为矩阵(matrix)和实验室(labotatory)两个英文单词的前三个字母的组合.在以后的数年里,MATLAB在多所大学里作为教学辅助软件使用,并作为面向大众的免费软件广为流传。1983年春天,Cleve Moler到Standford大学讲学,MATLAB深深地吸引了工程师John Little.John Little敏锐地觉察到MATLAB在工程领域的广阔前景.同年,他和Cleve Moler,Steve Bangert一起,用C语言开发了第二代专业版.这一代的MATLAB语言同时具备了数值计算和数据图示化的功能.1984年,Cleve Moler和John Little成立了Math Works公司,正式把MATLAB推向市场,并继续进行MATLAB的研究和开发.

在当今30多个数学类科技应用软件中,就软件数学处理的原始内核而言,可分为两大类.一类是数值计算型软件,如MATLAB,Xmath,Gauss等,这类软件长于数值计算,对处理大批数据效率高;另一类是数学分析型软件,Mathematica,Maple等,这类软件以符号计算见长,能给出解析解和任意精确解,其缺点是处理大量数据时效率较低.MathWorks公司顺应多功能需求之潮流,在其卓越数值计算和图示能力的基础上,又率先在专业水平上开拓了其符号计算,文字处理,可视化建模和实时控制能力,开发了适合多学科,多部门要求的新一代科技应用软件MATLAB.经过多年的国际竞争,MATLAB以经占据了数值软件市场的主导地位.

在MATLAB进入市场前,国际上的许多软件包都是直接以FORTRANC语言等编程语言开发的。这种软件的缺点是使用面窄,接口简陋,程序结构不开放以及没有标准的基库,很难适应各学科的最新发展,因而很难推广。MATLAB的出现,为各国科学家开发学科软件提供了新的基础。在MATLAB问世不久的80年代中期,原先控制领域里的一些软件包纷纷被淘汰或在MATLAB上重建。

时至今日,经过MathWorks公司的不断完善,MATLAB已经发展成为适合多学科,多种工作平台的功能强大大大型软件。在国外,MATLAB已经经受了多年考验。在欧美等高校,MATLAB已经成为线性代数,自动控制理论,数理统计,数字信号处理,时间序列分析,动态系统仿真等高级课程的基本教学工具;成为攻读学位的大学生,硕士生,博士生必须掌握的基本技能。在设计研究单位和工业部门,MATLAB被广泛用于科学研究和解决各种具体问题。在国内,特别是工程界,MATLAB一定会盛行起来。可以说,无论你从事工程方面的哪个学科,都能在MATLAB里找到合适的功能。

2.2 MATLAB的语言特点 一种语言之所以能如此迅速地普及,显示出如此旺盛的生命力,是由于它有着不同于其他语言的特点,正如同FORTRAN和C等高级语言使人们摆脱了需要直接对计算机硬件资源进行操作一样,被称作为第四代计算机语言的MATLAB,利用其丰富的函数资源,使编程人员从繁琐的程序代码中解放出来。MATLAB最突出的特点就是简洁。MATLAB用更直观的,符合人们思维习惯的代码,代替了C和 FORTRAN语言的冗长代码。MATLAB给用户带来的是最直观,最简洁的程序开发环境。以下简单介绍一下MATLAB的主要特点。

1. 语言简洁紧凑,使用方便灵活,库函数极其丰富。MATLAB程序书写形式自由,利用起丰富的库函数避开繁杂的子程序编程任务,压缩了一切不必要的编程工作。由于库函数都由本领域的专家编写,用户不必担心函数的可靠性。可以说,用MATLAB进行科技开发是站在专家的肩膀上。 更为难能可贵的是,MATLAB甚至具有一定的智能水平,所以用户根本不用怀疑MATLAB的准确性。

2. 运算符丰富。由于MATLAB是用C语言编写的,MATLAB提供了和C语言几乎一样多的运算符,灵活使用MATLAB的运算符将使程序变得极为简短。

3. MATLAB既具有结构化的控制语句(如for循环,while循环,break语句和if语句),又有面向对象编程的特性。

4. 程序限制不严格,程序设计自由度大。例如,在MATLAB里,用户无需对矩阵预定义就可使用。

5. 程序的可移植性很好,基本上不做修改就可以在各种型号的计算机和操作系统上运行。

6. MATLAB的图形功能强大。在FORTRAN和C语言里,绘图都很不容易,但在MATLAB里,数据的可视化非常简单。MATLAB还具有较强的编辑图形界面的能力。

7. MATLAB的缺点是,它和其他高级程序相比,程序的执行速度较慢。由于MATLAB的程序不用编译等预处理,也不生成可执行文件,程序为解释执行,所以速度较慢。

8. 功能强大的工具箱是MATLAB的另一特色。MATLAB包含两个部分:核心部分和各种可选的工具箱。核心部分中有数百个核心内部函数。其工具箱又分为两类:功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能,图示建模仿真功能,文字处理功能以及与硬件实时交互功能。功能性工具箱用于多种学科。而学科性工具箱是专业性比较强的,如control,toolbox,signl proceessing toolbox,commumnication toolbox等。这些工具箱都是由该领域内学术水平很高的专家编写的,所以用户无需编写自己学科范围内的基础程序,而直接进行高,精,尖的研究。

9. 源程序的开放性。开放性也许是MATLAB最受人们欢迎的特点。除内部函数以外,所有MATLAB的核心文件和工具箱文件都是可读可改的源文件,用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。

2.3 MATLAB 遗传算法工具箱简介 鉴于Matlab强大的扩展功能和影响力,各个领域的专家相继突出了许多基于Matlab的专用工具箱。本文所采用的遗传算法工具箱,就是由英国谢菲尔德(Sheffield)大学设计推出的。相对于其他版本的遗传算法工具箱,如:美国北卡莱罗纳州立大学推出的遗传算法优化工具箱GAOT(Genetic Algorithm Optimization Toolbox),以及MathWorks公司最新的一个专门设计的Matlab遗传算法和直接搜索工具箱(Genetic Algorithm and Direct Search Toolbox),本工具箱的出现最早,影响较大且功能较为完备。文中所采用的所有遗传操作函数大部分出自本工具箱。

第三章 数字图像基础简介 图像处理的首要一步,就是要了解图像的基本性质与特点。只有充分了解和掌握了所要处理得图像的特点和性质,才能在接下来的处理中根据图像的特点获取所需的信息,并对其进行相应的处理。

本章将介绍数字图像的基础知识,以及图像在计算机处理中的信息表达形式,并对几种常用的图像文件格式Bmp, Jpeg以及Png等做简要的介绍。

3.1 图像的基本概念及其特点 要对图像进行处理,必须清楚图像的概念。一般来说,二维或三维景物呈现在人眼中的样子就是图像。图像具有以下三个方面的特点:

①图像带有大量的信息,一幅图像顶得上千言万语;

②图像种类繁多,包括照片、绘图视频图像等;

③人类从外界获得的大部分信息来自视觉系统。

人们看到的任何自然界的图像都是连续的模拟图像。其形状和形态表现由图像各位置的颜色来决定。可以用f(x, y)表示一幅模拟图像,其中x, y表示空间坐标点的位置,f表示图像在点(x, y)的某种性质的数值,如亮度、颜色等,f、x、y可以是任意的实数。而把连续空间的图像在坐标空间(X, Y)和性质空间F都离散化,以便于计算机进行加工处理的离散化的图像则称为数字图像。数字图像用I (r, c)来表示,其中:r=row为行,c = col为列,表示空间离散点的坐标,I表示离散化的图像f。I, r, c都是整数。实际中仍习惯用f (x, y)表示数字图像。图像存储画面的形式为栅格结构:即将图像划分为均匀分布的栅格(像素),显式的记录每一像素的亮度和颜色;而将像素的坐标值规则地隐含起来,其位置排列规则,通常为矩形排列。

3.2 图像的格式 组成数字图像的基本单位称为像素(Pixel),把像素按不同的方式进行组织和存储,就得到不同的图像格式;把图像数据存为文件就得到图像文件。图像文件按其格式的不同一般具有不同的扩展名。常用的图像文件格式有位图文件、JPEG文件、GIF文件、PNG文件等。每一种格式都有它的特点和用途,在选择输出的图像文件格式时,应考虑图像的应用目的以及图像文件格式对图像数据类型的要求。下面我们介绍几种常用的图像文件格式及其特点。

3.2.1 BMP图像格式 这是一种DOS和Windows兼容计算机系统的标准图像格式。BMP格式支持索引色、灰度等色彩模式。图像存储为BMP格式时,每一个像素所占的位数可以是1位、4位、8位或32位,相对应的颜色数也从黑白一直到真彩色。对于使用Windows格式的4位和8位图像,可以指定采用RLE压缩。BMP图像文件含文件头、调色板数据和图像数据三个层次。其中文件头由定义文件标识、大小即图像数据偏移量的BITMAPF工LEHEADER以及指定BMP图像自身的若干参数的BITMAPINFOHEADER两部分组成。这种格式在PC机上应用非常普遍。

3.2.2 JPEG图像格式 JPEG是由联合照片专家组(JiontPhotographic Experts Group)开发的一种图像文件格式。它采用有损压缩方式去除冗余的图像和彩色数据,在获取极高的压缩率的同时也能展现十分丰富生动的图像。也就是说,可以用较少的磁盘空间得到较好的图像质。另外,JPEG还是一种比较灵活的格式,当将图像保存为JPEG格式时,允许用户用不同的压缩比例对文件进行压缩,就是可以指定图像的品质和压缩级别。

3.2.3 TIFF图像格式 TIFF文件主要由三部份组成,包括文件头、标识信息区和图像数据区。T工FF文件的图像数据区以行扫描的方式存取图像,存储图像前先将图像分割成若干部分,压缩后再存储。存储时,单色图像一个字节存储8个点,16色图像一个字节2个点,而256色图像就是一个字节存储一个点。TIFF图像格式是一种应用非常广泛的位图图像格式,几乎被所有绘画、图像编辑和页面排版应用程序所支持。TIFF格式常常用于在应用程序之间和计算机平台之间交换文件。

3.2.4 GIF图像格式 CIF是Graphics Interchange Format(图形交换格式)的缩写,是由ComputerServe公司推出的一种图像格式。该种图像格式的特点是压缩比高,可以极大地节省存储空间。最初的GIF只是简单的用来存储单幅静止图像,后来可以同时存储若干幅静止图像从而形成连续的动画;同时,GIF格式支持透明背景,可以较好地与网页背景融合在一起。因此,GIF常常用于保存作为网页数据进行传输的图像文件,成为网络和BBS上使用频率较高的一种图像文件格式。但是GIF最多只能处理256种色彩,不能用于存储真彩色的图像文件。

3.2.5 PNG图像格式 这种格式称为可移植网络图像文件格式(Portable Network Graphics),由Thomas Boutell, Tom Lan。等人提出并设计。其特点是:①支持48位真彩色图像、16位灰度图像和颜色索引数据图像;②主要面向网络图像传输和图像编辑,其提供的二维交叉存储机制使用户在图像网络传输过程中能更快的观察到接近真实的近似图像;③对用户完全透明且无专利限制,用户可以从Internet上随时下载与PNG文件格式配套的图像数据压缩算法源程序代码:④ 具有比GIF高5-20%的压缩效率;⑤ 具有可扩展性。

作为目前最不失真的图像格式, PNG格式图像吸取了GIF和JPEG二者的优点。它可以把文件压缩到极限以利于网络传输,但由于采用无损压缩方式来减少文件大小,PNG格式能保留所有与图像品质有关的信息。同时,PNG支持图像背景透明,显示速度快。

本文的所有图像的处理都是对由JPG格式图像通过图像格式转化得来的Bmp格式的索引色图像进行的,其具体转换程序参见附录[一]。

第四章 图像分割 4.1 图像分割算法的定义与分类 在图像的研究和应用中,人们往往只对一幅图像中的某些部分感兴趣,这些感兴趣的部分一般对应图像定的、具有特殊性质的区域(可以对应单个区域,也可以对应多个区域),称之为目标或前景;而其它部分称为图像的背景。为了辨识和分析目标,需要把目标从一幅图像中孤立出来,这就是图像分割要研究的问题。所谓图像分割,从广义上来讲,是根据图像的某些特征或特征集合(包括灰度、颜色、纹理等)的相似性准则对图像象素进行分组聚类,把图像平面划分成若干个具有某些一致性的不重叠区域。这使得同一区域中的象素特征是类似的,即具有一致性;而不同区域间象素的特征存在突变,即具有非一致性。从集合的角度出发,图像分割定义如下:

设整个图像空间为一集合R 。根据选定的一致性准则P ,R 被划分为互不重叠的非空子集(或子区域):{R1, R2,L, Rn},这些子集必须满足下述条件:

(1) R =

(2) 对于所有的i和j ,当i ≠ j, =空集

(3) P(Ri) = True ,对所有的i

(4) 所有i ≠ j;Ri ,Rj相邻,P(Ri U Rj) = False

(5) 对i =1,2,L,n, Ri是连通区域

其中:P(Ri)为作用于Ri 中所有象素的形似性逻辑谓词,i, j =1,2,L,…n。上述条件

(1)指出分割后的全部子区域的总和应包含图像中的所有元素,或者说分割应将图像中每个象素都分进一个子区域中。

(2)指出各个子区域相互不重叠。

(3)指出分割后得到的属于同一区域中的元素应该具有某种相同特性。

(4)指出对于分割后得到的属于相邻两个区域中的元素具有某种不同的特性。(5)要求同一个子区域内的元素应当是连通的。

其中分割准则P 适用于所有象素,由它来确定各区域元素的相同特性。上述数学条件说明了图像分割算法的一些特点,凡不符合以上特点的图像处理算法则不能称为图像分割算法。

目前,在己提出的多种类型的分割算法中,大致可以分为基于边缘检测的方法和基于区域的方法。而在实际应用中,这些方法主要又可划分为三种类型: 边缘检测型、阈值型和区域跟踪型。本文的讨论正是基于阈值型图像分割方法展开的。

4.2 基于阈值的分割 4.2.1方法定义与特点 基于阈值的分割方法是一种应用十分广泛的图像分割技术。所谓阈值分割方法的实质是利用图像的灰度直方图信息得到用于分割的阈值。它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的象素是同一个物体。它不仅可以极大的压缩数据量,而且也大大简化了图像信息的分析和处理步骤。因此,在很多情况下,是进行图像分析、特征提取与模式识别之前必要的图像预处理过程。它特别适用于目标和背景占据不同灰度级范围的图像。阈值分割方法的最大特点是计算简单,运算效率高,在重视运算效率的应用场合,它得到了广泛的应用。

4.2.2阈值的分割的描述 设(x,y)是二维数字图像的平面坐标,图像灰度级的取值范围是G= {0, 1, 2,…L-1 }(习惯上0代表最暗的像素点,L-1代表最亮的像素点),位于坐标点(x, y)上的像素点的灰度级表示为f (x, y)。设t∈G为分割阈值,B= {b0, b 1}代表一个二值灰度级,并且b0, b1∈B。于是图像函数f 1(x,y)在阈值t上的分割结果可以表示为:

阈值分割法实际就是按某个准则函数求最优阈值t的过程。域值一般可写成如下的形式:

T=T[x,y, f (x,Y),p (x,y)]

其中f (x, y)是在像素点(x, y)处的灰度值,p(x,y)是该点邻域的某种局部性质。4.3.3阈值分割方法的分类

通过上文的讨论,结合所给公式,可以将阈值分割方法分为以下3类:

1) 全局阈值:T=T[p(x,y)〕,即仅根据f(x,y)来选取阈值,阈值仅与各个图像像素的本身性质有关。

2) 局部阈值:T=T[f(x,y),p(x,y)],阈值与图像像素的本身性质和局部区域性质相关。

3) 动态阈值:T=T[x,y,f(x,y),p(x,y)],阈值与像素坐标,图像像素的本身性质和局部区域性质相关。

全局阈值对整幅图像仅设置一个分割阈值,通常在图像不太复杂、灰度分布较集中的情况下采用;局部阈值则将图像划分为若干个子图像,并对每个子图像设定局部阈值;动态阈值是根据空间信息和灰度信息确定。局部阈值分割法虽然能改善分割效果,但存在几个缺点:

1) 每幅子图像的尺寸不能太小,否则统计出的结果无意义。

2) 每幅图像的分割是任意的,如果有一幅子图像正好落在目标区域或背景区域,而根据统计结果对其进行分割,也许会产生更差的结果。

3) 局部阈值法对每一幅子图像都要进行统计,速度慢,难以适应实时性的要求。

全局阈值分割方法在图像处理中应用比较多,它在整幅图像内采用固定的阈值分割图像。考虑到全局阈值分割方法应用的广泛性,本文所着重讨论的就是全局阈值分割方法中的直方图双峰法和基于遗传算法的最大类间方差法。在本节中,将重点讨论灰度直方图双峰法,最大类间方差法以及基于遗传算法的最大类间方差法留待下章做继续深入地讨论。

4.2.3 直方图双峰法(mode 法) Prewitt 等人于六十年代中期提出的直方图双峰法(也称 mode 法) 是典型的全局单阈值分割方法。该方法的基本思想是:假设图像中有明显的目标和背景,则其灰度直方图呈双峰分布,如图所示:

当灰度级直方图具有双峰特性时,选取两峰之间的谷对应的灰度级作为阈值。如果背景的灰度值在整个图像中可以合理地看作为恒定,而且所有物体与背景都具有几乎相同的对比度,那么,选择一个正确的、固定的全局阈值会有较好的效果。例如图4.1所示:

图4.1

原始灰度图像

图4.2

灰度直方图

当选定阈值M为100时,分割效果如下:

图4.3

分割后图像

通过对上示图片的比照,对于简单的,背景图像和目标图像对比鲜明的图片,我们很容易通过其灰度直方图找到分割用的阈值(M=100),从而将图像按照灰度的不同区分开来。

这种方法虽然简单易行,但是因为同一个直方图可能对应若干种不同的图像,所以使用双峰法需要有一定的图像先验知识,而且该方法不适合用于直方图中的双峰差别很大或双峰之间的谷部较宽广而平坦或者只有单峰的图像。例如,在对于下示图4.4,图4.7,图片的处理:

图4.4

原始图像

图4.5

灰度图像

图4.6

灰度直方图

图片4.5的直方图平坦,无法找出两峰之间的峰谷。

图4.7

原始图像

图4.8

灰度图像

图4.9

灰度直方图

图片4.8的直方图的各峰差别大,无法通过峰谷判定阈值。因此,阈值的难以确定,导致对这两幅图片采用灰度直方图法的失败:

图4.10

分割结果

图4.11

分割结果

由于图片4.5直方图的平坦,无法找出两峰之间的峰谷,而图片4.8的直方图各峰差别很大,导致图片4.5和图片4.8都无法获得足够的图像先验知识,从而使本方法的使用遇到困难,阈值的寻找困难直接导致在采用本方法处理图片后,分割后的图像与原图像的差别很不明显,并未达到实际的分割效果。因此,本方法的使用的局限性很大,只适于对一些简单的背景和目标图像的灰度差别很大的图像的处理,(程序源代码参见附录一),而且不便于阈值的自动选择,无法完全自动的有程序实现。

第五章 模糊理论和遗传算法理论简介 传统的信息处理方法建立在概率假设和二态假设(Probality Assumption

&Binary-State Assumption)的基础上。概率假设使传统的数学应用范围从确定性现象扩展到随机现象,二态假设对应了人类的精确思维方式。但自然界客观存在的事物除了可以精确表示之外,还存在着大量的模糊现象,如“年轻人”、“高个子”等,究竟多大年龄之间算“年轻’,,多高个子为“高个子”,这是人们观念中的模糊的概念,模糊(Fuzzy)概念由此产生。模糊性也就是生活中的不确定性。实际上客观事物的不确定性除了随机性外,模糊性也是一种不确定性。所谓模糊性是指事物的性质或类属的不分明性,其根源是事物之间存在过渡性的事物或状态,使它们之间没有明确的分界线。

在自然科学中,人们长久以来习惯于追求精确性,总希望把事物以数学方式描述出来,然而,面对模糊现象,传统的数学方法遇到了实质性的困难。但对于人的大脑而言,它具有很高的模糊划分、模糊判断和模糊推理的能力,而且人们为了表达和传递知识所采用的自然语言中已巧妙地渗透了模糊性,并能用最少的词汇表达尽可能多的信息。但是,对于计算机来说,无论它怎样发展,总无法达到人脑的境界,所以,用计算机来处理模糊信息,就需要一种能够将模糊语言形式化的工具,用数学的方式处理这种模糊性。模糊数学的一个重要特点,就是让数学反过来吸收人脑的模糊识别和判决特点,并将之运用于计算机,使部分自然语言能够作为算法语言直接进入程序,让机器通过模仿生物的思维判别模式,使人们能够以简易的程序来调动机器完成复杂的任务,从而大大提高机器的灵活性。人工智能,计算生命,遗传算法等前沿学科正是模糊数学理论发展的结果。在面对工程领域中大量的无法采用传统优化方法解决的复杂的、非线性的优化问题时,遗传算法作为模糊数学理论中重要的一支,因其具有简单、通用,鲁棒性强,且易于并行性的特点,而广泛应用于工程设计的优化,系统辨识和控制,机器学习,图像处理和智能信息处理等领域。

本文正是以遗传算法这一新的,融生命科学与工程科学于一体的全局搜索算法为主要的研究与讨论方向,重点讨论了基于遗传算法理论的图像分割问题。

5.1遗传算法的基本概念 遗传算法(GA-Genetic Algorithms)是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,由Michigan大学的J. Holland教授于1975年首先提出。它将“适者生存”的进化理论引入串结构,并且在串之间进行有组织但又随机的信息交换。通过遗传操作,使优良品质被不断保留、组合,从而不断产生出更佳的个体。子代个体中包含父代个体的大量信息,并在总体上胜过父代个体,从而使种群向前进化发展,即不断接近最优解。由于遗传算法是自然遗传学和计算机科学相互结合渗透的产物,因此借用了许多自然进化的基础术语。

·种群(population)和个体(individuals)

遗传算法处理的是染色体,或者叫基因型个体,通常以一维串结构资料来表现。一定数量的个体组成了种群(population ),或叫集团。

·种群规模(population size )

种群中个体的数目称为种群大小,也叫种群规模。

·适应度函数(fitness function )

各个个体对环境的适应程度叫做适应度。对于优化问题,适应度函数就是目标函数。遗传算法对适应度函数并不要求可导等条件,只要求适应度函数为可加以比较的非负函数。

·编码(coding)、译码(decoding)操作

遗传算法必须包含两个必须的资料转换操作,即把搜索空间中的参数或解转换成遗传空间中的染色体或个体,称为编码操作;反之,称为译码操作。

·选择(selection )、交叉(crossover)和变异(mutation)操作

这三个操作数是遗传算法的三个主要操作操作数,即遗传操作( genetic operation,是遗传算法的特点。(详细介绍将在下节。)

5.2遗传算法 5.2.1遗传算法的基本流程 标准遗传算法(( SGA)的基本流程如图所示,算法主要步骤如下图5.1示:

1)随机产生初始种群,作为第一代。个体长度、种群规模、交叉概率、变异概率为固定值;

2)对父代种群计算适应度值;

3)判断是否满足终止条件,是,则执行步骤4:否则,进行选择、交叉、变异操作形成子代种群,并将子代种群作为下一次叠代的父代种群,转入执行步骤2;

4)输出最佳个体,退出。

SHAPE \* MERGEFORMAT

5.2.2遗传算法的要素 遗传算法具有5个基本要素:编码机制,初始种群的设定,适应度函数的设定,遗传操作,控制参数的设定。具体步骤如下:

1.编码机制

编码机制是遗传算法的基础。通常遗传算法不直接处理问题空间的资料,而是将各种实际问题变换为与问题无关的串个体。对染色体串的遗传操作只与遗传算法的理论、技术有关,而与具体实际问题无关。这一特性增大了遗传算法的适用性。当实际问题变化时,可只改变适应度函数,而无需改变其它操作,加强了代码的通用性。最常用的方法是二进制串结构编码。

2.初始化种群设定

遗传算法处理流程中,编码设计之后的任务是初始种群的设定,并以此为起点一代一代的进化直到按照某种进化终止准则终止。最常用的初始方法是无指导的随机初始化。

3.适应度函数

遗传算法在搜索过程中基本不采用外部信息,仅以适应度函数为依据引导搜索。它不受连续可微的约束且定义域可为任意集合。对目标函数的唯一要求是,对输入计算出能加以比较的非负结果。这使得遗传算法的应用范围非常广泛。个体的适应度值越大,表明该个体的生存能力越大,易于遗传产生后代。

4.遗传操作

遗传操作主要包括:选择(selection )、交叉(crossover)、变异mutation)三个操作数。

1)选择

选择过程是模仿自然选择现象,从父代种群中选出优良个体。个体的适应度值越大,在子代中将有更多的机会作为父代产生一个或多个子代个体。通常选用适应度比例法(赌方式roulette wheel )确定选择次数,该法中的各个体选择概率和其适应度值成比例。

2)交叉

最简单的交叉操作为单点交叉:首先,对父代个体进行随机配对;然后,配对个体随机设定交叉位置;最后,交换配对个体的部分信息。当染色体长度为l时,l-1有个交叉位置,单点交叉可实现l- 1种不同的交叉结果。

父代个体A 10011|011 10011100 新个体A’

父代个体B 01101|100 01101011 新个体B’

3)变异

变异操作随机选择变异基因序号,根据一定的变异概率Pm对该序号基因进行变异。对于二进制编码个体通常采用0变为l, 1变为0。

1 0 0 1 1 0 1 1 0 1 1 0 1

变异位

5.控制参数

控制参数主要有:种群规模、迭代次数、交叉概率、变异概率等。对此标准遗传算法都设为固定值。标准遗传算法的特点是:

1)赌选择方法:

2)随机配对;

3)单点交叉,生成两个子代个体:

4)种群内允许相同个体出现。

可见,遗传算法从任一初始化种群出发,通过选择(使优秀个体有更多机会传给子代),交叉(体现优秀个体间的信息交换),变异(引入新的个体,保持种群的多样性)操作种群一代一代的进化到搜索空间中最优点附近,直至收敛到最优解点。遗传算法不是直接作用在问题空间中,而是编码空间中,而且遗传操作非常简单。这使得遗传算法具有了简单,通用,鲁棒性强的特点。

第六章 基于遗传算法的最大类间方差分割法 6.1 普通最大类间方差法(Otsu法)简介 由 Otsu于 1978 年提出的最大类间方差法以其计算简单、稳定有效而一直广为使用。该方法又称为大津阈值分割法,是在判决分析最小二乘法原理的基础上推导得出的,算法较为简单。此方法由于其简便性和分割准确性在图像分割中被大量采用,但是缺点在于与,与后文所述的基于遗传算法最大类间方差法相比,要求得最佳阈值,需要遍历灰度范围0~L-1内的所有像素并计算方差,最后比较得出最大方差,计算量大同时效率也很低,运算时间偏长。鉴于本文着重讨论遗传算法最大类间方差法,因此对于普通最大类间方差法讨论只作简介,详细内容参阅参考文章[25]。

基本思路:选取的最佳阈值t应当使得不同类间的分离性最好。首先计算基于直方图得到各分割特征值的发生概率,并以阈值变量t将分割特征值分为两类,然后求出每一类的类内方差及类间方差,选取使得类间方差最大,类内方差最小的t作为最佳阈值。具体步骤如下:

设原始灰度图像灰度级为L,灰度级为i的象素点数目为ni,则图像的全部象素数为

按阈值t可将所有象素划分两类:C0= (0,1,2,…,t)和C1 = (t +1,t + 2,…,L -1) 。而C0和C1类的类出现概率w及均值μ 分别由下列各式给出:

式中:

不难得出,对任何t值,下式都能成立:

C0和C1类的方差可由下式求得:

定义类内方差σw、类间方差σB、总体方差σT 为:

引入

则最佳阈值t*可选择为:

t* = maxη(t)

在图像处理过程中,原有的图像分割方法都不可避免的会产生误差,这些误差会影响到图像处理和识别的效果。如何使这些误差最小是使计算机视觉达到实用化的重要要求。遗传算法其固有的并行性和不易陷入局部最优的特点使之非常适于大规模搜索空间的寻优,因此,己广泛应用于图像处理领域。图像分割是一个在复杂的参量空间中寻找最优分割参量的问题,遗传算法可以有效的寻找参量空间的全局最优值,从而为解决图像分割中的参量选择难题提供了有力的保证。本章将着重讨论基于遗传算法的最大类间方差分割法在图像分割中的应用。

6.2 最大类间方差图像分割的遗传算法描述 正如前文所述,最大类间方差的求解过程就是在解空间中找到一个最优解,使得类间方差最大。为了改进普通最大类间方差法,采用遗传算法,求其寻找最优解的过程进行改进。遗传算法的最大类间方差法步骤如下:

1) 建立初始种群并编码。

在Matlab中,通过函数crtbp建立初始种群,在0~255之间以同等概率随机产生初始种群,通常初始种群的规模选取不易过大。随机的在0~255之间以同等概率生成40个个体A 1 ~A40作为第一次寻优的初始的种群。通过函数bs2rv进行二进制码和实值的转变。因为图像的灰度级在0~255之间,所以将染色体编码成8位二进制码,它代表某个阈值。(函数源代码参见附录[二]、附录[三])

2) 适应度函数计算各个体的适应度值。采用公式

P1=S1/I; P2=S2/J

F(k)=I*J*(P1-P2)* (P1-P2)/(256*256)

作为适应度函数对个体进行适应度计算。式中,F(k)为适应度函数;I为目标图像的像素数J为背景图像的像素数;S1 为目标图像的像素和,S2为背景图像的像素和。(函数源代码参见附录[四])

3) 选择::

与标准遗传算法略有不同,本例未采用赌方法进行选择操作,而是以Matlab中的高级函数select作为选择程序。在这种方法中,需要设定代沟,即整个种群在每一代中没有完全被复制,有部分剩余。本例设代沟GGAP=0.9,即每次遗传后子代数量为父代的90%。(函数源代码参见附录[五])。

4) 交叉:

在Matlab中使用高级函数recombin实现。即在当前种群中每次选取两个个体按设定的交叉概率(0.7)进行交叉操作,生成新的一代种群; (函数源代码参见附录[六])。

5) 变异:

在Matlab中使用函数mut实现。即根据一定的变异概率Pm,选取当前种群的每一行对应一个个体并用概率Pm变异每一个元素,从而形成新一代群体。(函数源代码参见附录[七])

6) 终止

本程序中选择指定代数(50代)作为寻优循环跳出的判断条件。判断跳出条件是否满足,若不满足,则以新生成的群体作为第一代群体,转到步骤3继续寻优,否则转到步骤7。

7) 将最后一代群体中适应度最大的个体作为最优结果,将其反编码(采用bs2rv函数),即为所求的最佳分割阈值。

6.3 实验结果与效果对比图 为了验证算法的效果,选用一幅SHE的JPG图像进行实验,原始图像显示:

图6.1

原始图像

对上图进行灰度变化后的灰度图像如下:

图6.2

灰度图象

在对灰度图像转化为索引图像并将其数据类型转化为双精度型之后的图片如下:

图6.3

索引图像

此时,就可对上图进行基于遗传算法的最大类间方差分割法进行处理了。设定初始群体的数目N=40,交叉概率P c=0. 9,代沟为0.9,变异率为Pm采用默认值。最大迭代数G=50。实验结果及数据如下:

通过50次迭代寻优后,找到最优化阈值M=162:

图6.4

基于遗传算法的最大类间方差法分割后图像

图6.5

直方图双峰法分割后的图像

6.4实验结论 本文所讨论的基于遗传算法的图像分割算法,采用标准遗传算法作为计算流程,但对其中的选择算子进行了改变,用高级选择函数select代替了传统的单一选择算子,使得在每次选择运算后所得的父辈更为健壮,更好的保持了第一代父辈的表现型,使得分割更加精确。通过设计变异概率,使得每次迭代遗传运算后,子代的表现型略有改变,从而更以获得最优的表现型(即最优阈值),减少了迭代寻优次数,降低了程序运行时间。同时考虑到过多迭代不利于降低程序运行时间,以及在寻优过程中的最佳值收敛问题,指定迭代次数为50次时即跳出整个程序,通过反编码求得最优阈值,并通过变量调用,直接应用于下面的分割程序,达到了整个算法的自动完成。

相对于灰度直方图双峰法,本方法对图像的先验信息要求不高,不需要像灰度直方图法那样,先通过获得图像的灰度直方图取得分割阈值后再对图像处理,整个程序的自动化程度高,且对于那些灰度直方图不呈双峰分布的图像,本算法程序一样可以处理,这就扩大了本算法程序的灵活性,从而更具有实际意义。而且,由于灰度直方图双峰法的阈值是通过人眼观察获得,其误差必然大于机器迭代运算所取得的最优阈值,而普通的阈值分割法,如ostu法,虽然实现了阈值的自动选择,但其运算时间与本算法相比偏长,实时性差于本算法。因此,在图像分割算法中,基于遗传算法的图像分割算法更优于其它传统的图像分割算法。

通过上述讨论,以及两种方法的处理结果图片的对比,基于遗传算法的最大类间方差法分割后图像与直方图双峰法分割后的图像像比,效果更明显,且无须事先测量图像的灰度直方图,更加灵活,更加精确。

其相关试验结论列于下表:

基于遗传算法的图象分割实验结论总表:

分割方法

自动化程度

阈值

灰度直方图

计算时间

分割结果

灰度直方图法

无法自动完成

——

基于遗传算法的Ostu法

阈值自动指定,阈值M=162,

短于普通Ostu法

普通Ostu法

阈值自动指定

偏长

参见参考文章[25]

参 考 文 献 [1]张兆礼,赵春晖,梅晓丹.现代图像处理技术及MAThAB实现.北京:人民邮电出版社,2001.1

[2]陈传波,金先级.数字图像处理[M].北京:机械工业出版社,2004.

[3]夏德深,傅德胜等.现代图象处理技术与应用[M].南京:东南大学出版社,1997.

[4]章毓晋.图象工程(上册)图象处理和分析.北京:清华大学出版社,1999.

[5]王小平,曹立明.遗传算法理论、应用与软件实现.西安:西安交大出版社,2002.

[6]徐立中,数字图像的智能信息处理。北京:国防工业出版社,2001

[7]王耀南,李树涛,毛建旭,计算机图像处理与识别技术,北京:高等教育出版社,2001

[8]雷英杰,张善文,李绪武,周创明.MATLAB遗传算法工具箱及应用,西安:西安电子科技大学出版社

[9]何新贵.模糊知识处理的理论与计算,国防工业出版社,1999

[10]徐建华.图像处理与分析,北京:科学出版,1992.

[11]阮秋琦.数字图象处理学,电子工业出版社,2001

[12]王博等.图像平滑与边缘检测的模糊向量描述,小型微型计算机统,Vol. 20(3), 1999

[13]吴谨,李娟,刘成云,基于最大熵的灰度阈值选取方法,武汉科技大学学报(自然科学版),Vol. 27, No. 1, Mar, 2004

[14]李鉴庆,左坤隆,图像阈值选取的一种快速算法.计算机与现代化,2001年第6期

[15]魏宝刚,鲁东明,潘云鹤等.多颜色空间上的互式图像分割[J].计算机学报,2001, 24 (7):770-775

[16]杜亚勤,基于模糊集的图像边缘检测技术研究:[硕士学位论文].西安:西安工业学院,2004年4月

[17]王保平,基于模糊技术的图像处理方法研究[博士学位论文],西安:西安电子科技大学,2004, 9

[18]杜亚娟,潘泉,周德龙等,图像多级灰度非线性模糊增强算法研究,数据采集与处Vo1.14 No.2

[19]Russ J C, The image processing handbook. New York:CRC Press,1994

[20]L A Zadeh.Fuzzy Sets[J].Information and Contro1,1965, (8):338-353

[21]Lotfi A.Zadeh,A fuzzy-set-theoretic interpretation of linguistic hedges, Journal of Cybernetic, 1972, 64(2):4-34

[22]S. K. Pal, R. A. King. Image Enhancement Using Fuzzy Sets. Electron. Let t.,1980 16 (9):376-378.

[23]S. K. PaI, R. :A. King, On Edge Detection of R-Ray Images Using Fuzzy Sets. IEEE Trans.Patt. Anal and MachineIntell.1983,PAMI-5 (1):69-77.

[24]Otsu N. A Threshold Selection Method From Gray Level Histograms. IEEE Trans on Syst Man Cybernet, 1979, SMC-9:62-66

附 录 附录 一 灰度直方图双峰法分割源代码

clear, close all

B=imread('2.jpg'); %读入原始jpg格式图像

figure(1);

imshow(B),title('原始jpg格式图像');

I1=rgb2gray(B); %将原图像转化为灰度图象

figure(2);

imshow(I1),title('灰度格式图像');

[I1,map1]=gray2ind(I1,255); %将灰度图像转化为索引图像

figure(3), imhist(I1) %画出灰度直方图,以判断域值

I1=double(I1); %将unit8数组转化为double型数组

Z=I1 %将double型数组I1转存到Z中

[m, n]=size(Z);

for i=1:m

for j=1:n

if Z(i,j)>240 %灰度值大于域值时是白色

Z(i,j)=256;

end

end

end

figure(4) %画出分割后目标图像

image(Z),title('分割后图像');colormap(map1);

图像I图像格式转化及灰度直方图双峰法分割源代码

clear, close all

B=imread('she.jpg'); %读入原始jpg格式图像she

figure(1);

imshow(B),title('原始jpg格式图像');

I1=rgb2gray(B); %将原图像转化为灰度图象

figure(2);

imshow(I1),title('灰度格式图像');

[I1,map1]=gray2ind(I1,255); %将灰度图像转化为索引图像

figure(3), imhist(I1) %画出灰度直方图,以判断域值

I1=double(I1); %将unit8数组转化为double型数组

Z=I1 %将double型数组I1转存到Z中

[m, n]=size(Z);

for i=1:m

for j=1:n

if Z(i,j)>240 %灰度值大于域值时是白色

Z(i,j)=256;

end

end

end

figure(4) %画出分割后目标图像

image(Z),title('分割后图像');colormap(map1);

图像II图像格式转化及灰度直方图双峰法分割源代码

clear, close all

B=imread('she.jpg'); %读入原始jpg格式图像月亮

figure(1);

imshow(B),title('原始jpg格式图像');

I1=rgb2gray(B); %将原图像转化为灰度图象

figure(2);

imshow(I1),title('灰度格式图像');

[I1,map1]=gray2ind(I1,255); %将灰度图像转化为索引图像

figure(3), imhist(I1) %画出灰度直方图,以判断域值

I1=double(I1); %将unit8数组转化为double型数组

Z=I1 %将double型数组I1转存到Z中

[m, n]=size(Z);

for i=1:m

for j=1:n

if Z(i,j)>240 %灰度值大于域值时是白色

Z(i,j)=256;

end

end

end

figure(4) %画出分割后目标图像

image(Z),title('分割后图像');colormap(map1);

附录 二

Crtbp 函数源代码:(由谢菲尔德大学Andrew Chipperfield编写)

% CRTBP.m - Create an initial population%

% This function creates a binary population of given size and structure.

%

% Syntax: [Chrom Lind BaseV] = crtbp(Nind, Lind, Base)

%

% Input Parameters:

%

% Nind - Either a scalar containing the number of individuals

% in the new population or a row vector of length two

% containing the number of individuals and their length.

%

% Lind - A scalar containing the length of the individual

% chromosomes.

%

% Base - A scalar containing the base of the chromosome

% elements or a row vector containing the base(s)

% of the loci of the chromosomes.

%

% Output Parameters:

%

% Chrom - A matrix containing the random valued chromosomes

% row wise.

%

% Lind - A scalar containing the length of the chromosome.

%

% BaseV - A row vector containing the base of the

% chromosome loci.

% Author: Andrew Chipperfield

% Date: 19-Jan-94

function [Chrom, Lind, BaseV] = crtbp(Nind, Lind, Base)

nargs = nargin ;

% Check parameter consistency

if nargs >= 1, [mN, nN] = size(Nind) ; end

if nargs >= 2, [mL, nL] = size(Lind) ; end

if nargs == 3, [mB, nB] = size(Base) ; end

if nN == 2

if (nargs == 1)

Lind = Nind(2) ; Nind = Nind(1) ; BaseV = crtbase(Lind) ;

elseif (nargs == 2 & nL == 1)

BaseV = crtbase(Nind(2),Lind) ; Lind = Nind(2) ; Nind = Nind(1) ;

elseif (nargs == 2 & nL > 1)

if Lind ~= length(Lind), error('Lind and Base disagree'); end

BaseV = Lind ; Lind = Nind(2) ; Nind = Nind(1) ;

end

elseif nN == 1

if nargs == 2

if nL == 1, BaseV = crtbase(Lind) ;

else, BaseV = Lind ; Lind = nL ; end

elseif nargs == 3

if nB == 1, BaseV = crtbase(Lind,Base) ;

elseif nB ~= Lind, error('Lind and Base disagree') ;

else BaseV = Base ; end

end

else

error('Input parameters inconsistent') ;

end

% Create a structure of random chromosomes in row wise order, dimensions

% Nind by Lind. The base of each chromosomes loci is given by the value

% of the corresponding element of the row vector base.

Chrom = floor(rand(Nind,Lind).*BaseV(ones(Nind,1),:)) ;

% End of file

附录 三

Bs2rv函数源代码: (由谢菲尔德大学Andrew Chipperfield编写)

% BS2RV.m - Binary string to real vector

%

% This function decodes binary chromosomes into vectors of reals. The

% chromosomes are seen as the concatenation of binary strings of given

% length, and decoded into real numbers in a specified interval using

% either standard binary or Gray decoding.

%

% Syntax: Phen = bs2rv(Chrom,FieldD)

%

% Input parameters:

%

% Chrom - Matrix containing the chromosomes of the current

% population. Each line corresponds to one

% individual's concatenated binary string

% representation. Leftmost bits are MSb and

% rightmost are LSb.

%

% FieldD - Matrix describing the length and how to decode

% each substring in the chromosome. It has the

% following structure:

%

% [len; (num)

% lb; (num)

% ub; (num)

% code; (0=binary | 1=gray)

% scale; (0=arithmetic | 1=logarithmic)

% lbin; (0=excluded | 1=included)

% ubin]; (0=excluded | 1=included)

%

% where

% len - row vector containing the length of

% each substring in Chrom. sum(len)

% should equal the individual length.

% lb,

% ub - Lower and upper bounds for each

% variable.

% code - binary row vector indicating how each

% substring is to be decoded.

% scale - binary row vector indicating where to

% use arithmetic and/or logarithmic

% scaling.

% lbin,

% ubin - binary row vectors indicating whether

% or not to include each bound in the

% representation range

%

% Output parameter:

%

% Phen - Real matrix containing the population phenotypes.

%

% Author: Carlos Fonseca, Updated: Andrew Chipperfield

% Date: 08/06/93, Date: 26-Jan-94

function Phen = bs2rv(Chrom,FieldD)

% Identify the population size (Nind)

% and the chromosome length (Lind)

[Nind,Lind] = size(Chrom);

% Identify the number of decision variables (Nvar)

[seven,Nvar] = size(FieldD);

if seven ~= 7

error('FieldD must have 7 rows.');

end

% Get substring properties

len = FieldD(1,:);

lb = FieldD(2,:);

ub = FieldD(3,:);

code = ~(~FieldD(4,:));

scale = ~(~FieldD(5,:));

lin = ~(~FieldD(6,:));

uin = ~(~FieldD(7,:));

% Check substring properties for consistency

if sum(len) ~= Lind,

error('Data in FieldD must agree with chromosome length');

end

if ~all(lb(scale).*ub(scale)>0)

error('Log-scaled variables must not include 0 in their range');

end

% Decode chromosomes

Phen = zeros(Nind,Nvar);

lf = cumsum(len);

li = cumsum([1 len]);

Prec = .5 .^ len;

logsgn = sign(lb(scale));

lb(scale) = log( abs(lb(scale)) );

ub(scale) = log( abs(ub(scale)) );

delta = ub - lb;

Prec = .5 .^ len;

num = (~lin) .* Prec;

den = (lin + uin - 1) .* Prec;

for i = 1:Nvar,

idx = li(i):lf(i);

if code(i) % Gray decoding

Chrom(:,idx)=rem(cumsum(Chrom(:,idx)')',2);

end

Phen(:,i) = Chrom(:,idx) * [ (.5).^(1:len(i))' ];

Phen(:,i) = lb(i) + delta(i) * (Phen(:,i) + num(i)) ./ (1 - den(i));

end

expand = ones(Nind,1);

if any(scale)

Phen(:,scale) = logsgn(expand,:) .* exp(Phen(:,scale));

end

附录 四 适应度函数target源代码:

function f=target(T,M) %适应度函数,T为待处理图像,M为域值序列

[U, V]=size(T);

W=, , length(M);

f=zeros(W,1);

for k=1:W

I=0;s1=0;J=0;s2=0; %统计目标图像和背景图像的像素数及像素之和

for i=1:U

for j=1:V

if T(i,j)<=M(k)

s1=s1+T(i,j);I=I+1;

end

if T(i,j)>M(k)

s2=s2+T(i,j);J=J+1;

end

end

end

if I==0, p1=0; else p1=s1/I; end

if J==0, p2=0; else p2=s2/J; end

f(k)=I*J*(p1-p2)*(p1-p2)/(256*256);

end

附录 五 选择函数Select源代码:(由谢菲尔德大学Hartmut Pohlheim编写)

% SELECT.M (universal SELECTion)

%

% This function performs universal selection. The function handles

% multiple populations and calls the low level selection function

% for the actual selection process.

%

% Syntax: SelCh = select(SEL_F, Chrom, FitnV, GGAP, SUBPOP)

%

% Input parameters:

% SEL_F - Name of the selection function

% Chrom - Matrix containing the individuals (parents) of the current

% population. Each row corresponds to one individual.

% FitnV - Column vector containing the fitness values of the

% individuals in the population.

% GGAP - (optional) Rate of individuals to be selected

% if omitted 1.0 is assumed

% SUBPOP - (optional) Number of subpopulations

% if omitted 1 subpopulation is assumed

%

% Output parameters:

% SelCh - Matrix containing the selected individuals.

% Author: Hartmut Pohlheim

% History: 10.03.94 file created

function SelCh = select(SEL_F, Chrom, FitnV, GGAP, SUBPOP);

% Check parameter consistency

if nargin < 3, error('Not enough input parameter'); end

% Identify the population size (Nind)

[NindCh,Nvar] = size(Chrom);

[NindF,VarF] = size(FitnV);

if NindCh ~= NindF, error('Chrom and FitnV disagree'); end

if VarF ~= 1, error('FitnV must be a column vector'); end

if nargin < 5, SUBPOP = 1; end

if nargin > 4,

if isempty(SUBPOP), SUBPOP = 1;

elseif isnan(SUBPOP), SUBPOP = 1;

elseif length(SUBPOP) ~= 1, error('SUBPOP must be a scalar'); end

end

if (NindCh/SUBPOP) ~= fix(NindCh/SUBPOP), error('Chrom and SUBPOP disagree'); end

Nind = NindCh/SUBPOP; % Compute number of individuals per subpopulation

if nargin < 4, GGAP = 1; end

if nargin > 3,

if isempty(GGAP), GGAP = 1;

elseif isnan(GGAP), GGAP = 1;

elseif length(GGAP) ~= 1, error('GGAP must be a scalar');

elseif (GGAP < 0), error('GGAP must be a scalar bigger than 0'); end

end

% Compute number of new individuals (to select)

NSel=max(floor(Nind*GGAP+.5),2);

% Select individuals from population

SelCh = [];

for irun = 1:SUBPOP,

FitnVSub = FitnV((irun-1)*Nind+1:irun*Nind);

ChrIx=feval(SEL_F, FitnVSub, NSel)+(irun-1)*Nind;

SelCh=[SelCh; Chrom(ChrIx,:)];

end

% End of function

附录 六 交叉函数recombin的源代码:(由谢菲尔德大学Hartmut Pohlheim编写)

% RECOMBIN.M (RECOMBINation high-level function)

%

% This function performs recombination between pairs of individuals

% and returns the new individuals after mating. The function handles

% multiple populations and calls the low-level recombination function

% for the actual recombination process.

%

% Syntax: NewChrom = recombin(REC_F, OldChrom, RecOpt, SUBPOP)

%

% Input parameters:

% REC_F - String containing the name of the recombination or

% crossover function

% Chrom - Matrix containing the chromosomes of the old

% population. Each line corresponds to one individual

% RecOpt - (optional) Scalar containing the probability of

% recombination/crossover occurring between pairs

% of individuals.

% if omitted or NaN, 1 is assumed

% SUBPOP - (optional) Number of subpopulations

% if omitted or NaN, 1 subpopulation is assumed

%

% Output parameter:

% NewChrom - Matrix containing the chromosomes of the population

% after recombination in the same format as OldChrom.

% Author: Hartmut Pohlheim

% History: 18.03.94 file created

function NewChrom = recombin(REC_F, Chrom, RecOpt, SUBPOP);

% Check parameter consistency

if nargin < 2, error('Not enough input parameter'); end

% Identify the population size (Nind)

[Nind,Nvar] = size(Chrom);

if nargin < 4, SUBPOP = 1; end

if nargin > 3,

if isempty(SUBPOP), SUBPOP = 1;

elseif isnan(SUBPOP), SUBPOP = 1;

elseif length(SUBPOP) ~= 1, error('SUBPOP must be a scalar'); end

end

if (Nind/SUBPOP) ~= fix(Nind/SUBPOP), error('Chrom and SUBPOP disagree'); end

Nind = Nind/SUBPOP; % Compute number of individuals per subpopulation

if nargin < 3, RecOpt = 0.7; end

if nargin > 2,

if isempty(RecOpt), RecOpt = 0.7;

elseif isnan(RecOpt), RecOpt = 0.7;

elseif length(RecOpt) ~= 1, error('RecOpt must be a scalar');

elseif (RecOpt < 0 | RecOpt > 1), error('RecOpt must be a scalar in [0, 1]'); end

end

% Select individuals of one subpopulation and call low level function

NewChrom = [];

for irun = 1:SUBPOP,

ChromSub = Chrom((irun-1)*Nind+1:irun*Nind,:);

NewChromSub = feval(REC_F, ChromSub, RecOpt);

NewChrom=[NewChrom; NewChromSub];

end

% End of function

附录 七 变异函数mut源代码 :(由谢菲尔德大学Andrew Chipperfield编写)

% MUT.m

%

% This function takes the representation of the current population,

% mutates each element with given probability and returns the resulting

% population.

%

% Syntax: NewChrom = mut(OldChrom,Pm,BaseV)

%

% Input parameters:

%

% OldChrom - A matrix containing the chromosomes of the

% current population. Each row corresponds to

% an individuals string representation.

%

% Pm - Mutation probability (scalar). Default value

% of Pm = 0.7/Lind, where Lind is the chromosome

% length is assumed if omitted.

%

% BaseV - Optional row vector of the same length as the

% chromosome structure defining the base of the

% individual elements of the chromosome. Binary

% representation is assumed if omitted.

%

% Output parameter:

%

% NewChrom - A Matrix containing a mutated version of

% OldChrom.

%

% Author: Andrew Chipperfield

% Date: 25-Jan-94

function NewChrom = mut(OldChrom,Pm,BaseV)

% get population size (Nind) and chromosome length (Lind)

[Nind, Lind] = size(OldChrom) ;

% check input parameters

if nargin < 2, Pm = 0.7/Lind ; end

if isnan(Pm), Pm = 0.7/Lind; end

if (nargin < 3), BaseV = crtbase(Lind); end

if (isnan(BaseV)), BaseV = crtbase(Lind); end

if (isempty(BaseV)), BaseV = crtbase(Lind); end

if (nargin == 3) & (Lind ~= length(BaseV))

error('OldChrom and BaseV are incompatible'), end

% create mutation mask matrix

BaseM = BaseV(ones(Nind,1),:) ;

% perform mutation on chromosome structure

NewChrom = rem(OldChrom+(rand(Nind,Lind)<Pm).*ceil(rand(Nind,Lind).*(BaseM-1)),BaseM);

附录 八

基于遗传算法的最大类间方差法对JPG格式图像分割的程序源代码:

clear, close all

B=imread('she.jpg'); %读入原始jpg格式图像

figure(1);

imshow(B),title('原始jpg格式图像');

I1=rgb2gray(B); %将原图像转化为灰度图象

figure(2);

imshow(I1),title('灰度格式图像');

BW1 = edge(I1,'sobel');

BW2 = edge(I1,'canny');

figure(6),imshow(BW1),title('边缘检测1'); %边缘检测

figure(5), imshow(BW2),title('边缘检测2');

[I1,map1]=gray2ind(I1,255); %将灰度图像转化为索引图像

I1=double(I1); %将unit8数组转化为double型数组

Z=I1 %将double型数组I1转存到Z中

figure(3) %画出未进行分割的原始图像

image(Z),title('未进行分割的原始图像');colormap(map1);

NIND=40; %个体数目(Number of individuals)

MAXGEN=50; %最大遗传代数(Maximum number of generations)

PRECI=8; %变量的二进制位数(Precision of variables)

GGAP=0.9; %代沟(Generation gap)

FieldD=[8;1;256;1;0;1;1]; %建立区域描述器(Build field descriptor)

Chrom=crtbp(NIND,PRECI); %创建初始种群

gen=0;

phen=bs2rv(Chrom,FieldD); %初始种群十进制转换

ObjV=target(Z,phen); %计算种群适应度值

while gen<MAXGEN %代沟(Generation gap)

FitnV=ranking(-ObjV); %分配适应度值(Assign fitness values)

SelCh=select('sus',Chrom,FitnV,GGAP); %选择

SelCh=recombin('xovsp',SelCh,0.7); %重组

SelCh=mut(SelCh); %变异

phenSel=bs2rv(SelCh,FieldD); %子代十进制转换

ObjVSel=target(Z,phenSel);

[Chrom ObjV]=reins(Chrom,SelCh,1,1,ObjV,ObjVSel); %重插入

gen=gen+1;

end

[Y, I]=max(ObjV);

M=bs2rv(Chrom(I,:),FieldD); %估计域值

[m, n]=size(Z);

for i=1:m

for j=1:n

if Z(i,j)>M %灰度值大于域值时是白色

Z(i,j)=256;

end

end

end

figure(4) %画出分割后目标图像

image(Z),title('分割后图像');colormap(map1);

target求适应度函数代码:

function f=target(T,M) %适应度函数,T为待处理图像,M为域值序列

[U, V]=size(T);

W=length(M);

f=zeros(W,1);

for k=1:W

I=0;s1=0;J=0;s2=0; %统计目标图像和背景图像的像素数及像素之和

for i=1:U

for j=1:V

if T(i,j)<=M(k)

s1=s1+T(i,j);I=I+1;

end

if T(i,j)>M(k)

s2=s2+T(i,j);J=J+1;

end

end

end

if I==0, p1=0; else p1=s1/I; end

if J==0, p2=0; else p2=s2/J; end