基于颜色特征的图像检索方法最终版

基于颜色特征的图像检索方法最终版基于颜色特征的图像检索方法吉林大学学士论文基于颜色特征的图像检索方法摘要近年来，随着互联网的高速发展，网上的多媒体信息也急剧增加，这些多媒体信息以图像为主。如何从浩瀚的图像数据库中快速、准确地找出所需要的图像，己成为一个备受关注的研究课题。有效地组织、管理和检索大规模的图像数据成为迫切需要解决的问题。于是基于内容的图像检索(Content-Based Image Retrieval: CBIR)作为一个崭新的研究领域出现了。 ...

基于颜色特征的图像检索方法吉林大学学士论文基于颜色特征的图像检索方法摘要近年来，随着互联网的高速发展，网上的多媒体信息也急剧增加，这些多媒体信息以图像为主。如何从浩瀚的图像数据库中快速、准确地找出所需要的图像，己成为一个备受关注的研究课题。有效地组织、管理和检索大规模的图像数据成为迫切需要解决的问题。于是基于内容的图像检索(Content-Based Image Retrieval: CBIR)作为一个崭新的研究领域出现了。基于内容的图像检索(CBIR, Content-Based Image Retrieval)是一种利用图像的视觉特征(颜色、纹理、形状等)进行图像检索的技术。其主要研究内容可以概括为四个方面:图像特征提取与表示、相似匹配、高维索引结构以及系统设计.CBIR的研究与发展将对诸如数字图书馆、多媒体信息系统、医学图像等应用领域提供有力的技术支持，它是当前图像数据库和多媒体信息检索领域的研究热点.目前，CBIR的技术水平很难满足实际应用的要求，它是一个具有挑战性的研究课题，仍然期待技术上的突破。在基于内容的图像检索中，颜色作为图像的一种重要视觉信息，己得到广泛应用。本文对利用颜色特征进行图像检索的三个关键问题:颜色的表示、颜色特征的提取和基于颜色的相似性度量进行了讨论。针对基于颜色的静态图像检索，本文利用JAVA语言实现了在Windows XP环境下基于图像颜色特征的图像检索演示系统。采用应用广泛的RGB颜色空间来表示图像的颜色特征，对颜色分量进行等间隔量化并形成特征矢量并对特征矢量进行归一化处理，采用图像均匀分块的方法引入图像中色彩所处的位置信息，用距离度量函数进行图像的相似性匹配。本文的研究和实践对于促进基于内容的图像数据库检索技术的应用具有一定的参考价值和实践意义。关键词：基于内容的图像检索，颜色，CBIR Abstract With the rapid development of Internet, the multimedia information is booming. All this information is mostly images. Effective recognizing, management and searching all these images has been an emergent problem. This has led the rise of a new research and development field: Content-Based Image Retrieval (CBIR). CBIR is a technique for retrieving image on the basis of automatically derived vision feature. There are four fundamental bases for CBIR, i.e. visual feature extraction and representation, similarity matching, multi-dimensioned indexing, and retrieval system design. Nowadays, CBIR is the main support technique for a lot of application domains, such as digital libraries, multimedia information systems, medical databases; etc .It is currently a very active topic in image databases and multimedia information retrieval. Color, as important visual information, has played a very important role in content-based image retrieval. This paper have discussed three key questions on how to make use of the characteristic of color, which included expressing color, obtaining the characteristic of color and measuring the likeness based on color. It quantifies color sector with equal interval, and get characteristic vector. Finally, it matched the similarity of image with the distance function. The paper holds certain referential value and practical significance in promoting the development of retrieval technique of image database. Keywords: Content Based Image Retrieval, Color, CBIR 目录 I 摘要 II Abstract 1 第一章绪论 1 1.1 基于内容的图像检索的研究背景 3 1.2 基于内容图像检索的主要应用 4 1.3 国内外典型系统介绍 6 1.4 本文的研究内容及结构安排 7 第二章基于内容的图像检索技术 7 2.1 图像检索的分类 8 2.2 基于内容的图像检索的特点 8 2.3 基于内容的图像检索系统的一般结构 9 2.4 基于内容的图像检索的关键技术 17 第三章基于颜色特征的图像检索方法 18 3.1 颜色模型 20 3.2 颜色特征表示 23 3.3 颜色直方图匹配技术分析 25 第四章基于颜色特征的图像检索系统的设计 25 4.1 图像检索系统设计的重点问题 25 4.2 颜色空间模型的选取 26 4.3 颜色量化 26 4.4 归一化直方图 27 4.5 图像分割 29 4.6 距离度量函数的选择 30 第五章基于颜色特征的图像检索系统的实现 30 5.1 系统介绍 30 5.2 系统框架 31 5.3 系统详细设计 35 5.4 实验结果分析 37 第六章全文总结与展望 37 6.1 全文总结 38 6.2 展望 39 参考文献 42 致谢第一章绪论 1.1 基于内容的图像检索的研究背景随着计算机软硬件和国际互联网技术的飞速发展，多媒体数据的数量也以惊人的速度增长。各行各业有越来越多的信息通过图像的形式进行表达，这些图像中包含了大量有用的信息。但是这些图像松散的分布在世界各地，缺少有效的组织，难以达到资源共享的目的。因此如何利用如此众多的图像信息并从中定位感兴趣的材料，是对图像信息的查询技术提出的重大挑战。在信息的组织、管理和检索方面，传统上应用最广泛的是数据库技术，它采用基于关键词的检索方式，这对于处理结构化比较强的文本、数值信息效果比较好，然而，它对于图像和视频这些视觉信息的检索却具有相当大的局限性，这是由视觉信息自身的特点决定的，它们与传统的文本、数值信息相比具有如下的特点：[1] 1)非结构化特性。在传统的文本、数值数据库中，记录信息具有明显的结构特性，它是现实世界中对象间关系的反映，可通过实体——关系模型抽象得到。与此相比，图像和视频对象具有较强的非结构化特性，许多多媒体信息以流的形式存在(例如视频流)，这种媒体想要得到它的信息，必须对它先进行结构化处理，而这种结构化不能通过简单的抽象来完成，而需要相应的媒体分割和组织技术。 2) 内容多义性。在传统的文本、数值数据库中，每一个记录所包含的语义确定而且有限。而对于像图像或视频这样的多媒体对象来说，具内容往往对不同的用户、不同的应用具有不同的解释，即具有多义性的特点，这样其内容就很难通过有限的属性来充分描述。此外，对多媒体对象的检索一般都是内容相似程度的检索——即查找内容描述与检索要求最接近的对象。这就要求建立的内容描述支持内容相似性程度的比较，这是在传统的文本、数值数据库中广泛采用的定性描述所不能满足的。在1970年以后，随着数据库管理和计算机视觉两个领域的飞速发展，图像检索技术(Image Retrieval)的研究成为热点。由于图像检索在这两个领域的不同应用，所以它们采用的研究方法也各自有所侧重。数据库管理领域的研究采用基于文本(text-based)的图像检索方法，而计算机视觉领域则偏重于基于视觉(visual-based)的图像检索。基于文本的图像检索，主要在数据库领域中进行研究，它的一个典型框架是，首先对图像用文本进行注解(关键字)，然后用基于文本的数据库管理系统(DBMS)来进行图像关键字检索，诸如数据模型、多维度索引、查询评价等的研究进展均是沿着这一领域所作的。但是，基于文本的图像检索存在很大困难，尤其是图像的数据量非常大的时候，其一，手工对图像进行注释所需的工作量太大;其二，许多图像很难用文字的方式进行描述;其三，不同的人对同一幅图像的理解不一样，即使同一个人对同一幅图像在不同环境下理解也不完全相同，这样使得对图像的描述不唯一，造成检索结果的千差万别;其四，由于世界上存在许多语种，采用不同的语言文字对图像进行描述而建立的索引在应用中造成了一定的障碍。因此基于文本方式的图像检索存在很大的局限性。基于内容的视觉信息检索旨在对视觉信息提供强有力的描述，实现视觉信息的结构化，最终达到用户对这些视觉信息内容自由访问的目标。它是一门涉及面很广的交叉学科，包括:信号处理，图像处理，机器视觉，数据库，信息检索，模式识别等相关技术。近十年来，基于内容的图像检索和视频检索是当前最活跃的研究热点之一。每年都有相关的国际会议召开，如SPIE的Storage and Retrieval for Image and Video Databases, ACM Multimedia等，而且许多国际上的知名杂志都发表了相关内容的专刊，如:IEEE Computer, IEEE Trans. onPAM1, Pattern Recognition, Image and Vision Computing。目前，国内外很多研究机构都在进行相关的研究工作，并取得了很多令人瞩目的成就。如;IBM的QBIC, UIUC的MARSI, CMU的Info media, MIT的Photo book等，国内的主要研究单位有:中科院联合实验室、中科院自动化所国家模式识别实验室、清华大学、上海交通大学等。 1.2 基于内容图像检索的主要应用[2] CBIR己经成功地应用于一些专门领域.典型应用领域包括: 1.搜索引擎:随着各种电子商务网站的发展，图像搜索引擎将成为这些网站的重要工具。 2.家庭用图像检索: 数码科技使得普通家庭也会产生成千上万的图像，家庭图像检索系统将是家庭PC的一个基本工具。 3.数字图书馆:数字图书馆实际上是一个数字信息资源库，其中有字符数值库、文本库、声音库、图像库等。因此，如何快速、高效地从数字图书馆中找出用户所需的信息就成为现代图书馆研究的热点和关键技术之一。 4.商标检索系统: 可在收录了己注册商标的数据库中查找是否有与注册商标类似的，防止商标权受侵害。 5.法律及公安:它是图像数据库技术的一个重要应用领域。典型的例子有:面部数据库、指纹数据库、犯罪纪录数据库以及建筑物保安数据库等。我国在“人脸”及“指纹”数据库建立方面已做了不少工作，并有一批实用性的成果投入应用。 6.邮票资料库:主要用于邮票资料的管理与查询，也可以提供邮票鉴定等更高级的应用服务。 7.教育与培训:在教育与培训领域，例如远程教学、交互式培训、自学教育及雇员再教育等有着广阔的应用前景。国外在培训系统领域已投入了大量的经费，开展了相关课题的研究工作。我国多媒体教学研究工作也已经开展，网上教学与辅导已进入实用阶段，这些都为图像数据库应用于教育培训领域提供了广阔的前景. 8.工业与商业:工业应用包括企业多媒体信息系统、CAD/CAM等:商业应用有电子商务、在线广告、在线购物、股票等。 9.保健及医疗:图像数据库在该领域中应用范围很广，除了专用的图像管理与检索系统外，还包括建立多媒体医疗信息管理系统，将庞杂的医疗数据管理起来.这些数据包括病历、病人的图像信息(如X光片、CT扫描及MRI照片等)以及描述手术过程的视频信息等。它为现有的医学系统带来了一场革命，其中最有前景的应用是远程医疗(Telemedicine)、远程外科手术(Tele-surgery)及远程诊断(Tele-diagnoses)等。 1.3 国内外典型系统介绍 1.3.1 国外研究成果虽然当前对CBIR的研究还很不成熟，但是作为商业软件包的图像检索系统已经问世。在网络上的演示版本也相应出现。基于内容检索的图像数据库的典型代表主要有以下几个: 1. QBIC 图像检索系统 QBIC[3]( Query By Image Content)图像检索系统是IBM公司90年代研制开发的图像和动态影像检索系统，英文原意是“依靠图像得内容进行查询”。它主要为IBM的DB2大型数据库提供图像检索功能，并支持基于Web的图像检索服务。它是标准的基于Content-based技术的图像检索系统，用户无需提供文字检索词，只要输入以图像形式表达的检索要求即可检索出一系列相似的图像。它提供多个图像数据库供检索试验，例如美国1995年以前发行的邮票图案，世界著名商标，旧金山美术博物馆图像数据库，法国文化部图像数据库，可视化图书馆等。 2. Image Rover系统(图像漂泊者系统) Image Rover是基于万维网的图像导航器，用户使用点击小图标的方法查询到自己所需图文信息。Image Rover内部成功运用了Content-based技术，特点是通过HTML(Hypertext Makeup Language)文件将可视化信息和文本信息统一起来。它由文件采集子系统和图像检索系统两部分组成. (1) Image Rover文件采集子系统文件采集子系统中，运用自动采集索引机器人(Robot)技术，定期采集Web文件，Web服务器也可主动向Image Rover提供图文信息。文件采集的基本原理与一般搜索引擎相似。当采集到网页后，系统将分析网页图文内容，分离图像和文本信息，对图像进行特征分析和抽取，将特征索引存储在工mage Rover的检索系统中。 (2) Image Rover图像检索子系统 Image Rover进行查询的步骤是:客户机终端输入查询图像，查询服务器分析特征和语义后送入索引生成服务器进行对照，索引生成服务器将最优结果指令传输给数据库服务器，客户即可得到数据库的答复。 3. VisualSeek和WebSeek VisualSeek系统是万维网图像/影像检索工具，研制者John R Smith毕业于哥伦比亚大学电子信息研究中心，一直致力于Content-based技术开发研究，创造出一系列成果，例如VisualSeek, WebSeek, SAFE和CBVQ等，VisualSeek提供一系列搜寻和检索万维网视图信息的工具。WebSeek实际上是这些工具中的一种。VisualSeek的技术内核与其他Content-based检索系统相似。比较其他多媒体信息检索系统，VisuaISeek的优点在于:高效率的WEB图像信息检索，采用了先进的特征抽取技术，用户界面强大，操作简单，查询途径丰富，结果输出画面生动，支持用户直接下载信息。在VisualSeek的众多工具中，WebSeek具有较强功能和特色，其本身就是一个独立的万维网可视化信息编目工具，已经对650000幅图像和10000个影像片断进行了编目。用户可使用目录浏览和特征检索方式进行图像检索。 1.3.2 国内研究成果国内的一些高校和研究机构也注意到这个研究方向的巨大潜力，已经开始了这方面的研究，开发了一些原型系统，而成熟的商品化应用系统还很少。浙江大学1995年开始进行多媒体图像检索的研究，分别完成了基于图像颜色和基于图像形状的原型系统[4]。在此基础上，又在Soralis系统上开发了新的多媒体检索系统。其总体设计思想是允许用户找到包含特定颜色、纹理和形状的图像，它支持基于关键字、全局颜色、全局纹理、对象形状、颜色布局、纹理布局等的查询。中国科学院声学研究所开发的图像检索系统ImageHunter[5]基于纹理和颜色特征对图像进行检索，并且对这两种图像特征的综合检索进行了实现。此外，系统还加入用户反馈，通过反馈信息对参数进行不断调整以得到更佳的效果。南京邮电学院也进行了这方面的研究，研制了基于纹理和颜色特征的实验系统[6] 1.4 本文的研究内容及结构安排本文对CBIR技术作了较全面的研究，重点研究了基于颜色特征的图像检索方法，并用java语言设计实现了一个基于颜色特征的图像检索系统。该系统包括图像处理，特征提取，相似性度量三大部分。具体讨论图下面章节所示：绪论。主要介绍选题的背景，意义以及基于内容的图像检索的应用和现有的研究成果。基于内容的图像检索技术。主要讨论了基于内容图像检索的分类，特点，一般过程以及关键技术。基于颜色特征的图像检索方法。主要介绍了基于颜色特征的图像检索的一些关键技术。基于颜色特征的图像检索系统的设计。主要介绍了作者设计的演示系统的总体设计。基于颜色特征的图像检索系统的实现。主要介绍了图像检索演示系统的总体结构，各模块的实现以及实验结果分析。全文总结与研究展望。第二章基于内容的图像检索技术近年来，基于内容的检索已经成为一个研究热点，并成为多媒体数据库、数字图书馆等重大研究项目中的关键技术。所谓基于内容的图像检索（CBIR，Content-Based Image Retrieval）,是指直接根据图像媒体对象内容进行的各种特征检索，它能从数据库中直接找到具有指定特征或含有特定内容的图像，它区别于传统的基于关键字的检索手段，融合了图像理解、模式识别等技术。 2.1 图像检索的分类[7] 图像检索可根据检索系统提供给用户的查询方式分为：相关查询用户没有特定目标，查询是通过浏览非限定图像源来寻找感兴趣的东西，进而查找类似图像。由于这类查询通常利用相关反馈技术来对查询和结果进行优化，因此具有高度交互化的特点。目标查询即特定图像的查询，检索的目标可以是用户印象中的某一图像，也可以使具有相同目标物的其它图像，还可以是根据用户迭代指定的一组图找出的最相似图像。范畴查询查询指定类型的任意代表图像，用户可能已有一幅或一组图像，而查询的目的就是得到别的同类图像。图像类别可根据图像标记得到也可直接来自数据库。该类查询通常是根据相关领域注定的相似性来定义迭代优化检索结果。图像检索还可根据所利用的图像特征将图像查询分为如下三个层次：第一层次对于图像简单特征，如颜色，纹理，形状或图像要素的空间位置的查询，由于这一层次检索使用的特征不带有主观性，可直接从图像中得到，因此不需要任何外部知识。第二层次对于图像个体特征（通常为局部特征），如检索某目标或者人物的查询，由于这些特征包括对于所要识别目标某种程度上的逻辑推理，因此需要外部知识的辅助，以说明如何定义类型和目标物。第三层次对于图像抽象属性的查询，包括：检索有关某个事件或者某类活动的图像等，如检索包含某种感情或信仰的图像等，由于抽象属性包含对于目标或者场景所代表含义，目的的描述及更高层的推理，因此通常需要通过复杂推理与主观判断来讲图像内容与抽象概念联系起来。按照检索时所基于的不同颜色特征，又可将基于内容的图像检索技术分为如下四种类型，它们分别是：（1）基于颜色特征的检索（2）基于纹理特征的检索（3）基于形状及区域的检索（4）基于空间约束关系的检索 2.2 基于内容的图像检索的特点基于内容的图像检索旨在对图像信息提供强有力的描述，实现视觉信息的结构化，最终达到用户对这些视觉信息内容自由访问的目标。它是一门涉及面很广的交叉学科，包括:信号处理，图像处理，机器视觉，数据库，信息检索，模式识别等相关技术。具有如下特点: （1）直接从图像媒体内容中提取信息线索。（2）基于内容的图像检索实质上是一种近似匹配的技术。（3）整个过程是是一个逐步逼近和相关反馈的过程 2.3 基于内容的图像检索系统的一般结构图像检索系统一般由两个子系统构成，库生成子系统和查询子系统，库生成子系统主要以离线的方式工作，而查询子系统提供在线的图像检索功能。库生成子系统完成的主要功能是图像预处理和特征提取。图像预处理包括对入库前的图像进行的一系列处理，如图像压缩格式转换、色彩空间转换、滤波、图像比例调整等。基于内容检索是建立在图像视觉特征提取的基础上的，特征提取是库生成子系统的核心模块，它主要完成图像视觉特征的提取，包括对图像的颜色、纹理、形状以及一些文本描述特征提取。图像查询子系统完成基于内容的检索功能。由查询接口、结果浏览器、检索引擎三个模块组成[8]。图像检索的一般过程为：首先通过图像库生成子系统生成图像特征库及图像库，此操作可以脱机执行；然后用户通过查询接口进行参数设置，包括显示的图像的数目，用户感兴趣的图像特征以及一些阙值；在用户提交了检索请求（如范例、草图）后，检索引擎主要是完成图像的相似性匹配工作，并按照相似度的大小对图像进行排序；最后结果浏览器主要用来显示查询的结果；一个典型的图像检索系统结为：图2.1 图像检索系统结构图 2.4 基于内容的图像检索的关键技术以图像的特征作为索引，对静态图像进行检索是目前使用最多的方法。对于静态图像，其用于检索的特征主要有颜色、纹理和草图(sketch)、形状等，其中颜色、形状和纹理特征的应用较为普遍。主要思想是根据图像的颜色、纹理、图像对象的形状以及它们之间的空间关系等内容特征作为图像的索引，计算查询图像与目标图像的相似距离，按相似度匹配进行检索。正如图2.1所示，要设计一个好的CBIR系统，所涉及的关键技术包括:图像检索的表达、图像特征的提取、图像特征的相似性度量以及图像检索的判别标准等。[9] 2.4.1 图像检索的表达图像特征包括视觉特征和统计特征两类。视觉特征范围内，通常将其进一步细分为两类:全局特征(General feature)和细节特征(domain-specific feature)。前者包括颜色、纹理和形状，具有直观意义;后者是基于应用的，包括诸如人脸、指纹等局部和细节特征;统计特征基本上无直观意义，它们是对图像象素与纹理特征的统计，如颜色直方图和频谱等。图像的视觉特征，除了包含颜色、形状之外，同时还包含纹理和子对象空间位置关系等。即使是同一种视觉特征，也有多种不同的表达方法，以便从不同的角度模拟人类感知的主观性。图像的这种多特征性和特征表达的多面性，给图像检索的表达带来了一定的困难。一种灵活有效的检索表达机制将是影响图像检索效率的重要因素之一。现有图像检索系统的检索表达机制十分简单，仅对多特征检索融合进行了一些探讨。如IBM的QBIC系统采用的单特征检索结果取交集的方法、Virage公司的Virage检索系统采用通过对不同单特征空间距离赋以权重，形成总特征空间复合距离的检索表达方法等。在实际的图像检索中，用户往往需要表达更加复杂的检索要求，现有图像检索表达机制的能力难以满足这种复杂检索要求的需要。随着图像检索的进一步深入，开发出一种灵活有效的检索表达机制来表达用户复杂的检索要求将显得十分必要[10，11]。这种表达机制要能够充分反映用户的检索要求，并将用户的检索要求转换为底层索引的查找操作。对图像检索表达机制的研究，将是图像检索中需要面临的一个重要的挑战。 2.4.2 图像特征提取图像特征提取的好坏，将直接影响着图像检索系统的性能，特征提取是基于内容的图像检索的基础。特征的提取可以分为手工提取、半自动提取和自动提取。这在很大程度上依赖于图像处理技术的发展。从图像中提取出来的图像特征，主要分为三个层次:低层次、中层次和高层次。低层次的图像特征是形状、纹理、颜色、轮廓等图像某一方面的特征。这些特征各自相对独立，与数学联系较为紧密。中层次的图像特征是指将图像的特定区域或者干脆是图像中包含的目标物体作为图像的索引，用于图像的检索。高层次的图像特征是在图像中层次特征基础上的再一次抽象，它赋予图像一定的语义信息，是图像所包含内容的一种抽象概括，也是基于内容的图像检索所要达到的最终目标。在这三个层次的图像特征中，低层次的特征提取是基础，并且由于其不需要人工的干预而被广泛的应用于大多数图像检索系统中。一个好的低层次图像特征的提取，要能够与感知相似、有效、经济。与感知相似是指与人对图像差异的感觉相似，即:从两幅图像L与L'提取出来的特征向量的距离 |F(L)-F(L')| 越小，在人看来，这两幅图像就越相似.有效是指对于图像特征的抽取F (L)计算比较简单迅速。经济是指从图像中提取出来的特征向量应该有足够小的维数，从而减少图像检索所耗费的时间。 1. 颜色特征颜色特征是在CBIR中应用最为广泛的视觉特征，因为颜色和图像中的物体或场景十分相关。而且，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小。具体内容将在第三章中详细说明。 2．纹理特征[12] 纹理是图像的重要信息和特征，是一种全局特征，它描述了图像或图像区域所对应的景物的表面性质，包括表面结构组织及其与周围环境关系的许多重要信息。并且，纹理特征是一种统计特征，有旋转不变性和较强的抗噪音能力。在检索具有粗细、疏密等方面有较大差别的纹理图像时，利用纹理特征进行检索是一种有效的方法。目前普遍使用的纹理特征是通过Gabor小波或离散小波变换(DWT)和树结构小波变换得到的。虽然基于特征的Gabor小波给出了较好的检索性能，但是还存在两个主要缺点： a．Gabor的基本函数不是直交的，这就必然增大了冗余和内存需求； b．用于特征提取的时间很长，限制了检索速度。现在对小波理论的发展为CBIR提供了更好的选择。因为小波是下一代静态图像编码标准——JPEG一2000的核心技术，并且选用小波特征实现了CBIR系统可以直接在压缩域中工作。在DWT中，我们得到水平、垂直、对角方向上的边缘信息。如图2.2所示。然而．对纹理特征的提取，DWT方向的选择性不好，只有三个方向的信息。同时，因为输入信号小的变化就能导致不同尺度DWT系数的很大区别，所以两个相同图案的小空间变化将产生显著不同的特征向量。DT—CWT给出了六个不同方向的纹理信息，可以克服DWT的这些问题。图2.2 由一层分解产生的频域分割有效的纹理描述对纹理图像检索是十分重要的。很明显，纹理特征能够有效地定义图案方向和空间／频率的特征，能得到良好的纹理分析和检索结果。Gabor小波考虑更多数量的方向可以实现很好的检索性能，但这种方法严重增加冗余，不适合联机操作。 3．形状特征[13] 形状特征是图像目标的一个显著特征，很多查询可能并不针对图像的颜色，因为同一物体可能有不同的颜色，但其形状总是相似的。如检索某辆汽车的图像，汽车可以使红的，绿的等，但形状不会如飞机的外形。另外对于图形来说，形状是它唯一重要的特征，同时形状特征这一概念，本身带有很大程度的主观性，不同的人会给予不同的描述，入图2.3所示的双面图，有些人把它描述成一个茶杯，有些人会把它描述成两张面对面的人脸。图2.3 双面图一般来说现实世界中的一个实物在二维平面中的投影通常看作是一个连续的区域。形状通常被认为是一条封闭的轮廓曲线所包围的区域，所以形状的描述就涉及到对一条封闭边界的描述以及对这个封闭边界所包围区域的描述。形状特征表示的一个重要准则就是要求对位移，旋转，缩放的不变性，通常形状的表示可以分为基于边界和基于区域两类。对于基于边界的形状表示，又可分为三种情况：形状的边界可以看作是一条封闭的曲线，形状的边界可以看作是一条开曲线，形状包含空洞的情况。基于形状的检索更多的用于当用户粗略的画出一个轮廓进行检索的情况。这种轮廓可以是用户凭借脑子中的印象徒手画出来的，也可以是通过系统提供的基本画图工具拼凑出来的。这两种情况都有一个特点，即提供的形状只是预检索形状的粗略描述，它从大小，方向或整体结构上都有可能与真正要查询的图形有较大出入。因此，基于形状检索的难点在于寻找能够检索与大小，方向及扭曲伸缩无关的方法。为此，可以同时采用三个特征作为形状特征，即长/短轴比，周长/面积比，最近与最远点的连线间的夹角。这三个特征对形状的大小变化与旋转都不变，其中长短轴分别定义为形状质心到形状边缘最远点或最近点的连线。上述的各种形状特征表示方法都基于能够在图像中准确提取形状区域的前提，但由于模式识别中自动提取形状区域的各种方法还很不成熟，完全手工的方法速度较慢且不精确，因此研究和采用一个高效的形状区域提取方法是非常有必要的。 4．高层语义特征[14] 现行的商用系统通常采用关系型数据库，这些系统中图像的属性包括图像来源，拍摄时间和地点、媒介类型，分辨率、输入设备、压缩方式以及与图片相关的注释信息，注释信息对于用户来说是非常自然的描述，这些特征都属于图像的语义特征。目前图像检索的主要障碍是难以描述图像的语义信息，在此背景提出了一种根据相关图像的语义和图像之间的语义关系．反映目的图像语义的方法。图像之间的语义关系通过语义链表示，多种类型的语义链构成基于语义链的图像网络。基于语义链的推理规则主要用干辅助智能图像检索。现阶段，基于语义的Web图像检索方法已经在信息网格和知识网格平台得到实现，正交的语义空间进一步提高图像检索的效果和智能性。 2.4.3 图像特征的相似性度量在基于内容的图像检索中，特征的相似性度量[15，16，17]也是需要解决的问题之一。判断两幅图像是否相似，是指它们的特征是否相似，特征相似关系的理论研究通常使用的是几何模型，将图像的特征看作是坐标空间中的点，两个点的接近程度通常用他们之间的距离表示，也即它们之间的不相似程度。合适的距离度量函数的选择，将使得图像特征向量的比较更加符合人类对视觉感知内容的仿真，有助于基于内容的图像检索的性能提升。一个好的距离度量函数应该满足以下几个特点: (1)与图像的视觉感知相似度成正比，也即距离度量函数Dist(I，J)越小，表示图像I，J从人类的视觉感知上来看越接近。反之，越不相似。 (2)计算尽量简单。对于图像的特征向量的距离度量函数Dist(I ,J) 应该尽量计算简单，从而有效的节省计算时间。目前，使用的距离度量主要有街区距离(即L1距离)、一般欧几里德距离(即L2距离)和加权欧几里德距离。其他的还有用于随机分布特征距离度量的Mahalanobis距离和Kullback最小交叉嫡定理等。在今后很长的一段时间，对图像特征相似性度量的研究将是一个富有挑战性的课题。 2.4.4 图像检索的判别标准对算法进行评估，比较其优劣。检索算法评价方法能够在相同的条件下找出最佳算法。在目前己有的一些评价准则中，主要有以下两种: 1.以查全率(recall)和查准率(precision)为基准的方法主要使用的是查全率和查准率两个指标。查全率的主要含义是在一次查询过程中，用户所查到的相关图像的数目和数据库中与目标图像相关的所有图像数目之比，即:查全率=检索到的相关图像数目/所有相关图像数目; 查准率主要指在一次查询过程中所查到的相关图像数目同该次查到的所有图像数据之比，即:查准率=检索到的相关图像数目/检索出的全部图像数目。查全率是检索系统查找用户所需信息能力的标志。查准率从一个方面描述了检索系统的查询开销。如果某次查询的查准率是85%，则15%的图像是不相关图像。对于一个具体的检索系统，其查准率随查全率增加而减少。用户在评价算法的时候，可以预先选定含有特有目标的图像作为一组相关的图像，然后根据返回的结果计算查全率和查准率，查全率和查准率越高，说明该算法的效果越好。 2.排序评价方法如果图像匹配采用相似性比较，那么，根据不同的相似性尺度，返回的图像数目可能不同，此时采用该方法.方法是: (1)选定一定数目的含有特定目标的相关图像，如水池、草坪、人与人会谈等。 (2)固定返回图像的数目，把返回的图像按相似性大小排序。 (3)计算有关返回图像的排序评价指标。比如计算检索到的相关图像在所有返回图像中的序号平均值。在理想情况下，所有相关图像都排在最前面，因此，平均值越小，表明成功率越高。第三章基于颜色特征的图像检索方法在图像的形状，颜色，纹理等特征中，颜色特征是最可靠，最显著，最稳定的视觉特征，也是人识别图像的主要感知特征，相对于几何特征而言，颜色对图像中子对象的大小和方向的变化都不敏感，具有相当强的鲁棒性（如图3.1所示）。同时，在许多情况下，颜色又是描述一幅图像最简便而有效的特征，人们对于一幅图像的印象，往往从图像中颜色的空间分布开始。所有这些都促使颜色成为基于内容的图像检索所采取的主要手段之一。 (a)原图及颜色直方图 (b)原图旋转90度及其颜色直方图 (c) 原图扩大一倍及其颜色直方图图3.1 图像颜色特征的相对稳定性对于基于颜色特征的图像检索，科学工作者们提出了许多方法，如颜色直方图，主色调，颜色矩，颜色集，矩类，扫描线投影等检索算法。本文选用图像颜色特征作为研究的对象。本章前面所介绍的基于内容的检索系统的特点，过程，关键技术在基于颜色特征的检索中同样是适用的。本章将对基于颜色特征的图像检索的主要方法及涉及到的内容进行介绍。 3.1 颜色模型颜色模型是指某个三维颜色空间中的一个可见光子集，它包含某个颜色域的所有颜色，颜色模型的用途是在某个颜色域内方便的指定颜色，由于每个颜色域都是可见光的子集，所以任何一个颜色模型都无法包含所有的可见光[18]。常见的模型包括HSB（色相，饱和度，亮度），RGB（红，绿，蓝），CMYK（青，洋红，黄，黑）以及CIE组织的L*a*b。 1．HSB模型 HSB模型，即色相（Hue）,饱和度（Saturation）,亮度（Brightness）模式，基于人类对颜色的感觉，这种颜色模型用Munsell三维空间坐标系统表示（如图3.2所示）。（1）色相H是从物体射出或透过物体传播的颜色，它对应于颜色轮上的角度，在360度的标准色轮上，用-180度—180度或0度—360度来度量。在通常的使用中，色相是由颜色名称标志的，比如红，橙或绿色。（2）饱和度S。有时也称彩度，是指颜色的强度或纯度。饱和度表示色相中灰成分所占的比例，用从0%（灰色）—100%（完全饱和）的百分比来度量，在标准色轮上，从中心向边缘饱和度是递增的。（3）亮度B是颜色的相对明暗程度，通常用从0％(黑)到100％(白)的百分比来度量。图3.2 HSB颜色模型 Munsell颜色空间具有以下已被人眼所证实的特点： (1)视觉模拟性： (2)坐标之间的心理感知独立性，即可以独立感知各颜色分量的变化。 (3)线性伸缩性。可感知的颜色差是与颜色分量的相应样值上的欧几里德测度之间的距离成比例的。 HSB颜色空间能较好地反映人对颜色的感知和鉴别能力，因此非常适合基于颜色的图像相似性比较，在图像的检索中得到了广泛的使用。 2．RGB模型 RGB颜色模型又称RGB色空间，它是一种色光表色模式，通常用于彩色阴极射线管等彩色光栅图形显示设备中，它是使用最多、最熟悉的颜色模型。计算机定义颜色时R、G、B三种成分的取值范围是0-255，0表示没有刺激量，255表示刺激量达最大值。R、G、B均为255时就合成了白光，R、G、B均为0时就形成了黑色。采用三维直角坐标系，红、绿、蓝为原色，各个原色混合在一起可以产生复合色，如图3.3所示。绝大部分的可见光谱可以用红、绿和蓝(R、G、B)三色光按不同比例和强度的混合来表示。在颜色重叠的位置，产生青色、洋红和黄色。因为RGB颜色合成产生白色，它们也称为加色。将所有颜色加在一起产生白色，也就是说，所有光被反射回眼睛。加色用于光照、视频和显示器。 RGB颜色模型通常采用图3.4 所示的单位立方体来表示，在正方体的主对角线上．各原色的强度相等，产生由暗到明的白色，也就是不同的灰度值。(0，0，0)为黑色，(1，l，1)为白色。正方体的其它六个角点分别为红、黄、绿、青、蓝和品红，需要注意的一点是，RGB颜色模型所覆盖的颜色域取决于显示设备荧光点的颜色特性，是与硬件相关的。在显示屏上显示颜色定义时，往往采用这种模式。图像如用于电视、幻灯片、网络、多媒体，一般使用RGB模式。图3.3 RGB三原色混合效果图3.4 RGB立方体 3.2 颜色特征表示颜色特征最直观，最明显，是图像视觉最重要的感知特征之一。颜色往往和图像中所包含的物体或场景十分相关。与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的鲁棒性，并且计算简单，所以目前应用最广泛。用户可以输入想要查询的颜色特征和颜色特征库中的信息进行匹配。基于颜色的特征提取方法能较好的表示图像的颜色信息。目前颜色特征的提取方法主要有:颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等颜色特征的表示方法。 1．颜色直方图颜色直方图是采用最广泛的颜色特征表示方法。Swain和Ballard于1990年提出了颜色直方图，先将颜色空间划分为若干个固定的子空间，然后对每幅图像统计属于各子空间的像素数目。它所描述的是不同色彩在整幅图像中所占的比例。这种方法具有计算简单、对平移和旋转不敏感等优点，但因为不包含色彩的空间位置信息，无法描述图像中的对象或物体。颜色直方图是一种概率统计的方法，它将图像中各颜色象素的个数进行统计，并用直方图的形式表达出来.具体如下定义，其中表示图像中所有颜色为ci的象素的个数。由于颜色直方图具有旋转、尺度与平移不变性等特点，且计算较为简单，因而在图像检索中应用较为广泛。然而，颜色直方图本身却存在诸多缺陷[19]，即它作为一种图像全局表示方法，不包含任何有关颜色的空间分布信息，而且不同图像的颜色直方图可能相同或相似。为解决这一问题，人们提出了分块直方图、累加直方图、联合直方图、加权直方图等许多改进的直方图[20，21]。 2．颜色矩另一种非常简单有效的颜色特征表示方法是由Stricker和Orengo提出的颜色矩(colormoments)[22]。其数学基础是图像中任何的颜色分布均可以用它的矩来表示。此外，由于颜色分布信息主要集中在低阶矩中，因此仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布。与颜色直方图相比，该方法的另一个好处在于无需对特征进行向量化。在实际应用中，颜色矩一般在使用其它特征进行检索前起到过滤缩小范围的作用。 3. 颜色集为支持大规模图像库中的快速查找，Smith和Chang提出用颜色集(color sets)[23]作为颜色直方图的一种近似。首先将RGB颜色空间转化成视觉均衡的颜色空间(如HSV空间)，井将颜色空间量化成若干个bin。然后，用色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达为一个二进制的颜色索引集。在图像匹配中，比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等，每种对应于不同的评分)。因为颜色集表达为二进制的特征向量，可以构造二分查找树来加快检索速度，这对于大规模的图像集合十分有利。 4．颜色聚合向量针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点，Pass[24]提出了图像的颜色聚合向量(color coherence vector)。它是颜色直方图的一种演变，其核心思想是将属于直方图每一个bin的像素进行分为两部分:如果该bin内的某些像素所占据的连续区域的面积大于给定的阙值，则该区域内的像素作为聚合像素，否则作为非聚合像素。假设αi与βi分别代表直方图的第i个bin中聚合像素和非聚合像素的数量，图像的颜色聚合向量可以表达为： < (α1, β1), (α2, β2),…, (αn, βn)> 而< α1+β1, α2+β2,…, αn+βn>就是该图像的颜色直方图。由于包含了颜色分布的空间信息，颜色聚合向量相比颜色直方图可以达到更好的检索效果。 5．颜色相关图颜色相关图(color correlogram) 是图像颜色分布的另一种表达方式[25]。这种特征不但刻画了某一种颜色的像素数量占整个图像的比例，还反映了不同颜色对之间的空间相关性。有研究证明，颜色相关图比颜色直方图和颜色聚合向量具有更高的检索效率，特别是检索空间关系一致的图像。 3.3 颜色直方图匹配技术分析[26] 图像的颜色特征提取之后，很直观的方法是直接使用颜色特征向量的距离来衡量两幅图像的相似性．也就是颜色直方图间距离的度量问题。目前在CBIR系统中较为常用的距离公式有多种。设检索时我们指定的关键字图像称为示例图像Q，图像库中的图像称为检索图像I．颜色的种类数为n．则颜色直方图的几种常用距离公式可描述如下： 1． Euclidean距离欧几里德距离是最简单的距离公式。也是在CBIR中应用较广的距离公式。然而欧几里德公式完全不考虑特征向量各维之间的关系．而且各维必须是同等重要的．这就大大影响其使用范围和有效性。如果不考虑各颜色间的相似性，也不需要考虑检索过程中不同颜色的重要程度，则可用此公式进行颜色直方图间距离的度量。 2．加权Euclidean距离加权欧几里德距离考虑了特征向量不同维之间的不同重要性。主要应用在需要考虑不同的颜色在检索过程中具有不同重要性的场合．例如．基于某些颜色的图像检索中，对于指定的颜色，其度量的权值较大．而其它颜色的权值较小，这样，只要待检索图像中的含有指定的那些颜色。并达到一定比例，即使其它颜色不怎么匹配．两图像的相似度也会较大。 3．二次型距离这是IBM公司的QBIC系统为计算颜色直方图各颜色间的相似性而提出的，其中Aij是颜色i和颜色j之间的相似因子，由系统在计算前预定义。该距离公式由于考虑了不同颜色之间的相似性，因而是比较准确的度量，但同时也带来了大的计算量。 4．直方图相交算法该算法于1990年由Swain和Ballad提出，由于它比二次型距离算法简便，又比Manhanttan距离、Euclidean距离的效率高得多，因此，这一算法目前仍被广泛采用。第四章基于颜色特征的图像检索系统的设计 4.1 图像检索系统设计的重点问题 1．数学模型的建立数学模型是CBIR系统的核心，它决定了CBIR所能支持的查询类型和检索性能。建立的数学模型要充分反映图像对象的内容，反映与领域无关的和能够有效存储的物理特征及逻辑特征。 2．特征提取方法的选择特征提取算法应简单易用，且具有自动提取的功能，所选择的特征应尽可能表达原始图像的信息。同时，可以借助一些先进的数学工具来提取图像特征，如基于泛函分析和小波分析的特征数据表示等。总之，特征提取是检索方法成功与否的关键步骤。 3．距离度量函数的选择在基于内容的图像检索中，图像特征是图像的近似表示，检索也是在图像集合中查找与给定检索图例“相似”的对象，而图像特征大都可以表示成向量形式，因此常用的图像相似度比较方法都是基于向量空间模型(Vector Space Model)，即将图像特征看作是向量空间中的点，通过计算两个点之间的距离来衡量图像特征间的相似度。因此选取合适的距离度量函数对整个系统的效率及检索的精确度均有较大影响。 4．综合查询技术由于图像内容特征可由颜色、纹理或形状等表示，因此可以综合这些特征作为图像的总体特征进行查询，同时，还可以利用一些客观属性(如时间等)作为辅助查询。 4.2 颜色空间模型的选取颜色直方图可以是基于不同的颜色空间和坐标系，本课题采用的是RGB空间模型，因为对本文所采用的相似性匹配算法是在三维向量空间计算两个向量间的欧式距离实现的，所以不同的空间模型对匹配的效果没有影响，仅仅是空间坐标的转换，而大部分数字图像都是用RGB颜色空间来表达的，这种空间表达方式最简单直观，所以我们采用RGB作为颜色空间模型。 4.3 颜色量化确定颜色空间后，还必须对颜色空间进行量化。如对24位的彩色图像提取颜色直方图特征，图像的R, G, B三个坐标上分别有256个点，因此存在256 * 256 * 256 =16777216种颜色，而每幅图要存储16777216种颜色的像素数，需要占用大量的存储空间，但是实际上，占用这么大的存储空间是没有必要的，因为人的眼睛根本没法区别颜色的细微差别，可以把差别很小的若干种颜色看作同一种颜色。我们可以将颜色空间划分成若干个小的颜色区间，每个小区间成为直方图的一个bin。这个过程就称为颜色量化(color quantization)[27]。然后，通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方法，例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量(维度)均匀地进行划分。颜色量化时选择合适的颜色小区间〔即直方图的bin)数目和量化方法与其体应用的性能和效率要求有关。一般来说，颜色小区间的数目越多，直方图对颜色的分辨能力就越强。然而，bin的数目很大的颜色直方图不但会增加计算负担，也不利于在大型图像库中建立索引。而且对于某些应用来说，使用非常精细的颜色空间划分方法不一定能够提高检索效果，特别是对于不能容忍对相关图像错漏的那些应用。本文采取的方法是将每个坐标均匀的划分为8个维度，每个维度里面包含了量化前的32个点，因此RGB颜色空间就被量化为8*8*8=512个颜色小区间(bin)，再通过计算图像中的实际颜色落在每个小区间内的像素数量就可以得到该图像的颜色直方图。 4.4 归一化直方图在图像检索中我们可能会遇到各种尺寸大小不同的图像，而图像间尺寸大小的差别常常会造成匹配的误差，例如两幅内容相同的图像，图一为400 * 300像素，图二为1024*768像素，在进行基本的直方图交算法时，两幅图像的交集(相似性)最多只能是400 *300个像素。但是很可能出现一幅完全不相关的图像三，使得图三与图二的直方图交远大于400 * 300像素。因此，还需要归一化图像的颜色直方图。比较早的归一化方法是将图像的大小缩放到统一尺寸，从而达到归一化的目的，并减少特征计算量和降低特征的存储空间需要。但是这种方法显然不够灵活，而且图像的缩放也容易造成图像的部分损失。因此，后人提出了归一化的直方图方法。用各个颜色子空间中像素个数占整个图像像素数的比例，来代替原来每个子空间(bin)像素实际数目。归一化直方图的定义为: 其中i表示用RGB表示的颜

                    本文档为【基于颜色特征的图像检索方法最终版】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于颜色特征的图像检索方法最终版

你可能还喜欢