【word】建模连续视觉特征的图像语义标注方法

【word】建模连续视觉特征的图像语义标注方法【word】建模连续视觉特征的图像语义标注方法建模连续视觉特征的图像语义标注方法第22卷第8期 2010年8月计算机辅助设计与图形学 JournalofComputer—AidedDesign&ComputerGraphics Vo1.22NO.8 Aug.2010 建模连续视觉特征的图像语义标注方法李志欣.,施智平‖,刘曦‖,史忠植‖ ―(中国科学院计算技术研究所智能信息处理重点实验室北京100190) (广西师范大学计算机科学与信息工程学院桂林541004) ―(中国科...

【word】建模连续视觉特征的图像语义标注方法建模连续视觉特征的图像语义标注方法第22卷第8期 2010年8月计算机辅助设计与图形学 JournalofComputer—AidedDesign&ComputerGraphics Vo1.22NO.8 Aug.2010 建模连续视觉特征的图像语义标注方法李志欣.,施智平‖,刘曦‖,史忠植‖ ―(中国科学院计算技术研究所智能信息处理重点实验室北京100190) (广西师范大学计算机科学与信息工程学院桂林541004) ―(中国科学院研究生院北京1OO049) (1izx@ics.ict.ac.on) 摘要:针对图像检索中存在的‖语义鸿沟‖问题,提出一种对连续视觉特征直接建模的图像自动标注方法.首先对概率潜语义分析(PISA)模型进行改进,使之能处理连续量,并推导对应的期望最大化算法来确定模型参数;然后根据不同模态数据各自的特点,提出一个对不同模态数据分别处理的图像语义标注模型,该模型使用连续PLSA建模视觉特征,使用标准PLSA建模文本关键词,并通过不对称的学习方法学习2种模态之间的关联,从而能较好地对未知图像进行标注.通过在一个包含5000幅图像的标准Corel数据集中进行实验,并与几种典型的图像标注方法进行比较的结果表明,文中方法具有更高的精度和更好的效果. 关键词:图像自动标注;概率潜语义分析;主题模型;连续视觉特征;图像检索中图法分类号:TP391 SemanticImageAnnotationbyModelingContinuousVisualFeatures LiZhixin’’,ShiZhiping‖,LiuXi,,andShiZhongzhi ―(KeyLaboratoryofIntelligentInformationProcessing,InstituteD厂 ComputingTechnology,ChineseAcademyofSciences,Beijing 100190) (CollegeComputerScienceandInformationTechnology,GuangxiNormalUniversity,Guilin541004) (GraduateUniversityofChineseAcademyofSciences,Beijing100049) Abstract:Inordertobridgethesemanticgapinimageretrieval,thispaperproposesanapproachto annotateimageautomaticallybymodelingcontinuousvisualfeaturesdirectly.Firstly,weextend probabilisticlatentsemanticanalysis(PISA)tomodelcontinuous.quantity.Inaddition, correspondingExpectation—Maximizationalgorithmisderivedtodetermi nethemodelparameters. Secondly,intermsofthecharacteristicsofdifferentmodalities,wepresentasemanticannotation modelwhichemployscontinuousPISAandstandardPLSAtomodelvisualfeaturesandtextualwords respectively.Themodellearnsthecorrelationbetweenthesetwomodalitiesbyanasymmetriclearning approachandthenitcanpredictsemanticannotationpreciselyforunseenimages.Finally,weconduct experimentsonastandardCoreldatasetconsistingof5000images.Incomparisontoseveralstate—of- the—artapproaches,ourapproachcanachievehigheraccuracy. Keywords:automaticimageannotation;probabilisticlatentsemanticanalysis;topicmodel; continuousvisualfeature;imageretrieval 收稿日期:2009—09—09;修回日期:2010—03—04.基金项目:国家‖九七三‖重点基础研究发展计划项目(2007CB311004)}国家科技支撑计划 (2006BAC08B06);国家自然科学基金重点项目(60933004);国家自然科学基金(60775035,60903141,60970088).李志欣(1971一),男,博士研究生,讲师,CCF会员,主要研究方向为图像理解,机器学习,基于内容的视觉信息检索;施智平(1974一),男,博士,助理研究员,主要研究方向为图像理解,机器学习,基于内容的视觉信息检索;刘曦(1985一),男,博士研究生,主要研究方向为图像理解,机器学习,物体识别;史忠植 (1941一),男,研究员,博士生导师,IEEE高级会员,CCF高级会员,主要研究方向为人工智能,机器学习,神经计算,认知科学. 第8期李志欣,等:建模连续视觉特征的图像语义标注方法随着数字成像,数据存储和互联网等技术的发展,对大规模图像库进行有效的组织,索引和检索成为该领域的重要课题.过去的十几年,研究人员做了大量关于基于内容图像检索(content—basedimage retrieval,CBIR)的研究,然而,由于在图像检索的研究中存在‖语义鸿沟‖l_1的问题,其性能仍然不够理想.CBIR依据图像的视觉特征检索图像,而用户却总是希望实现直观的基于文本的图像检索.由于图像的手工标注需要耗费大量的人力物力,难于推广应用到大的图像数据库,因此图像的自动标注成为一个引人注目的关键的课题.. 主题模型又称层面模型,最初主要应用于文本分类和信息检索等领域,近年来它在计算机视觉领域也得到了广泛的应用.具有代表性的主题模型有概率潜语义分析(probabilisticlatentsemanticanalysis, PISA)模型和潜在狄里克雷分布(1atentDirichlet allocation,LDA)模型j,它们不仅在场景分类,对象识别等领域取得了好的效果,也成功地应用于图像的自动标注和检索_8_.PLSA作为一个潜在主题模型也已经成功地应用于图像的自动标注和检索中,然而,由于标准的PISA只能够处理离散量,因此利用PISA进行图像标注的模型大都是离散模型口].也就是说,这类方法需要首先将图像的视觉特征进行量化,才能很好地学习视觉模态和文本模态之间的关联,所以这类方法的性能对聚类的粒度比较敏感.在图像的自动标注领域中,一般认为使用连续的视觉特征会得到较好的性能,因为连续的视觉特征没有在量化过程中丢失信息..为了更好地建模图像数据,需要PISA能够处理连续量. 本文对标准的PLSA进行了改进,使之能处理连续量,并推导了对应的期望最大化(expectation— maximization,EM)算法,改进后的模型称为连续 PLSA.随后,在连续PLSA的基础上提出一个图像语义标注模型.该模型结合连续PLSA和标准 PLSA建模图像训练集的视觉和文本信息,并采用不对称学习算法学习2种模态之间的关联.最后通过在一个标准的Corel图像数据集上的实验对本文方法进行了评估,结果表明,其性能优于若干典型的图像标注方法. 1相关工作图像自动标注的主要目标是确定图像从属于元数据给定的某个语义概念的概率,从而为图像的语义检索奠定基础.自动概念检测和语言索引等工作本质上都与此目标相关.当前图像自动标注的方法大致从2个思路来考虑:有监督的图像分类方法,对图像的视觉模态和文本模态之间的关联进行建模的方法. 有监督分类的方法将各个语义类别(一个关键词或关键词集合)看作独立的概念,为每个语义类别建立各不相同的分类器,给定一个未知图像,可以通过比较在视觉层次的特征相似度将相应的关键词传播给新图像.一个代表性的工作是Li等提出的图像自动语义索引系统,该系统使用一个二维多分辨率隐马尔可夫模型捕获给定语义类别的图像特征之间和内部的空间依赖关系,各个语义类别的模型是分别独立学习和存储的.标注方法是计算查询图像与各个语义类别之间的相似度,然后选择最相似的类别所包含的关键词进行标注.此外,Chang 等提出一个基于内容的软标注系统,首先选择一个训练图像集对全体分类器进行训练,其中每幅图像具有一个标注(如森林,动物,天空等),然后将全体分类器应用到一幅给定的图像上以获取图像的多个软标注.Carneiro等..采用基于最小错误率的优化准则和统计分类的思想,提出一种监督多类标注方法(supervisedmulticlasslabeling,SML),其基本思想是将每一个语义概念定义为一个语义类别, 引入一个随机变量w,其取值范围为{1,…,T},使得当且仅当样本具有语义概念叫时W—i(这里 i?{1,…,T});同时,引入条件概率密度Pxw(I )作为给定语义类别的低层特征分布,然后利用贝叶斯决策规则推导具有最小错误率的w的状态. SMI在训练分类器阶段为每幅图像提取一个特征集,利用多示例学习算法从多幅图像的特征集中学习语义概念,从而为每个语义概念建立概率模型.于是在标注阶段,SML通过训练好的各个分类器的竞争标注机制来推导图像所具有的多个语义概念,同时根据后验概率产生语义标注的自然排序,便于实现图像的语义检索. 许多图像自动标注的方法从文本领域的研究得到启发,通过建立关联模型的方法来标注图像.这类方法利用现有的已标注好的图像数据集,试图在无监督的基础上学习图像的视觉特征和文本关键词的关联,然后将这种关联应用于未标注的图像,通过统计推理的方法来预测图像的语义信息.一个较早的工作是Duygulu等u副提出的机器翻译模型(translation 计算机辅助设计与图形学第22卷 model,TM),该方法将图像分割为任意形状的区域,这些区域大致对应于一个对象或对象的一部分, 然后依据区域特征将图像区域聚类为量化区域 (blob).随之而来的一个自然的假设是:图像的blob 和某个关键词之间存在某种隐含的一一对应关系. 借助机器翻译的概念,该模型将blob和关键词看作是2种对等的‖语言‖,于是标注的过程可以看作是一个将blob翻译为关键词的过程.随后,Barnard 等u讨论了几个用来表示blob和关键词的联合分布的概率模型,包括分层聚类模型,翻译模型和多模态LDA混合模型,并考虑了对整幅图像的标注问题和对图像区域的命名问题.一旦通过学习得到 blob和关键词的联合概率分布,图像标注和区域命名问题就转化为图像,blob和关键词的相关性问题.Blei等使用更复杂的关联LDA模型对关键词和图像建模,该模型可以看作一个生成式过程:首先生成一系列隐藏变量(潜在主题)用以关联图像模态和文本模态,于是一幅图像可分解为一系列潜在主题的混合,然后在这些潜在主题中选择一个子集转换为若干基于LDA的混合模型,使用高斯分布为图像的区域特征建模,使用多项分布为标注关键词建模,从而在此混合模型的基础上产生图像的语义标注.Jeon等提出的跨媒体相关模型(cross— mediarelevancemodel,CMRM)也采用分割区域表示图像,但与翻译模型不同的是,它并不认为图像的关键词和区域之间是一对一的对应关系,而是通过学习关键词和区域的联合概率分布为整幅图像标注若干关键词.Lavrenko等..随后提出类似的连续空间相关模型(continuous—spacerelevancemodel, CRM).CRM与CMRM有2点重要区别:1)CMRM 是一个离散模型,不能利用连续的特征,使用它进行标注需要对连续的特征进行量化得到离散的词汇表,而CRM可以对连续的特征建模;2)CMRM依赖对特征向量的聚类,标注质量对聚类错误非常敏感,需要预先选择聚类粒度,而CRM不依赖于特征向量的聚类且不受聚类粒度问题的困扰.因此,CRM 获得了比CMRM高得多的标注和检索精度.Feng 等在此基础上提出多贝努里相关模型(multiple Bernoullirelevancemodel,MBRM),该模型使用多贝努里分布代替CRM中的多项分布来估计关键词概率,使用无参核密度函数估计图像区域特征的概率,能获得更好的标注性能.Monay等使用PLSA 进行建模,提出PLSA—WORDS标注方法.该方法也将图像看作一系列潜在主题的混合,并在潜在主题上分别生成视觉特征和文本关键词的概率分布, 但该方法将图像和文本视为2种不对等的模态,采用不对称的学习算法,仅从文本模态的数据学习一个潜在空间,并保持与视觉模态的关联,获得了较好的标注和检索性能.Lj等在PLSA—WORDS的基础上提出自适应的不对称学习算法,从文本和视觉 2种模态中自适应地学习一个较优的潜在空间,从而能更有效地利用训练数据.综上所述,关联建模的基本思想是引入随机变量L对客观世界的隐藏状态进行编码,各个状态定义了语义关键词和图像特征的联合分布.各种方法对于隐藏变量的状态定义各不相同:有些方法口n刀将数据库中的图像与隐藏变量相联系,另一些方法将图像聚类与隐藏变量相联系,还有些方法将主题模型的潜在主题与隐藏变量相联系. 2连续PLSA 与标准的PLSA类似,连续PLSA也是一个统计的潜在类模型,它在文档d(i?1,…,N)的各个元素(?1,…,M)的生成过程中引入隐含变量 (潜在主题)z(愚?1,…,K).然而,连续PLSA下的元素,是一个连续向量而不是标准PLSA下的离散量,在这里M表示数据集中所有互不相同的连续向量的个数.因为没有经过量化,所以一般来说M 是一个相当大的数值,引入M是便于表示和与标准 PLSA进行对照,在实际计算时并不需要统计M的值.此外,连续PLSA假设在给定不可观察的变量的情况下,各个元素满足多元高斯分布,而不是像标准PISA那样假设各个元素满足多项分布. 根据这个定义,连续PLSA具有下列生成过程: Step1.以概率P(d)选择一个文档d; Step李志欣,等:建模连续视觉特征的图像语义标注方法 : 图1连续PLSA的图模型表不在连续PLSA中,假设高斯混合分布的各个成分对应的概率密度为P(?J).也就是说,各个元素由K个高斯分布生成,每个高斯分布对应于一个 z.对于一个特定的潜在主题,元素X的条件概率密度函数为 P(Iz)一? exp{一专(一)(一)}; 其中,D是维数,和分别是对应于各个z的多元高斯分布的D维均值向量和DXD的协方差矩阵. 根据极大似然原则,P(Jd)和P(xiJ)可以通过最大化对数似然函数来确定.似然函数为 NM c一??n(d,)logP(d,)一i=lJ=1 NNM ?‖()1ogP(d)+??n(d,,)?i一1i=1J一1 K l0g?P(zfdi)P(xjf);一 1 其中n(d)一?n(d,Xj)表示文档di所包含元素 (即连续向量)的个数,而(d,)表示文档d中包含某个元素(连续向量)X的个数,在连续情况下这个值一般为1或0,但并不排除某个文档包含多个完全相同的元素(连续向量)的情况. EM算法是使用极大似然原则估计潜在变量模型参数的标准过程口...在E步中,对式(1)应用贝叶斯法则可得 P(ld,)一(2) ?P(zldi)P() 在M步中,需要最大化完全数据对数似然函数 NMK E[]一??n(d,)?P(zId,Xj)? log[P(Id)P(xjI)](3) 以P(zld)和P(x,l)为变量,可以使用拉格朗日乘子法在下列约束条件下最大化式(3), KK ?P(zldi)一1,?P(zld,xj)一1. 则对于任意的di,Zk和,连续PLSA的模型参数可由 P(fd)一 M ?n(d,,)P(zId,)J一】 ——————面广—————一 ?n(d,Xj)J一1 NM ??n(d,xj)P(zJd,Xj)Xi 一广————————, ??n(d,)P(Id,)i一1J=1 P(z1d,)} (4) (5) (6) 确定.式(2)和式(4),(6)的交替使用定义了一个收敛过程,可以推出式(3)的局部极大值.EM算法通过收敛条件或者采用早期停止技术来终止执行,获得较理想的结果. 对于各个模型参数而言,如果已知参数P({ d),使用folding,in算法可以快速地推导其他参数和,反之亦然.folding—in算法是对EM算法的步骤进行部分迭代的版本,它在迭代过程中保持已知参数不变,不断更新未知参数,使得似然函数极大化. 3图像语义标注模型在连续PLSA的基础上,本节提出一个有效的图像语义标注模型,并详细讨论其建模方法,生成式过程,参数估计方法和标注算法等. 3.1GM-PLSA建模为了根据不同模态数据各自的特点对其分别进行处理,本文采用连续PLSA建模图像的视觉特征,采用标准的PLSA建模文本关键词,通过共享相同的潜在主题分布进行关联.我们将这个图像语义标注模型称为GM—PLSA(Gaussian—multinomial PLSA),其图模型表示如图2所示. —— 1 / \ 图2GM—PLSA的图模型表示 , ,; M? _=? { /, T ― 一 , ? ? 一 = 计算机辅助设计与图形学第22卷 GM—PISA可用下列的生成式过程描述: Step1.以概率P(d)选择一个文档d; Step2.在给定文档d的条件下,以概率P(jd)采样满足多项分布的潜在主题; Step3.在给定潜在主题的条件下,以多项分布 Mult(xlOk)采样各个文本关键词; Step4.在给定潜在主题的条件下,以高斯分布N(xJ ,矗)采样各个视觉特征向量. 在这个建模方法下,每幅图像既可以视为视觉模态下的连续的高斯分量的混合,同时也可以视为在文本模态下的离散的关键词的混合.因此,这个模型能够有效地学习视觉特征和文本关键词之间的关联,并准确地预测未知图像的语义标注. 3.2学习与标注 GM—PISA的模型参数如下:P(ld),0(多项分布的参数,其值为P(叫l)构成的向量), 和.其中P(ld)和对应的0由标准PLSA的 EM算法进行拟合,而对应的|ll及则由连续训练图像 PLSA的EM算法进行拟合,2个模型共享相同的主题分布P(zld).对于一个给定的图像集,参数 0,1a和表示各个主题下文本模态数据和视觉模态数据的分布特征,独立于具体的图像文档,即对于训练集之外的图像文档仍然适用;而参数P(zId) 仅表示某个特定图像文档的主题分布,不能给未知图像带来任何的先验信息. 为了估计未知的模型参数,本文采用了不对称的学习算法,因为不对称学习算法能在潜在空间的定义中更好地控制各个模态的数据产生的影响j. 该算法在给定的图像文档中首先选择文本模态的数据来估计各个主题的混合分布,然后根据主题分布估计视觉数据的混合高斯分布.这使得潜在空间被限制在文本模态数据上并保持连续性,同时也保持关联视觉模态数据的能力.使用不对称学习算法进行建模和标注的过程如图3所示. 未知图像豳_ lding-in 方法 8 国国国攀 l连续PLsAlI 建模l ji -.1z)f {l 计算l. -1P(wldnew)l j} 选择5个关键词作为图像标注图3GMPLSA的学习和标注过程示意图在训练阶段,首先提取每幅训练图像的视觉特征,并使用一致的方式——‖特征袋‖_g表示一幅图像,即将一幅图像的视觉信息表示为一系列无顺序的连续特征向量的集合;然后,基于训练图像的文本标注信息拟合一个标准的PLSA模型,得到估计的模型参数P(zld)和0;最后根据得到的模型参数 P(zld)和每幅图像的‖特征袋‖表示,可使用连续 PLSA对应的folding—in算法得到各个主题对应的多元高斯分布的参数|,I和.根据标准PLSA和连续PLSA的独立性假设,不对称学习算法所估计的模型参数0,J【’和三对于训练集外的图像仍保持有效.这个过程如图3的左半部所示. 在标注阶段,由于模型参数0,和已经使用不对称学习算法估计得到,且对于每幅未知图像, 第8期李志欣,等:建模连续视觉特征的图像语义标注方法其视觉特征向量都可以自动提取得到,所以相应的主题分布P(zl一)可以使用folding—in算法推出. 于是词汇表中每个词的后验概率可以通过 K P(训ld)一>:P(ld…)P(j) =1 计算.与其他的标注方法一样,GM—PLSA为每幅图像选取5个具有最大后验概率的关键词作为其语义标注,这个过程如图3的右半部所示. 在对数据库的所有图像都进行自动标注之后, 可以相对容易地实现图像语义检索.由于每幅图像都有若干语义标注,而且每个标注都已计算出相应的置信度,那么,给定一个标注,可以按照置信度的大小对具有该标注的图像进行排序,并作为检索结果输出给用户. 通过上述的建模方法和学习算法,标准PLSA 和连续PLSA可以相互协作,在处理不同模态的数据时发挥各自的优势,从而能有效地完成图像的语义标注和检索的任务. 4实验结果分析为检验GM—PISA的性能和精度,我们开发了一个原型系统.该系统实现了PLSA—wORDS和 GM—PLSA的图像自动标注方法,模型的拟合过程和图像的自动标注采用离线方式执行,图像的语义检索采用在线方式执行. 4.1数据集和实验设置为了测试GM—PLSA的有效性并与其他典型的图像自动标注方法进行比较,本文采用文献[15] 使用的数据集(称为CorelSk)进行实验.该数据集包含5000幅图像,来自50个Corel库存图像cd,每个cd包含同样语义内容的100幅图像,每幅图像标注有1,5个关键词.Corel5k共有371个关键词,将至少标注了8幅图像的关键词选人词汇表,合计 260个关键词.整个数据集分为三部分:4000幅图像作为训练集,500幅作为验证集,500幅作为测试集.验证集用于确定系统参数,当系统参数确定之后,4000幅图像的训练集和500幅图像的验证集就合并为一个新的4500幅图像的训练集,而这个训练集与文献[15]使用的训练集一致. 本文实验的一个重要参数是潜在主题个数的选择及其优化.由于连续PLSA建模花费的时间代价较高,而且为了与PLSA—WORDS进行合理的比较,所以本文简单地采用文献[7]中实验分析所得到的最优结果,即主题个数设置为120.此外,在实际拟合连续PISA的过程中,虽然EM算法相对于 MCMC(MarkovchainMonteCarlo)方法的时间复杂度要低许多,但有2个问题需要考虑:一是初始值的选取;二是协方差矩阵的奇异性问题,即迭代过程中产生退化的问题.本文解决第一个问题的方法是预先对数据进行聚类,以得到初始的均值向量和协方差矩阵的值;解决第二个问题采用最大惩罚似然估计方法叩来解决,即在对数似然函数中添加一个共轭先验作为惩罚项,生成一系列变形的EM迭代公式,从而避免解的退化.设参数和的共轭先验分别为正态分布N(I,)和逆Wishart 分布Wi(,),而高斯混合系数K一(P(I d),…,P(Id))的共轭先验为Dirichlet分布 D(KI),则在对数似然函数中增加共轭先验的惩罚项后推导得到的EM算法的E步与式(2)一致,M 步的迭代公式则变形为 M ?(,)P(d,)+l P(ld)一L—————]———一(7) ?(,)+?一K= 1–1 NM ??n(d,)P(zId,xj)x+y 一———————————一 (8) ??n(d,)P(Id,)+f—l,一1 ,NM 一 {??n(d,)P(Id,)(xj一)?,i=1J=1 1, (一)+(一)(一)+2}/,/ , NM, {??(d)P(jd,)4-2d一D}(9),i:1J=1 其中D为数据的维数.由于式(7),(9)的分子和分母都加上了若干共轭先验分布的参数,按照式(2)和式(7),(9)进行迭代显然能够避免协方差矩阵的奇异性问题. 由于图像的特征选择不是本文讨论的重点问题,而且GM—PLSA建模方法独立于所采用的视觉特征,故本文采用与文献[11]类似的视觉特征,便于与其他的模型进行性能比较.首先将数据集中的每幅图像划分为规则方块(方块大小由验证集确定为 32×32),然后为每个方块提取一个36维的特征向量,包含24维的颜色特征和12维的纹理特征,颜色特征是在8个量化颜色和3个街区距离上计算的计算机辅助设计与图形学第22卷颜色自相关图,纹理特征是在3个尺度和4个方向上计算的Gabor能量系数.于是,每个方块可表示为一个36维的特征向量,而每幅图像就可表示为一个‖特征袋‖,也就是若干个36维的视觉特征向量的集合,从而为进一步使用主题模型进行建模提供了一致的接口. 4.2自动图像标注结果图像标注的性能通过比较测试集的自动标注与原始标注进行评估.类似于文献[10],PLSA-FUSION 只取前5个后验概率最大的关键词作为每幅图像的标注结果,并计算测试集中每个关键词的精度(也称查准率)和召回率(也称查全率).对于一个给定的语义关键词,精度precision—B/A,召回率recall— B/C;其中,A表示所有自动标注了W的图像个数, B表示正确标注W的图像个数,即这些图像的原始标注和自动标注都包含W,C表示原始标注中包含 W的图像个数.于是,计算精度和召回率的平均值就能总结系统的标注性能.此外,本文也考虑了召回率大于0的关键词个数,这个数值表示系统能够有效学习的关键词的个数. 在本节中,使用平均精度和平均召回率比较若干图像自动标注方法的性能,包括TM[坫],CMRlVlc‖], CRM[10],MBRM[11],PLSA—WORDS[和本文提出的GM—PLSA,表1给出了各个模型的标注性能.为了与过去的模型进行完全的比较,表1中报告了2 种标注结果:实验结果1报告性能最佳的49个关键词的平均召回率和平均精度;实验结果2则报告词汇表中全部260个关键词的平均召回率和平均精度.从表中数据可以看出,GM—PLSA的性能大大优于TM,CMRM,CRM和PLSA—WORDS,也稍优于 MBRM,我们认为这是因为GM—PLSA使用了连续 PLSA和标准PLSA分别建模图像的视觉模态和文本模态数据. 表2给出了几个自动标注的结果实例,包括 PLSA-WORDS和GM_PLSA的标注结果.从表2中可见,GM_PLSA的标注结果要优于PLSA-W()RDS, 更加接近于原始的人工标注.此外,使用GM—PLSA 标注图像也具备较高的合理性,即使对图像自动标注的关键词没有出现在原始标注中,这个词也能在某种意义上合理地标注该图像(如第1幅图像的标注grass和第2幅图像的标注trees等). 表1在Corel数据集上的自动图像标注性能比较表2PLSA—WORDS和GM-PLSA生成的标注与原始标注的比较图像标注IIElI ????瞄鼗lI_-I_ 圈_ 原始 field,foals,horses,marebeach,horizon,people,waterwaved,albatross,flight,s kycoast,sky,water,waved …一 grass,foals,horses,garden,water,trees,beach,flowers,city,flight,ceremony ,pond,trees,sky,snow,clouds, PLSA—WORDS treesgardenswallow-tailedcoast …一一一. horses,foals,mare,field,beach,water,sky,trees,flight,bird,sky,waved,sky,c oast,water,clouds, GM—PLSA grasshorizonalbatrosswaved 第8期李志欣,等:建模连续视觉特征的图像语义标注方法 4.3语义图像检索结果平均精度和平均召回率虽然也能评估语义关键词检索的性能,但是它们不能体现检索的排位结果于是本文引入另一个称为mAP(meanaverage precision)的度量标准来评估语义关键词的检索结果.AP在文本检索和视频检索中都已广泛使用并成为度量检索性能的标准,它能够为检索的排位提供有意义的评估.为计算AP,首先需要定义每个查询q的平均精度AlP,AP定义为查询q在各个正确检索的相关图像的排位i的精度之和,除以本次查询q的相关图像个数rel(q),即 ?precisi0() (q)=? 可见,查询q的AP对于检索结果的排位顺序是敏感的,于是,研AP定义为检索系统的N.次查询的AP的平均值.所以AP一个值就能评估整个系统的检索性能,即 mAP N口 ?AP(q)0—1 Ng’ 对标注结果的评估并没有考虑检索结果的排位顺序.然而,用户总喜欢对检索的图像进行排位,并希望排位在前的图像是相关图像.现实中,对于一个查询结果,大部分用户都不愿意浏览多于十几幅的图像,所以排位顺序对于图像检索而言是非常重要的.给定一个查询关键词,本文系统按照该关键词的后验概率排序并输出检索图像,按照排位计算各个关键词的AP和mAP的值.表3给出了几种标注方法的mAP,其中,第一列是在词汇表中所有关键词集合上计算得到的mAP,第二列是在召回率?0 的关键词集合(即在测试集的原始标注中出现过的关键词集合)上计算得到的mAP.由表3中的数据可见,GM—PLSA的检索性能要高于其他方法. 表3排位检索结果的mAP值比较图4所示为2个关键词检索的实例,图中每行给出一个查询中排位最高的5幅匹配图像,第一行的查询关键词为‖flower‖,第二行为‖mountain‖.返回图像的多样性表明,GM—PISA具有较好的学习和泛化能力. I—i一一一一图4GM—PLSA的语义检索实例实验结果表明,GM—PISA的自动标注和语义检索性能要高于几种典型的图像标注方法,这证明了使用连续PLSA和标准PLSA进行图像数据建模,以及采用不对称学习算法估计模型参数是有效的和可行的. 5结语与展望本文提出连续PLSA对连续量进行建模,并推导了相应的EM算法估计模型参数.此外,依据连续PLSA的特点设计了一个图像语义标注模型并开发了图像自动标注系统,它分别采用连续PLSA 和标准PLSA建模视觉模态和文本模态的数据,并采用不对称的学习算法学习2种模态之间的关联. 本文系统在一个包含5000幅图像的Corel数据集中进行实验,对提出的图像语义标注模型进行评测. 实验结果表明,对比几种典型的图像标注模型,本文提出的模型具有更好的性能. 无论是标准PLSA还是连续PLSA都是生成式模型,基于PLSA的图像标注模型虽然具备生成式模型的优点,但没有具备判别式模型的优点.我们下一步的工作将结合生成式模型和判别式模型完成 142O计算机辅助设计与图形学第22卷图像自动标注的任务,使之同时具有2种模型的优势,从而获得更高的标注精度和更好的检索效果. 参考文献(References): [11 E2] SmeuldersAWM,WorringM,SantiniS,eta1. Content—basedimageretrievalattheendoftheearlyyears [J1.IEEETransactionsonPatternAnalysisandMachine Intelligence,2000,22(12):1349—1380 DattaR,JoshiD,LiJ,eta1.Imageretrieval:ideas, influences,andtrendsofthenewage[J].ACMComputing Surveys,2008,40(2):ArticleNo5 [3]LiZhixin,ShiZhiping,LiZhiqing,eta1.Asurveyof semanticmappinginimageretrieval[J].JournalofComputer— AidedDesign&ComputerGraphics,2008,20(8):1085— 1096(inChinese) (李志欣,施智平,李志清,等.图像检索中语义映射方法综述[J].计算机辅助设计与图形学,2008,2O(8):1085— 1096) [4]HofmannT.Unsupervisedlearningbyprobabilisticlatent semanticanalysis[J].MachineLearning,2001,42(1/2): 177-196 Is]BleiDM,NgAY,JordanMI.LatentDirichletallocation [J].JournalofMachineLearningResearch,2003,3(1): 993-1022 [61BleiDM,JordanMI.Modelingannotateddata[c]// Proceedingsofthe26thAnnualInternatio?

                    本文档为【【word】 建模连续视觉特征的图像语义标注方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

【word】 建模连续视觉特征的图像语义标注方法

你可能还喜欢

【word】建模连续视觉特征的图像语义标注方法