首页 【word】 建模连续视觉特征的图像语义标注方法

【word】 建模连续视觉特征的图像语义标注方法

举报
开通vip

【word】 建模连续视觉特征的图像语义标注方法【word】 建模连续视觉特征的图像语义标注方法 建模连续视觉特征的图像语义标注方法 第22卷第8期 2010年8月 计算机辅助设计与图形学 JournalofComputer—AidedDesign&ComputerGraphics Vo1.22NO.8 Aug.2010 建模连续视觉特征的图像语义标注方法 李志欣.,施智平‖,刘曦‖,史忠植‖ ―(中国科学院计算技术研究所智能信息处理重点实验室北京100190) (广西师范大学计算机科学与信息工程学院桂林541004) ―(中国科...

【word】 建模连续视觉特征的图像语义标注方法
【word】 建模连续视觉特征的图像语义标注方法 建模连续视觉特征的图像语义标注方法 第22卷第8期 2010年8月 计算机辅助设计与图形学 JournalofComputer—AidedDesign&ComputerGraphics Vo1.22NO.8 Aug.2010 建模连续视觉特征的图像语义标注方法 李志欣.,施智平‖,刘曦‖,史忠植‖ ―(中国科学院计算技术研究所智能信息处理重点实验室北京100190) (广西师范大学计算机科学与信息工程学院桂林541004) ―(中国科学院研究生院北京1OO049) (1izx@ics.ict.ac.on) 摘要:针对图像检索中存在的‖语义鸿沟‖问题,提出一种对连续视觉特征直接建模的图像自动标注方法.首先对 概率潜语义分析(PISA)模型进行改进,使之能处理连续量,并推导对应的期望最大化算法来确定模型参数;然后根 据不同模态数据各自的特点,提出一个对不同模态数据分别处理的图像语义标注模型,该模型使用连续PLSA建模 视觉特征,使用标准PLSA建模文本关键词,并通过不对称的学习方 法学习2种模态之间的关联,从而能较好地对未 知图像进行标注.通过在一个包含5000幅图像的标准Corel数据集 中进行实验,并与几种典型的图像标注方法进行 比较的结果表明,文中方法具有更高的精度和更好的效果. 关键词:图像自动标注;概率潜语义分析;主题模型;连续视觉特征;图 像检索 中图法分类号:TP391 SemanticImageAnnotationbyModelingContinuousVisualFeatures LiZhixin’’,ShiZhiping‖,LiuXi,,andShiZhongzhi ―(KeyLaboratoryofIntelligentInformationProcessing,InstituteD厂 ComputingTechnology,ChineseAcademyofSciences,Beijing 100190) (CollegeComputerScienceandInformationTechnology,GuangxiNormalUniversity,Guilin541004) (GraduateUniversityofChineseAcademyofSciences,Beijing100049) Abstract:Inordertobridgethesemanticgapinimageretrieval,thispaperproposesanapproachto annotateimageautomaticallybymodelingcontinuousvisualfeaturesdirectly.Firstly,weextend probabilisticlatentsemanticanalysis(PISA)tomodelcontinuous.quantity.Inaddition, correspondingExpectation—Maximizationalgorithmisderivedtodetermi nethemodelparameters. Secondly,intermsofthecharacteristicsofdifferentmodalities,wepresentasemanticannotation modelwhichemployscontinuousPISAandstandardPLSAtomodelvisualfeaturesandtextualwords respectively.Themodellearnsthecorrelationbetweenthesetwomodalitiesbyanasymmetriclearning approachandthenitcanpredictsemanticannotationpreciselyforunseenimages.Finally,weconduct experimentsonastandardCoreldatasetconsistingof5000images.Incomparisontoseveralstate—of- the—artapproaches,ourapproachcanachievehigheraccuracy. Keywords:automaticimageannotation;probabilisticlatentsemanticanalysis;topicmodel; continuousvisualfeature;imageretrieval 收稿日期:2009—09—09;修回日期:2010—03—04.基金项目:国家‖九 七三‖重点基础研究发展计划项目(2007CB311004)}国家科技支撑计 划 (2006BAC08B06);国家自然科学基金重点项目(60933004);国家自然 科学基金(60775035,60903141,60970088).李志欣(1971一),男,博士研 究生,讲师,CCF会员,主要研究方向为图像理解,机器学习,基于内容 的视觉信息检索;施智平(1974一),男,博士,助理研究员,主要研究方向 为图像理解,机器学习,基于内容的视觉信息检索;刘曦(1985一),男,博士研究生,主要研究方向为图像理解,机器学习,物体识别;史忠植 (1941一),男,研究员,博士生导师,IEEE高级会员,CCF高级会员,主要研究方向为人工智能,机器学习,神经计算,认知科学. 第8期李志欣,等:建模连续视觉特征的图像语义标注方法 随着数字成像,数据存储和互联网等技术的发 展,对大规模图像库进行有效的组织,索引和检索成 为该领域的重要课题.过去的十几年,研究人员做了 大量关于基于内容图像检索(content—basedimage retrieval,CBIR)的研究,然而,由于在图像检索的 研究中存在‖语义鸿沟‖l_1的问题,其性能仍然不够 理想.CBIR依据图像的视觉特征检索图像,而用户 却总是希望实现直观的基于文本的图像检索.由于 图像的手工标注需要耗费大量的人力物力,难于推 广应用到大的图像数据库,因此图像的自动标注成 为一个引人注目的关键的课题.. 主题模型又称层面模型,最初主要应用于文本 分类和信息检索等领域,近年来它在计算机视觉领 域也得到了广泛的应用.具有代表性的主题模型有 概率潜语义分析(probabilisticlatentsemanticanalysis, PISA)模型和潜在狄里克雷分布(1atentDirichlet allocation,LDA)模型j,它们不仅在场景分类,对 象识别等领域取得了好的效果,也成功地应用于图 像的自动标注和检索_8_.PLSA作为一个潜在主题 模型也已经成功地应用于图像的自动标注和检索 中,然而,由于标准的PISA只能够处理离散量,因 此利用PISA进行图像标注的模型大都是离散模 型口].也就是说,这类方法需要首先将图像的视觉 特征进行量化,才能很好地学习视觉模态和文本模 态之间的关联,所以这类方法的性能对聚类的粒度 比较敏感.在图像的自动标注领域中,一般认为使用 连续的视觉特征会得到较好的性能,因为连续的视觉 特征没有在量化过程中丢失信息..为了更好地 建模图像数据,需要PISA能够处理连续量. 本文对标准的PLSA进行了改进,使之能处理 连续量,并推导了对应的期望最大化(expectation— maximization,EM)算法,改进后的模型称为连续 PLSA.随后,在连续PLSA的基础上提出一个图像 语义标注模型.该模型结合连续PLSA和标准 PLSA建模图像训练集的视觉和文本信息,并采用 不对称学习算法学习2种模态之间的关联.最后通 过在一个标准的Corel图像数据集上的实验对本文 方法进行了评估,结果表明,其性能优于若干典型的 图像标注方法. 1相关工作 图像自动标注的主要目标是确定图像从属于元 数据给定的某个语义概念的概率,从而为图像的语 义检索奠定基础.自动概念检测和语言索引等工作 本质上都与此目标相关.当前图像自动标注的方法 大致从2个思路来考虑:有监督的图像分类方法,对 图像的视觉模态和文本模态之间的关联进行建模的 方法. 有监督分类的方法将各个语义类别(一个关键 词或关键词集合)看作独立的概念,为每个语义类别 建立各不相同的分类器,给定一个未知图像,可以通 过比较在视觉层次的特征相似度将相应的关键词传 播给新图像.一个代表性的工作是Li等提出的 图像自动语义索引系统,该系统使用一个二维多分 辨率隐马尔可夫模型捕获给定语义类别的图像特征 之间和内部的空间依赖关系,各个语义类别的模型 是分别独立学习和存储的.标注方法是计算查询图 像与各个语义类别之间的相似度,然后选择最相似 的类别所包含的关键词进行标注.此外,Chang 等提出一个基于内容的软标注系统,首先选择一 个训练图像集对全体分类器进行训练,其中每幅图 像具有一个标注(如森林,动物,天空等),然后将全 体分类器应用到一幅给定的图像上以获取图像的多 个软标注.Carneiro等..采用基于最小错误率的优 化 准则 租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载 和统计分类的思想,提出一种监督多类标注 方法(supervisedmulticlasslabeling,SML),其基 本思想是将每一个语义概念定义为一个语义类别, 引入一个随机变量w,其取值范围为{1,…,T},使 得当且仅当样本具有语义概念叫时W—i(这里 i?{1,…,T});同时,引入条件概率密度Pxw(I )作为给定语义类别的低层特征分布,然后利用贝 叶斯决策规则推导具有最小错误率的w的状态. SMI在训练分类器阶段为每幅图像提取一个特征 集,利用多示例学习算法从多幅图像的特征集中学 习语义概念,从而为每个语义概念建立概率模型.于 是在标注阶段,SML通过训练好的各个分类器的竞 争标注机制来推导图像所具有的多个语义概念,同 时根据后验概率产生语义标注的自然排序,便于实 现图像的语义检索. 许多图像自动标注的方法从文本领域的研究得 到启发,通过建立关联模型的方法来标注图像.这类 方法利用现有的已标注好的图像数据集,试图在无 监督的基础上学习图像的视觉特征和文本关键词的 关联,然后将这种关联应用于未标注的图像,通过统 计推理的方法来预测图像的语义信息.一个较早的工 作是Duygulu等u副提出的机器翻译模型(translation 计算机辅助设计与图形学第22卷 model,TM),该方法将图像分割为任意形状的区 域,这些区域大致对应于一个对象或对象的一部分, 然后依据区域特征将图像区域聚类为量化区域 (blob).随之而来的一个自然的假设是:图像的blob 和某个关键词之间存在某种隐含的一一对应关系. 借助机器翻译的概念,该模型将blob和关键词看作 是2种对等的‖语言‖,于是标注的过程可以看作是 一 个将blob翻译为关键词的过程.随后,Barnard 等u讨论了几个用来表示blob和关键词的联合分 布的概率模型,包括分层聚类模型,翻译模型和多模 态LDA混合模型,并考虑了对整幅图像的标注问 题和对图像区域的命名问题.一旦通过学习得到 blob和关键词的联合概率分布,图像标注和区域命 名问题就转化为图像,blob和关键词的相关性问 题.Blei等使用更复杂的关联LDA模型对关键词 和图像建模,该模型可以看作一个生成式过程:首先 生成一系列隐藏变量(潜在主题)用以关联图像模态 和文本模态,于是一幅图像可分解为一系列潜在主 题的混合,然后在这些潜在主题中选择一个子集转 换为若干基于LDA的混合模型,使用高斯分布为 图像的区域特征建模,使用多项分布为标注关键词 建模,从而在此混合模型的基础上产生图像的语义 标注.Jeon等提出的跨媒体相关模型(cross— mediarelevancemodel,CMRM)也采用分割区域表 示图像,但与翻译模型不同的是,它并不认为图像的 关键词和区域之间是一对一的对应关系,而是通过 学习关键词和区域的联合概率分布为整幅图像标注 若干关键词.Lavrenko等..随后提出类似的连续 空间相关模型(continuous—spacerelevancemodel, CRM).CRM与CMRM有2点重要区别:1)CMRM 是一个离散模型,不能利用连续的特征,使用它进行 标注需要对连续的特征进行量化得到离散的词汇 表,而CRM可以对连续的特征建模;2)CMRM依 赖对特征向量的聚类,标注质量对聚类错误非常敏 感,需要预先选择聚类粒度,而CRM不依赖于特征 向量的聚类且不受聚类粒度问题的困扰.因此,CRM 获得了比CMRM高得多的标注和检索精度.Feng 等在此基础上提出多贝努里相关模型(multiple Bernoullirelevancemodel,MBRM),该模型使用多 贝努里分布代替CRM中的多项分布来估计关键词 概率,使用无参核密度函数估计图像区域特征的概 率,能获得更好的标注性能.Monay等使用PLSA 进行建模,提出PLSA—WORDS标注方法.该方法 也将图像看作一系列潜在主题的混合,并在潜在主 题上分别生成视觉特征和文本关键词的概率分布, 但该方法将图像和文本视为2种不对等的模态,采 用不对称的学习算法,仅从文本模态的数据学习一 个潜在空间,并保持与视觉模态的关联,获得了较好 的标注和检索性能.Lj等在PLSA—WORDS的基 础上提出自适应的不对称学习算法,从文本和视觉 2种模态中自适应地学习一个较优的潜在空间,从 而能更有效地利用训练数据.综上所述,关联建模的 基本思想是引入随机变量L对客观世界的隐藏状 态进行编码,各个状态定义了语义关键词和图像特 征的联合分布.各种方法对于隐藏变量的状态定义 各不相同:有些方法口n刀将数据库中的图像与隐 藏变量相联系,另一些方法将图像聚类与隐藏 变量相联系,还有些方法将主题模型的潜在主题 与隐藏变量相联系. 2连续PLSA 与标准的PLSA类似,连续PLSA也是一个统 计的潜在类模型,它在文档d(i?1,…,N)的各个 元素(?1,…,M)的生成过程中引入隐含变量 (潜在主题)z(愚?1,…,K).然而,连续PLSA下的 元素,是一个连续向量而不是标准PLSA下的离 散量,在这里M表示数据集中所有互不相同的连续 向量的个数.因为没有经过量化,所以一般来说M 是一个相当大的数值,引入M是便于表示和与标准 PLSA进行对照,在实际计算时并不需要统计M的 值.此外,连续PLSA假设在给定不可观察的变量 的情况下,各个元素满足多元高斯分布,而不 是像标准PISA那样假设各个元素满足多项分布. 根据这个定义,连续PLSA具有下列生成过程: Step1.以概率P(d)选择一个文档d; Step李志欣,等:建模连续视觉特征的图像语义标注方法 : 图1连续PLSA的图模型表不 在连续PLSA中,假设高斯混合分布的各个成 分对应的概率密度为P(?J).也就是说,各个元素 由K个高斯分布生成,每个高斯分布对应于一个 z.对于一个特定的潜在主题,元素X的条件概 率密度函数为 P(Iz)一? exp{一专(一)(一)}; 其中,D是维数,和分别是对应于各个z的多元 高斯分布的D维均值向量和DXD的协方差矩阵. 根据极大似然原则,P(Jd)和P(xiJ)可以 通过最大化对数似然函数来确定.似然函数为 NM c一??n(d,)logP(d,)一i=lJ=1 NNM ?‖()1ogP(d)+??n(d,,)?i一1i=1J一1 K l0g?P(zfdi)P(xjf);一 1 其中n(d)一?n(d,Xj)表示文档di所包含元素 (即连续向量)的个数,而(d,)表示文档d中包 含某个元素(连续向量)X的个数,在连续情况下这 个值一般为1或0,但并不排除某个文档包含多个 完全相同的元素(连续向量)的情况. EM算法是使用极大似然原则估计潜在变量模 型参数的标准过程口...在E步中,对式(1)应用贝 叶斯法则可得 P(ld,)一(2) ?P(zldi)P() 在M步中,需要最大化完全数据对数似然函数 NMK E[]一??n(d,)?P(zId,Xj)? log[P(Id)P(xjI)](3) 以P(zld)和P(x,l)为变量,可以使用拉格朗日 乘子法在下列约束条件下最大化式(3), KK ?P(zldi)一1,?P(zld,xj)一1. 则对于任意的di,Zk和,连续PLSA的模型参数可由 P(fd)一 M ?n(d,,)P(zId,)J一】 ——————面广—————一 ?n(d,Xj)J一1 NM ??n(d,xj)P(zJd,Xj)Xi 一广————————, ??n(d,)P(Id,)i一1J=1 P(z1d,)} (4) (5) (6) 确定.式(2)和式(4),(6)的交替使用定义了一个收 敛过程,可以推出式(3)的局部极大值.EM算法通 过收敛条件或者采用早期停止技术来终止执行,获 得较理想的结果. 对于各个模型参数而言,如果已知参数P({ d),使用folding,in算法可以快速地推导其他参 数和,反之亦然.folding—in算法是对EM算法 的步骤进行部分迭代的版本,它在迭代过程中保持 已知参数不变,不断更新未知参数,使得似然函数极 大化. 3图像语义标注模型 在连续PLSA的基础上,本节提出一个有效的 图像语义标注模型,并详细讨论其建模方法,生成式 过程,参数估计方法和标注算法等. 3.1GM-PLSA建模 为了根据不同模态数据各自的特点对其分别进 行处理,本文采用连续PLSA建模图像的视觉特 征,采用标准的PLSA建模文本关键词,通过共享 相同的潜在主题分布进行关联.我们将这个图像语 义标注模型称为GM—PLSA(Gaussian—multinomial PLSA),其图模型表示如图2所示. —— 1 / \ 图2GM—PLSA的图模型表示 , ,; M? _=? { /, T ― 一 , ? ? 一 = 计算机辅助设计与图形学第22卷 GM—PISA可用下列的生成式过程描述: Step1.以概率P(d)选择一个文档d; Step2.在给定文档d的条件下,以概率P(jd)采样 满足多项分布的潜在主题; Step3.在给定潜在主题的条件下,以多项分布 Mult(xlOk)采样各个文本关键词; Step4.在给定潜在主题的条件下,以高斯分布N(xJ ,矗)采样各个视觉特征向量. 在这个建模方法下,每幅图像既可以视为视觉 模态下的连续的高斯分量的混合,同时也可以视为 在文本模态下的离散的关键词的混合.因此,这个模 型能够有效地学习视觉特征和文本关键词之间的关 联,并准确地预测未知图像的语义标注. 3.2学习与标注 GM—PISA的模型参数如下:P(ld),0(多 项分布的参数,其值为P(叫l)构成的向量), 和.其中P(ld)和对应的0由标准PLSA的 EM算法进行拟合,而对应的|ll及则由连续 训练图像 PLSA的EM算法进行拟合,2个模型共享相同的 主题分布P(zld).对于一个给定的图像集,参数 0,1a和表示各个主题下文本模态数据和视觉模 态数据的分布特征,独立于具体的图像文档,即对于 训练集之外的图像文档仍然适用;而参数P(zId) 仅表示某个特定图像文档的主题分布,不能给未知 图像带来任何的先验信息. 为了估计未知的模型参数,本文采用了不对称 的学习算法,因为不对称学习算法能在潜在空间的 定义中更好地控制各个模态的数据产生的影响j. 该算法在给定的图像文档中首先选择文本模态的数 据来估计各个主题的混合分布,然后根据主题分布 估计视觉数据的混合高斯分布.这使得潜在空间被 限制在文本模态数据上并保持连续性,同时也保持 关联视觉模态数据的能力.使用不对称学习算法进 行建模和标注的过程如图3所示. 未知图像 豳_ lding-in 方法 8 国国国攀 l连续PLsAlI 建模l ji -.1z)f {l 计算l. -1P(wldnew)l j} 选择5个关键词 作为图像标注 图3GMPLSA的学习和标注过程示意图 在训练阶段,首先提取每幅训练图像的视觉特 征,并使用一致的方式——‖特征袋‖_g表示一幅图 像,即将一幅图像的视觉信息表示为一系列无顺序 的连续特征向量的集合;然后,基于训练图像的文本 标注信息拟合一个标准的PLSA模型,得到估计的 模型参数P(zld)和0;最后根据得到的模型参数 P(zld)和每幅图像的‖特征袋‖表示,可使用连续 PLSA对应的folding—in算法得到各个主题对应的 多元高斯分布的参数|,I和.根据标准PLSA和连 续PLSA的独立性假设,不对称学习算法所估计的 模型参数0,J【’和三对于训练集外的图像仍保持有 效.这个过程如图3的左半部所示. 在标注阶段,由于模型参数0,和已经使 用不对称学习算法估计得到,且对于每幅未知图像, 第8期李志欣,等:建模连续视觉特征的图像语义标注方法 其视觉特征向量都可以自动提取得到,所以相应的 主题分布P(zl一)可以使用folding—in算法推出. 于是词汇表中每个词的后验概率可以通过 K P(训ld)一>:P(ld…)P(j) =1 计算.与其他的标注方法一样,GM—PLSA为每幅图 像选取5个具有最大后验概率的关键词作为其语义 标注,这个过程如图3的右半部所示. 在对数据库的所有图像都进行自动标注之后, 可以相对容易地实现图像语义检索.由于每幅图像 都有若干语义标注,而且每个标注都已计算出相应 的置信度,那么,给定一个标注,可以按照置信度的 大小对具有该标注的图像进行排序,并作为检索结 果输出给用户. 通过上述的建模方法和学习算法,标准PLSA 和连续PLSA可以相互协作,在处理不同模态的数 据时发挥各自的优势,从而能有效地完成图像的语 义标注和检索的任务. 4实验结果分析 为检验GM—PISA的性能和精度,我们开发了 一 个原型系统.该系统实现了PLSA—wORDS和 GM—PLSA的图像自动标注方法,模型的拟合过程 和图像的自动标注采用离线方式执行,图像的语义 检索采用在线方式执行. 4.1数据集和实验设置 为了测试GM—PLSA的有效性并与其他典型 的图像自动标注方法进行比较,本文采用文献[15] 使用的数据集(称为CorelSk)进行实验.该数据集 包含5000幅图像,来自50个Corel库存图像cd,每 个cd包含同样语义内容的100幅图像,每幅图像标 注有1,5个关键词.Corel5k共有371个关键词,将 至少标注了8幅图像的关键词选人词汇表,合计 260个关键词.整个数据集分为三部分:4000幅图 像作为训练集,500幅作为验证集,500幅作为测试 集.验证集用于确定系统参数,当系统参数确定之 后,4000幅图像的训练集和500幅图像的验证集就 合并为一个新的4500幅图像的训练集,而这个训 练集与文献[15]使用的训练集一致. 本文实验的一个重要参数是潜在主题个数的选 择及其优化.由于连续PLSA建模花费的时间代价 较高,而且为了与PLSA—WORDS进行合理的比 较,所以本文简单地采用文献[7]中实验分析所得到 的最优结果,即主题个数设置为120.此外,在实际 拟合连续PISA的过程中,虽然EM算法相对于 MCMC(MarkovchainMonteCarlo)方法的时间复 杂度要低许多,但有2个问题需要考虑:一是初始值 的选取;二是协方差矩阵的奇异性问题,即迭代过程 中产生退化的问题.本文解决第一个问题的方法是 预先对数据进行聚类,以得到初始的均值向量和协 方差矩阵的值;解决第二个问题采用最大惩罚似然 估计方法叩来解决,即在对数似然函数中添加一个 共轭先验作为惩罚项,生成一系列变形的EM迭代 公式,从而避免解的退化.设参数和的共轭先 验分别为正态分布N(I,)和逆Wishart 分布Wi(,),而高斯混合系数K一(P(I d),…,P(Id))的共轭先验为Dirichlet分布 D(KI),则在对数似然函数中增加共轭先验的惩罚 项后推导得到的EM算法的E步与式(2)一致,M 步的迭代公式则变形为 M ?(,)P(d,)+l P(ld)一L—————]———一(7) ?(,)+?一K= 1–1 NM ??n(d,)P(zId,xj)x+y 一———————————一 (8) ??n(d,)P(Id,)+f—l,一1 ,NM 一 {??n(d,)P(Id,)(xj一)?,i=1J=1 1, (一)+(一)(一)+2}/,/ , NM, {??(d)P(jd,)4-2d一D}(9),i:1J=1 其中D为数据的维数.由于式(7),(9)的分子和分 母都加上了若干共轭先验分布的参数,按照式(2)和 式(7),(9)进行迭代显然能够避免协方差矩阵的奇 异性问题. 由于图像的特征选择不是本文讨论的重点问 题,而且GM—PLSA建模方法独立于所采用的视觉 特征,故本文采用与文献[11]类似的视觉特征,便于 与其他的模型进行性能比较.首先将数据集中的每 幅图像划分为规则方块(方块大小由验证集确定为 32×32),然后为每个方块提取一个36维的特征向 量,包含24维的颜色特征和12维的纹理特征,颜色 特征是在8个量化颜色和3个街区距离上计算的 计算机辅助设计与图形学第22卷 颜色自相关图,纹理特征是在3个尺度和4个方 向上计算的Gabor能量系数.于是,每个方块可 表示为一个36维的特征向量,而每幅图像就可表示 为一个‖特征袋‖,也就是若干个36维的视觉特征向 量的集合,从而为进一步使用主题模型进行建模提 供了一致的接口. 4.2自动图像标注结果 图像标注的性能通过比较测试集的自动标注与 原始标注进行评估.类似于文献[10],PLSA-FUSION 只取前5个后验概率最大的关键词作为每幅图像的 标注结果,并计算测试集中每个关键词的精度(也称 查准率)和召回率(也称查全率).对于一个给定的语 义关键词,精度precision—B/A,召回率recall— B/C;其中,A表示所有自动标注了W的图像个数, B表示正确标注W的图像个数,即这些图像的原始 标注和自动标注都包含W,C表示原始标注中包含 W的图像个数.于是,计算精度和召回率的平均值 就能 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 系统的标注性能.此外,本文也考虑了召回 率大于0的关键词个数,这个数值表示系统能够有 效学习的关键词的个数. 在本节中,使用平均精度和平均召回率比较若干 图像自动标注方法的性能,包括TM[坫],CMRlVlc‖], CRM[10],MBRM[11],PLSA—WORDS[和本文提出 的GM—PLSA,表1给出了各个模型的标注性能.为 了与过去的模型进行完全的比较,表1中报告了2 种标注结果:实验结果1报告性能最佳的49个关键 词的平均召回率和平均精度;实验结果2则报告词 汇表中全部260个关键词的平均召回率和平均精 度.从表中数据可以看出,GM—PLSA的性能大大优 于TM,CMRM,CRM和PLSA—WORDS,也稍优于 MBRM,我们认为这是因为GM—PLSA使用了连续 PLSA和标准PLSA分别建模图像的视觉模态和文 本模态数据. 表2给出了几个自动标注的结果实例,包括 PLSA-WORDS和GM_PLSA的标注结果.从表2中 可见,GM_PLSA的标注结果要优于PLSA-W()RDS, 更加接近于原始的人工标注.此外,使用GM—PLSA 标注图像也具备较高的合理性,即使对图像自动标 注的关键词没有出现在原始标注中,这个词也能在 某种意义上合理地标注该图像(如第1幅图像的标 注grass和第2幅图像的标注trees等). 表1在Corel数据集上的自动图像标注性能比较 表2PLSA—WORDS和GM-PLSA生成的标注与原始标注的比较 图像 标注IIElI ????瞄鼗lI_-I_ 圈_ 原始 field,foals,horses,marebeach,horizon,people,waterwaved,albatross,flight,s kycoast,sky,water,waved …一 grass,foals,horses,garden,water,trees,beach,flowers,city,flight,ceremony ,pond,trees,sky,snow,clouds, PLSA—WORDS treesgardenswallow-tailedcoast …一一一. horses,foals,mare,field,beach,water,sky,trees,flight,bird,sky,waved,sky,c oast,water,clouds, GM—PLSA grasshorizonalbatrosswaved 第8期李志欣,等:建模连续视觉特征的图像语义标注方法 4.3语义图像检索结果 平均精度和平均召回率虽然也能评估语义关键 词检索的性能,但是它们不能体现检索的排位结果 于是本文引入另一个称为mAP(meanaverage precision)的度量标准来评估语义关键词的检索结 果.AP在文本检索和视频检索中都已广泛使用并 成为度量检索性能的标准,它能够为检索的排位提 供有意义的评估.为计算AP,首先需要定义每个 查询q的平均精度AlP,AP定义为查询q在各个正 确检索的相关图像的排位i的精度之和,除以本次 查询q的相关图像个数rel(q),即 ?precisi0() (q)=? 可见,查询q的AP对于检索结果的排位顺序 是敏感的,于是,研AP定义为检索系统的N.次查询 的AP的平均值.所以AP一个值就能评估整个 系统的检索性能,即 mAP N口 ?AP(q)0—1 Ng’ 对标注结果的评估并没有考虑检索结果的排位 顺序.然而,用户总喜欢对检索的图像进行排位,并 希望排位在前的图像是相关图像.现实中,对于一个 查询结果,大部分用户都不愿意浏览多于十几幅的 图像,所以排位顺序对于图像检索而言是非常重要 的.给定一个查询关键词,本文系统按照该关键词的 后验概率排序并输出检索图像,按照排位计算各个 关键词的AP和mAP的值.表3给出了几种标注 方法的mAP,其中,第一列是在词汇表中所有关键 词集合上计算得到的mAP,第二列是在召回率?0 的关键词集合(即在测试集的原始标注中出现过的 关键词集合)上计算得到的mAP.由表3中的数据 可见,GM—PLSA的检索性能要高于其他方法. 表3排位检索结果的mAP值比较 图4所示为2个关键词检索的实例,图中每行 给出一个查询中排位最高的5幅匹配图像,第一行 的查询关键词为‖flower‖,第二行为‖mountain‖.返 回图像的多样性表明,GM—PISA具有较好的学习 和泛化能力. I—i一一一一 图4GM—PLSA的语义检索实例 实验结果表明,GM—PISA的自动标注和语义 检索性能要高于几种典型的图像标注方法,这证明 了使用连续PLSA和标准PLSA进行图像数据建 模,以及采用不对称学习算法估计模型参数是有效 的和可行的. 5结语与展望 本文提出连续PLSA对连续量进行建模,并推 导了相应的EM算法估计模型参数.此外,依据连 续PLSA的特点设计了一个图像语义标注模型并 开发了图像自动标注系统,它分别采用连续PLSA 和标准PLSA建模视觉模态和文本模态的数据,并 采用不对称的学习算法学习2种模态之间的关联. 本文系统在一个包含5000幅图像的Corel数据集 中进行实验,对提出的图像语义标注模型进行评测. 实验结果表明,对比几种典型的图像标注模型,本文 提出的模型具有更好的性能. 无论是标准PLSA还是连续PLSA都是生成 式模型,基于PLSA的图像标注模型虽然具备生成 式模型的优点,但没有具备判别式模型的优点.我们 下一步的工作将结合生成式模型和判别式模型完成 142O计算机辅助设计与图形学第22卷 图像自动标注的任务,使之同时具有2种模型的优 势,从而获得更高的标注精度和更好的检索效果. 参考文献(References): [11 E2] SmeuldersAWM,WorringM,SantiniS,eta1. Content—basedimageretrievalattheendoftheearlyyears [J1.IEEETransactionsonPatternAnalysisandMachine Intelligence,2000,22(12):1349—1380 DattaR,JoshiD,LiJ,eta1.Imageretrieval:ideas, influences,andtrendsofthenewage[J].ACMComputing Surveys,2008,40(2):ArticleNo5 [3]LiZhixin,ShiZhiping,LiZhiqing,eta1.Asurveyof semanticmappinginimageretrieval[J].JournalofComputer— AidedDesign&ComputerGraphics,2008,20(8):1085— 1096(inChinese) (李志欣,施智平,李志清,等.图像检索中语义映射方法综 述[J].计算机辅助设计与图形学,2008,2O(8):1085— 1096) [4]HofmannT.Unsupervisedlearningbyprobabilisticlatent semanticanalysis[J].MachineLearning,2001,42(1/2): 177-196 Is]BleiDM,NgAY,JordanMI.LatentDirichletallocation [J].JournalofMachineLearningResearch,2003,3(1): 993-1022 [61BleiDM,JordanMI.Modelingannotateddata[c]// Proceedingsofthe26thAnnualInternatio?
本文档为【【word】 建模连续视觉特征的图像语义标注方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_637320
暂无简介~
格式:doc
大小:58KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-12-01
浏览量:15