基于项目和标签的随机游走个性化信息推荐模型
基于项目和标签的随机游走个性化信息推
荐模型
情报ISSN1000—0135
第31卷第3期289—296,2012年3月
JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDIlECHNICALINF0RMAT10NISSNlo0o一0135
Vo1.31No.3,289—296March2012
doi:10.3772/j.issn.1000-0135.2012.03.008 基于项目和标签的随机游走个性化信息推荐模型
王丽莎张绍武林鸿飞
(大连理工大学计算机科学与技术学院,大连116024)
摘要近几年,各大社会媒体都在致力于提供良好的信息推荐服务,应对网络资源的增长和用户的个性化需
求,然而数据稀疏性问题成为了影响推荐性能的主要障碍因素之一.本文在随机游走(RWR)算法的基础上进行
了改进,提出了一种项目一标签导向的随机游走推荐模型(TRWR),针对特定用户分别在项目空间和标签空间中
根据对象之间的相似性计算转移概率,进行有限步长的随机游走,在两个空间中都生成若干个待推荐项目,然后重
新计算预测评分,最后对该用户进行个性化信息推荐.在计算对象之间相似性的过程中,本文采用了融合评分差
异性和共同评分用户数的相似度计算方法.我们的实验基于MovieLens公开数据集,并与Top—N,DV和RWR这三
种项目导向方法进行了对比,结果
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
明本文提出的模型提高了Precision值和Recall值,并使得MAE值有所下降.
关键词个性化信息推荐数据稀疏随机游走
AnInformationRecommendationModelBasedonItemandTag
RandomWalkModel
WangLisha,ZhangShaowuandLinHongfei
(SchoolofComputerScienceandTechnology,DalianUniversityofTechnology,Dalian116024)
AbstractInrecentyears,informationrecommendationplaysamoreandmoreimportantroleinInternetservice.
However,datasparsenesshasbecomeoneofmajorobstaclestotheperformanceofrecommendation.Thispaperproposesan
algorithmnameditem?tag—
basedrandomwalkrecommender(TRWR),whichisbasedontherandomwalkrecommender
(RWR)algorithm.Theideainthispaperisasfollows:firstly,foratargetuser,itcalculatestransitionprobabilities
betweenitemsandtagsseparately,thentakesfinitelengthrandomwalksintheitemspaceandthetagspaceinorderto
generatesomerecommendeditems.Secondly,itrecalculatestheseitems'scores.Finally,itrecommendssomeitemstothe
targetuser.Whencalculatingsimilaritiesbetweenitemsandtags,weintroducethenumberofsamescorers.Experiments
onMovieLensdatasetshowthatTRWRalgorithmoutperformsthreeotheritem—
orientedapproacheswhichareTop?N.DV
andRWR,becauseitimprovesthePrecisionvalueandtheRecallvalue,atthesametimedecreasingtheMAEvalue.
Keywordspersonalizedinformationrecommendation,sparseness,randomwalk 1引言
随着网络应用的广泛普及和信息的自由传播,
充斥在各媒体社区网站的资源急遽增长,使得用户
在获取丰富信息的同时也被大量无关信息"淹没".
在这样的背景下,个性化信息推荐服务应运而生,它
旨在跟踪用户的历史信息,掌握用户的兴趣特征,从 而主动向用户推送他们可能感兴趣的信息资源. 不同的推荐系统采取不同的推荐策略,但它们
收稿Et期:2011年4月21Et
作者简介:王丽莎,女,硕士生,主要研究方向:个性化信息推荐.张绍武,男,副教授,主
要研究方向:情感计算和文本挖
掘.林鸿飞,男,博士,教授,博士生导师,主要研究方向:搜索引擎,文本挖掘和自然语
言理解.E.mail:hflin@dlut.edu.cn. 1)基金项目:国家自然科学基金资助项目(编号:60673039,60973068);国家社科基金
(编号:08BTQ025);国家863高科
技
计划
项目进度计划表范例计划下载计划下载计划下载课程教学计划下载
资助项目(编号:2006AA01Z151)和教育部博士点基金(编
号:20090041110002).
.-——
289--——
情报第31卷第3期2012年3月
的基本方法都是通过跟踪用户的历史行为,用户的 属性特征(如性别,年龄,职业等)或者项目信息,针 对每一个目标用户进行不同的个性化推荐.目前为 止已经涌现出了各种各样的推荐算法,但总体可分 为两大类:基于内容(content—based,CB)的推荐算法 和协同过滤(collaborativefiltering,CF)推荐算法. 但是由于基于内容的推荐算法存在诸多缺陷,如只 能够处理文本信息,缺少向用户推荐新信息的能力 等,如今已经很少有推荐系统采用这种算法了.协 同过滤又称为合作过滤或社会过滤,它基于如下假 设:如果一些用户对一些项目的评分较相似,则他们 对其他项目的评分也比较相似,从而将具有相同爱 好的用户感兴趣的项目推荐给目标用户.
与基于内容的推荐算法相比,协同过滤的优势
在于:?能够处理非结构化的信息资源(如电影, 音乐等);?除了根据用户的项目评分信息外,还 能够基于其他一些具有数值信息的概念进行过滤; ?具有向目标用户推荐新信息的能力.鉴于协同 过滤的诸多优点,它已经成为信息推荐系统中应用 最广泛的一项技术,并且达到了非常不错的效果. 协同过滤的关键步骤是找到目标用户的最近邻 居,然而在计算对象之间相似度的过程中,数据稀疏 成为了最大的障碍因素,最终影响了推荐结果的准 确性.目前已经有了大量的研究工作致力于解决协 同过滤推荐系统中固有的数据稀疏性问题,我们的 项目.标签导向的随机游走推荐模型(TRWR)的其 中一个步骤——在项目空间中根据对象之间的转移 概率进行有限步长的随机游走——也是为了消减协 同过滤中用户.项目评分矩阵的稀疏性. 协同过滤算法只依赖于用户的历史评分行为,
息, 没有利用其他的特征信息,如用户的标签标注信项目的类别信息等.但是随着越来越多的网站提供 了社会化标注服务,允许用户自由,自主地给项目添 加标签,近年来利用标签信息对项目进行分类,检索 已经成为了一种流行方法,甚至在个性化信息推荐 系统中也越来越多地引入标签信息来更加准确地捕 捉用户的兴趣特征,从而达到更好的推荐效果.同 用户对于项目的评分信息一样,在整个标签空间中 用户的标注行为也存在很大的稀疏性,所以我们的 TRWR模型另外一个步骤——在标签空间中进行有 限步长的随机游走——就是为了消减用户-标签标 注矩阵的稀疏性.
为了既吸取协同过滤算法简单,有效的优点,又
引入其他的元数据来更好地捕捉用户的兴趣特征, ..——
290..——
我们提出了一种项目一标签导向的随机游走推荐模 型(TRWR),优化了信息推荐的结果.该模型的基 本思想就是针对特定用户分别在项目空间和标签空 间中根据对象之间的相似性计算转移概率,进行有 限步长的随机游走,在两个空间中都生成若干个待 推荐项目,然后重新计算预测评分,最后对该用户进 行个性化信息推荐.
2相关工作
鉴于协同过滤的诸多优点,它已经成为信息推 荐系统中应用最广泛并且比较成功的一项技术,目 前个性化信息推荐研究工作中的很大一部分也是为 了解决协同过滤中的数据稀疏性问题,冷启动问题 和可扩展性问题这三大缺点.
协同过滤方法可分为两种常见的类型.一种是 基于内容的协同过滤算法;另外一种就是基于模型 的协同过滤算法,该方法先在离线状态下用训练集 中的历史数据得到一个成熟的推荐模型,模型的建 立可以使用各种机器学习的方法,如贝叶斯网络,聚 类算法,人工神经网络,概率模型等,再用此模型来 高效快速地进行在线的个性化信息推荐一. 但是由于基于模型的算法训练过程代价太高且 灵活性差,所以现实的推荐系统中它的应用比较少, 大多数还是采用基于内容的协同过滤,此时数据的 稀疏性问题便成为了限制推荐性能的瓶颈之一. 文献[5]提出了一种RandomWalkRecom. mender(RWR)算法用来消减协同过滤中的稀疏性
问题,根据项目之间的相似度针对不同用户的初始 评分信息在项目空间中进行不同的随机游走过程. 通过目标用户的初始评分向量和到某一特定项目_『 的转移概率向量,我们便可以计算出在整个随机游 走的过程中,目标用户"选中系统中任一项目-『的 概率值,该值可以看作是用户u对于项目-『的喜好 值.重复进行这样的计算过程,最后便得到了一个 新的用户-项目评分矩阵,该矩阵可以用来进行项目
推荐.在未进行这样的随机游走过程之前,数据集MovieLens的初始用户.项目评分矩阵的稀疏度为 94.86%,而利用该模型得到的新的用户.项目评分 矩阵的稀疏度为0,有效解决了协同过滤中的稀疏 性问题.该模型的相关理论和推导过程等细节部分 将在3.1节进行详细论述.
协同过滤算法只依赖于用户的历史评分行为, 没有利用其他额外的特征数据.近年来越来越多地 基于项目和标签的随机游走个性化信息推荐模型 引入其他的用户信息或是项目信息来达到提升推荐 性能的目的,社会化标签数据就是一个研究热点,它 可以用来区分相似用户或是可以看作是项目的简短 描述信息...
文献[6]在一个基于内容的推荐系统中引入标 签数据,既基于项目的文本描述信息又基于标签标 注信息来对用户的兴趣特征进行学习.通过对30 个目标用户进行学习,进而分别进行个性化信息推 荐,结果证明当引入标签信息后推荐精度相较于单 纯的基于内容的系统有了提高.
文献[8]提出了一种具有很高参考价值的基于 标签的推荐算法(tagommenders),首先计算用户对
于各标签的喜好值,再通过标签喜好值计算用户对 于各未评分项目的预测评分.我们的论文也借鉴了 文献[8]中提出的这种tagommenders算法来计算用 户对于各标签的喜好值,即初始的用户-标签评分矩 阵,但是由于该矩阵存在很大的稀疏性,我们又在标 签空间中进行有限步长的随机游走来对该矩阵进行 填充.
3项目一标签导向的随机游走
模型(TRWR)
3.1RandomWalkRecommender(RWR)
由于本文的算法是对RandomWalkRecom— mender的改进,所以先介绍RWR模型的相关理论 和推导过程,然后引出我们的改进算法. RWR采用了一阶马尔可夫链模型,即用户u在 当前步骤下处于某一状态的概率只取决于该用户前 一
步骤的状态,用公式表示为
Pr(X+1=iIX)(1)
用I代表系统中的项目集,m是项目集的大小, 则可以建立一个具有m个节点的有向带权图,图中 的节点node代表项目i,边edge的权重P代表从 项目直接转移到项目的概率
P.
f=Pr(X.
+1=lX.
=i)(2)
根据公式(2)可以计算出一个mm阶的项目 转移概率矩阵P,矩阵中的每一列p代表从m个 项目到项目的转移概率向量.用U代表系统中的
用户集,n是用户集的大小,则根据所有用户的历史 评分信息可以建立一个nm阶的初始用户一项目 评分矩阵R,矩阵中的每一行代表用户u的评 分向量,每一个元素R代表用户对项目i的历史 评分数据,且三=Pr(X..=i).根据该用户一项目 评分矩阵我们便可以计算出用户"在第k步时处于 项目_『的转移概率
Pr(X=)=?Pr(X,=i)P(全概率公式)
=
?(递推公式)(3)
=OtR:?
式中,因子是用户在当前状态下继续下一步骤的 概率,用它来有效地控制随即游走的步长.文献 [5]通过实验验证,的值随着训练集比例的减小 而增大.
有了公式(3),我们便可以计算出用户u对于 项目_『的全局概率
?Pr(=.『)
Pr(X=-『)=———一
??Pr(=)
=c
?一?(4)一"一_J,
式中,C是常量,在实际的计算过程中可以不考虑在 内.根据公式(4)计算所有用户对于所有项目的全 局概率值便得到一个用户一项目排序矩阵天 =
?RP=RaP(I—P)(5)
该用户一项目排序矩阵能够反映出每一个目 标用户对每一个项目的感兴趣程度,可以用来进行
项目推荐,但是不能用来对项目评分进行预测,所以 算法的最后一个步骤便是对进行归一化处理.此 时得到的排序矩阵既可以用于推荐又可以用于对项 目评分进行预测.
整个RWR算法的流程
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
如下:
算法1RandomWalkRecommender(RWR)
1:SComputeSimilarityMatrix(R)
2:fori+_1tomdo
3:sum+一?s
4:forjtomdo
5:P卢Jsv./sum+(1一卢)/m
6:endfor
7:endfor
8:P+_tzP(,一P)
9:十一RP
10:PredictionsScale(R) 11:returnPredictions 一
29】一
情报第31卷第3期2012年3月
算法中的卢因子代表用户以卢的概率转移到与 其当前所在项目最相似的直接邻居项目,相应的,用 户以1一/3的概率随机跳转到任一对象,与项目之间 的相似度无关.
3.2项目-标签导向的随机游走模型(TRWR) 由于RWR模型的提出主要是为了消减协同过 滤当中的项目评分矩阵的稀疏性,所以它只在项目 空间中进行随机游走来达到目的,没有额外地考虑 系统中与用户兴趣相关的其他元数据.本文在此基
础上进行了改进,加入了用户标签,这样不但解决了 用户一项目评分矩阵的稀疏性问题,而且利用标签更 好地捕捉了用户的兴趣特征,优化了信息推荐的结 果.TRWR的基本思想就是分别在项目空间和标签 空间中根据对象之间的相似性进行有限步长的随机 游走,最后将两个空间中产生的推荐项目融合,并重 新计算评分,将前Top-N个具有最高预测评分的项 目推荐给目标用户.在标签空间中进行的随即游走 与在项目空间中的原理一致,但是由于系统中没有 用户对于标签的显式评分信息,所以TRWR算法的 关键步骤和困难之处在于建立初始的用户一标签评 分矩阵.我们可利用的信息只有用户对于项目的历 史评分,用公式(6)来模拟用户n对于标签t的初始 评分
):!!(6)
'?加(,)
式中,是用标签t标注过的项目集合,(i,f)代表 项目i和标签t的相关性权重,r?.
是用户"对项目i
的评分.若用户u对用标签t标注过的所有项目都没 有评分信息,则Mr(,t)=0
在计算(i,t)时我们像文献[8]那样引入标
签质量(i,t)来衡量项目i和标签t的相关性权重. 标签t对于项目m的标签质量幻(i,)意味着t对的 描述能力.例如,系统中有29部电影都被标注了 "kungfu"这个标签,但这个标签在电影i上被使用 了13次,在其他电影上均只被使用过一次,此时从 直观上理解,我们认为"kungfu"对于电影i的标签 质量要高于它对于其他电影的标签质量.此时项目
i和标签t的相关性权重定义为
,.,
1…(
,)
exD
)
'一f口t.JJ
而计算tq(i,)又有多种方法,Num-item-apps是现 实系统中应用最多而且性能较好的一种标签质量计 ..——
292..——
算法,m.它基于如下假设:对于一个特定的项目, 被越多用户使用的标签具有越高的标签质量值.此 时标签t对于项目i的标签质量可如下计算 幻(,t)=IappI(8)
式中,lapp"l代表标签t在项目i上的标注次数. 当根据公式(6),公式(7),公式(8)计算出初 始的用户一标签评分矩阵R后,我们便利用算法1 在标签空间中进行随机游走,生成用户一标签排序矩 阵.最后便是计算用户一项目预测评分矩阵,该矩阵 中的每一项
?sim(,f)?rank
;生—+一r
uEsire((9)r.=一Il')
式中,代表标注在项目i上的标签集合,-r是用户 "的平均项目评分值,rank是根据算法1计算出 的用户u对于标签t的排序值,sim(i,t)是项目i和 标签t的相似度,计算方法如下:
?(r一).(rank一rank)
sim(,t)=——=二兰三兰========================
./?(厂ro)??(rank一rank),,""ii (10)
式中,代表对项目i进行过评分的用户集合,r. 是用户u对项目i的评分值,rank是用户"的平 均标签排序值.
我们在实验中根据TRWR算法在项目空间和 标签空间中分别生成Top.N个待推荐项目,然后将 这2N个项目融合,并重新计算评分,最后将按照预 测评分重新排序后的前Top.N个项目推荐给目标用 户.用偶代表项目空间中产生的推荐项目集,豫 代表标签空间中产生的推荐项目集,和分 别代表在项目空间和标签空间中预测出的用户n对 于项目.『的评分,重新计算预测评分的方法如下 定义:
J?IR,J?TR
.『?IR,隹豫(11)
J?TR,J隹IR
整个TRWR算法的流程总结如下:
算法2项目.标签导向的随机游走模型
(TRWR)
1:利用算法1在项目空间中进行随机游走,对 目标用户u生成?个待推荐项目.
2:假设系统中共有k个不同的标签,m个不同 一一一2
基于项目和标签的随机游走个性化信息推荐模型 的项目,则根据公式(8)计算得到一个km 阶的标签质量矩阵TQ,该矩阵中的每一项 tq(i,)代表标签t对于项目i的标签质
量值.
3:根据公式(7)重新计算TQ矩阵中的每一项, 得到一个k阶的标签一项目权重矩阵w, 该矩阵中的每一项W(i,t)代表标签t和项 目i之间的相关性权重.
4:假设系统中共有n个不同的用户,则根据公 式(6),矩阵和初始的用户一项目评分矩阵 R计算得到一个nk阶的初始用户一标签评 分矩阵.
5:利用算法1在标签空间中进行随机游走,进 行到步骤9时便停止,得到一个nk阶的用 户一标签排序矩阵.
6:根据公式(10),初始的用户一项目评分矩阵R 和用户.标签排序矩阵计算得到一个nm 阶的预测评分矩阵,根据该矩阵对目标用户 u生成?个待推荐项目.
7:根据公式(11)重新计算这2N个待推荐项目 的预测评分,将前Top—N个具有最高预测评 分值的项目推荐给u.
3.3相似度计算方法的改进
从上述算法的描述中我们知道,无论是在项目 空间还是在标签空间中进行随即游走,都是根据对 象之间的转移概率,而转移概率的计算直接依赖于 项目或标签之间的相似度.目前应用最广泛的两种 相似度
计算公式
六西格玛计算公式下载结构力学静力计算公式下载重复性计算公式下载六西格玛计算公式下载年假计算公式
是Cosine和Pearsoncorrelation,它 们都是基于共同评分历史信息的.例如,我们要计 算两个项目或两个标签的相似性,Cosine表达式和
Pearsoncorrelation表达式分别如公式(12)和公式(13)所示:
,
"ir
uj
sim(i,):—=u二E~二'ij二=(12)
./?r?r2,,"?'iy"?'ij
式中,s是对i和-『都评分过的用户集合,r和r, 分别是用户"对i和_『的评分值.
?(r一一ru)(r一)
sim(,)=—竺兰二二二二二====二(13) '/?(rru)?(r一ru),,"E'E
式中,r是用户u的平均评分值.Cosine和Pearson correlation均只考虑了对象之间评分数值的差异性, 缺少了项目或标签之间共同评分用户的数量.如系 统中有两个项目i和_『,它们的评分相似度为0.78, 有150个共同评分用户;而项目i和k的评分相似 度虽达到了0.82,但却只有60个共同评分用户,这 时我们提出一个设想:i是否和更加相似?所以我 们把共同评分用户数量考虑在内,作为另一个相似 度的衡量
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
,用corr(i,_『)代表采用Cosine或 Pearsoncorrelation计算出的评分相似度,引出调整 后的公式(14)
1
m(,)rr(,)(14)
我们根据实验验证,当把共同评分用户数量引 入时能够更加准确地衡量出对象之间的相似程度. 4实验结果与分析
4.1语料来源和数据剪枝
本文采用MovieLens站点提供的公开数据集, 在实验过程中用到了其中的两个文件ratings.dat和 tag.dat.ratings.dat文件中包含6040个用户对于
3952部电影给出的共计1000209条匿名评分数 据;tag.dat文件中包含4009个用户对7601部电影 所标注的共计95580条标签信息.因为我们在实 验中既用到用户对于电影的评分信息,又用到用户 对于电影的标签信息,所以需要对tag.dat文件进行 预处理,取用户编号在前6040中或者电影编号在前 3952中的数据,这样处理后剩余48053条标签信 息.最后分5次随机抽取80%的数据作为训练集, 剩余20%的数据作为测试集进行了交叉验证. 4.2对比实验的描述
我们将实验结果与Top—N,DV这两种基本的 item.basedtop—N算法进行了比较;由于本文是对 RandomWalkRecommender(RWR)的改进,所以又 对比了RWR的实验结果.Top.N算法也是通过计 算每个用户对于每个项目的排序评分来进行个性化 信息推荐,而排序矩阵=RS,其中是初始的 用户一项目评分矩阵,Js是项目之间的相似度矩阵. DV算法是对Top—N的改进,用相应用户的平均评 分值对稀疏性很大的初始用户一项目评分矩阵进行 了填充.
4.3TRWR的实验结果对比与分析
我们在项目空间的基础上又引入了标签空间, --——
293?-——
情报第3l卷第3期2012年3月
同时采用性能较好的Pearsoncorrelation相似度计算 方法,将TRWR与Top—N,DV,RWR的实验结果进 行了对比,如图1,图2,图3所示,图中的横坐标是 推荐项目数.
从图1我们可以看到,尽管DV,RWR和TRWR 的Precision值会随着推荐项目数的增多而有所下 降,但都远远高于最基本的Top.N推荐算法.而且 当引入用户的标签特征进行随机游走以后,TRWR 的推荐结果精度较之RWR有了非常明显的提高. 图1也显示当推荐项目数大于50时,这四种推荐算 法的准确率在整体上会随着推荐项目数的增多呈单 调趋势,但是DV,RWR和TRWR的Precision值单 调递减,而Top.N的Precision值却在推荐项目数少 于100时呈单调递增趋势,此后基本保持不变.分 析原因,可能是因为较之DV,RWR和TRWR,Top.N 算法本身就更加依赖于前?个具有最高预测评分 的项目,所以推荐项目数对其的影响比较大.对于 DV,RWR和TRWR来说,由于已经经过了其他有益 于推荐性能的中间步骤的处理,所以推荐项目数的 增多会引入不相关的噪声信息,导致推荐精度有所 下降.
图1Precision值对比
图2显示,随着推荐项目数的增多,无论是Top- N,DV,RWR还是TRWR,Recall值都呈持续上升的 态势.而这四种推荐算法相比,TRWR的Recall值 依然最大.
O.5
0.45
0.4
O.35
O_3
0.25
0.2
O.15
O.1
O.1O
0
.,
/
r一/
/卢
?/.—一
/r厂
—
?
',,
5O1o0150200250300
+T0p_N
-
41--DV
—-异ff四
*豫f你
.-——
294.-——
图2RecaH值对比
除此之外,图3还对比了各种推荐算法的MAE 值.尽管根据Precision和Recall来度量时DV的性 能要远远优于Top-N,但是此时在这四种推荐算法 当中,DV的MAE值却最大,甚至大于基本的Top. N,这或许是因为DV算法在用户一项目评分矩阵中 非常武断地用每个用户的平均评分对其未评分项目 进行了初始化,导致预测结果出现了比较大的偏差. 与我们预想的结果一致,尽管TRWR算法无论是在
推荐结果的准确率还是在推荐结果的召回率上较之 其他三种算法都呈现出最佳性能,但是MAE值却仅 仅低于DV算法.这是因为当我们引入用户的标签 特征来对该用户的未评分项目进行预测时,用户对 标签并没有显式的评分信息,我们只能根据项目和 标签之间的相似度来估量评分,但是采用一般计算 项目之间相似度的方法来衡量一个项目和一个标签 之间的相似度时难免会出现较大偏差,所以导致预 测的MAE值提高,这也是我们在以后的工作中需要 解决的一个缺陷.
图3MAE值对比
4.4优化相似度计算方法后的实验结果对比与 分析
为了验证公式(13)的有效性,我们用其作为对 象之间的相似度计算方法,重新比较了Top.N,DV, RWR和TRWR的Precision,Recall,MAE,结果如图 4至图6所示.在此仅比较了当项目数为200时优 图4Precision对比
基于项目和标签的随机游走个性化信息推荐模型 图5Recall对比
图6MAE对比
化的相似度计算公式对各推荐算法的影响.我们也 观测了当推荐项目数为其他值时结果的变化,证实 了它们所反映出的规律与推荐项目数为200时 一
致.
从表中数据我们可以得知,当优化了相似度计 算方法后,除了DV算法,Top—N,RWR,TRWR的 Precision值和Recall值都有不同程度的提高,同时
MAE值下降.之所以优化的相似度计算方法对DV 算法没有影响,是因为我们在计算对象之间的相似 度之前就已经对初始的用户一项目评分矩阵进行了 填充,此时任意两个对象之间的共同评分用户数量 都为整个系统中的用户总数,所以共同评分用户数 量因子的引入不对推荐结果造成影响.
4.5值的变化对推荐结果的影响
文献[5]已经通过实验验证,0f的值随着训练 集比例的减小而增大.我们的训练集占全部数据集 的比例为0.8,图7用折线图形象地描绘出值的 变化对推荐结果的影响.
从图7中我们可以看到,尽管Precision值和 MAE值并不会随着值的变化有大的波动,但是 Recall值在=0.3时达到最大.所以本节之前的 所有实验结果都是在取0.3的前提下得到的. 4.6推荐项目数对TRWR性能的影响
尽管通过前面的实验结果数据我们得知当推荐 项目数大于50时,TRWR算法的Recall值会随着推 图7值的影响(此时的推稃项目数为200) 荐项目数的增多而显着上升,但是在实际的应用当 中推荐项目数却不宜过多,否则便失去了个性化信 息推荐的意义.当然,最佳推荐项目数要根据数据 集规模的大小而改变:当数据集较小时,推荐项目数 要减少;当数据集较大,可选项目较多时,推荐数量 相应也要增多,这样才能达到更好的推荐效果.在 这里,我们给出在MovieLens数据集下,当推荐项目 数小于50时TRWR算法性能的变化.
从图8和图9中我们可以看到,TRWR算法性 能的Recall值和MAE值随推荐项目数的逐渐增多
反应出来的趋势与前文中推荐项目数大于50时是 一
致的,但是Precision值的变化略有不同.当推荐 项目数小于30时,Precision随项目数的增多而增 大;当推荐项目数大于30时,Precision逐渐减小. 这是因为我们用的MovieLens数据集的规模较大, 当给用户推荐的电影数目过小时便达不到很好的推 荐效果.尽管通过图8和图10我们可以得知当推 荐项目数等于30时,Precision值达到最大,MAE值 图8Precision值变化
图9Recall值变化
情报第31卷第3期2012年3月
图10MAE值变化
也相对较小,然而此时的Recall值偏低,为此在实际 的应用当中,我们可以根据侧重点的不同取不同的 推荐项目数,从而在Precision,Recall和MAE中取 得一个较好的平衡.
5结束语
本文提出了一种新的随机游走模型TRWR.融 合了项目评分和标签信息这两种元数据进行个性化 信息推荐.实验结果证明,我们的这种方法无论是 在Recall值,MAE值和RMSE值上都有一定的改 善.总结起来本文有三个方面的贡献:?利用了 用户的标签标注信息,更加准确地捕捉到了目标的 兴趣特征,提高了个性化信息推荐的结果;?验证 了共同评分用户数量或共同标注用户数量对于对象 之间相似度衡量的正向影响;?能够通过用户的 标签标注信息预测出用户对于项目的评分值. 除此之外,本文的基于项目.标签的随机游走模
型也有一些不足和需要改进的地方:?过滤掉了
数据集中的时间戳因子,没有考虑用户的兴趣特征
可能会随着时间的变化而转移;?在衡量标签之
间的相似性时,只是通过评分值的差异性和共同标
注用户数量来计算,没有考虑标签之间的语义相似
性.这些不足也成为我们以后的工作方向,我们会
在本文的基础上继续探索,希望能够进一步提高个
性化信息推荐的结果.
参考文献
[1]KleinbergJ,SandlerM.ConvergentAlgorithm$forCella. ?——
296.——
borativeFiltering[C]//Proceedings0fthe4thACM ConferenceonElectronicCommerce
,NewYork,NY.
USA,2003:1.10.
[2]KleinbergJ,SandlerM.UsingMixtureM0de18forCella- borativeFiltering[C]//Proceedingsofthe36thAnnual ACMSymposiumonTheoryofComputing
,NewYork,
NY,USA,2004:569.578.
[3]AdomaviciusG,TuzhilinA.TowardtheNextGenerati0n ofRecommenderSystems:ASurvey0ftheState. of.the.An
andPossibleExtensions[J].IEEETransacti0ns0n KnowledgeandDataEngineering
,2005,17(6):734.749.
[4]BreeseJs,HeekermanD,KadieC.
Empirica1Analysisof
PredictiveAlgorithmsforCollaborativeFiltering[C]//
Proceedingsofthe14thConference0nUncertaintvin ArtificialIntelligence,Madison,USA,1998:43.52. [5]YildirimH,KrishnamoorthyMS.Arand0mwalkmethed foralleviatingthesparsityproblemincollab0 rative
filtering[C]//Proceedingsofthe4thACMConferenceon RecommenderSystems,Lausanne,Switzer1and,2008: 131—138.
[6]deGemmisM,L.psP,SemeraroG,
eta1.Integratingtag8
inasemanticcontent—basedrecommender[C]//Pmcee.
dingsofthe4thACMConferenceonRecommender Systems,Lausanne
,
Switzerland2008:163.170.
[7]ZhenY,LiWJ,YeungDY.Tagico:Taginf0珊edco11a.
borativefiltering[c]//Proceedingsofthe5thACM ConferenceonRecommenderSystems
,NewYork,NY,
USA,2009:69-76.
[8]SenS,VigJ,RiedlJ.Tagommenders:ConneetingUsersto ItemsthroughTags[C]//Proceedingsofthe18thIn,er.
nationalWorldWideWebConference,Madrid,Spain, 2009:671-680.
[9]SenS,VigJ,RiedlJ.Learningtorecognizevaluabletags [C]//Proceedingsofthe13thInternationa1c0nference onIntelligentUserInterfaces,NewYork,NY,USA,2009: 87_96.
[1o]LiuD,HuaXS,YangLJ,eta1.TagRanking[c]// Proceedingsofthe18thInternationalW0rldWideWeb
Conference,Madrid,Spain
.2009:351.360.
(责任编辑王建平)