基于项目和标签的随机游走个性化信息推荐模型

基于项目和标签的随机游走个性化信息推荐模型基于项目和标签的随机游走个性化信息推荐模型基于项目和标签的随机游走个性化信息推荐模型情报ISSN1000—0135 第31卷第3期289—296,2012年3月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDIlECHNICALINF0RMAT10NISSNlo0o一0135 Vo1.31No.3,289—296March2012 doi:10.3772/j.issn.1000-0135.2012.03.008 基于项目和标签的随机游走个性化信息推荐模型王丽...

基于项目和标签的随机游走个性化信息推荐模型基于项目和标签的随机游走个性化信息推荐模型情报ISSN1000—0135 第31卷第3期289—296,2012年3月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDIlECHNICALINF0RMAT10NISSNlo0o一0135 Vo1.31No.3,289—296March2012 doi:10.3772/j.issn.1000-0135.2012.03.008 基于项目和标签的随机游走个性化信息推荐模型王丽莎张绍武林鸿飞 (大连理工大学计算机科学与技术学院,大连116024) 摘要近几年,各大社会媒体都在致力于提供良好的信息推荐服务,应对网络资源的增长和用户的个性化需求,然而数据稀疏性问题成为了影响推荐性能的主要障碍因素之一.本文在随机游走(RWR)算法的基础上进行了改进,提出了一种项目一标签导向的随机游走推荐模型(TRWR),针对特定用户分别在项目空间和标签空间中根据对象之间的相似性计算转移概率,进行有限步长的随机游走,在两个空间中都生成若干个待推荐项目,然后重新计算预测评分,最后对该用户进行个性化信息推荐.在计算对象之间相似性的过程中,本文采用了融合评分差异性和共同评分用户数的相似度计算方法.我们的实验基于MovieLens公开数据集,并与Top—N,DV和RWR这三种项目导向方法进行了对比,结果表明本文提出的模型提高了Precision值和Recall值,并使得MAE值有所下降. 关键词个性化信息推荐数据稀疏随机游走 AnInformationRecommendationModelBasedonItemandTag RandomWalkModel WangLisha,ZhangShaowuandLinHongfei (SchoolofComputerScienceandTechnology,DalianUniversityofTechnology,Dalian116024) AbstractInrecentyears,informationrecommendationplaysamoreandmoreimportantroleinInternetservice. However,datasparsenesshasbecomeoneofmajorobstaclestotheperformanceofrecommendation.Thispaperproposesan algorithmnameditem?tag— basedrandomwalkrecommender(TRWR),whichisbasedontherandomwalkrecommender (RWR)algorithm.Theideainthispaperisasfollows:firstly,foratargetuser,itcalculatestransitionprobabilities betweenitemsandtagsseparately,thentakesfinitelengthrandomwalksintheitemspaceandthetagspaceinorderto generatesomerecommendeditems.Secondly,itrecalculatestheseitems'scores.Finally,itrecommendssomeitemstothe targetuser.Whencalculatingsimilaritiesbetweenitemsandtags,weintroducethenumberofsamescorers.Experiments onMovieLensdatasetshowthatTRWRalgorithmoutperformsthreeotheritem— orientedapproacheswhichareTop?N.DV andRWR,becauseitimprovesthePrecisionvalueandtheRecallvalue,atthesametimedecreasingtheMAEvalue. Keywordspersonalizedinformationrecommendation,sparseness,randomwalk 1引言随着网络应用的广泛普及和信息的自由传播, 充斥在各媒体社区网站的资源急遽增长,使得用户在获取丰富信息的同时也被大量无关信息"淹没". 在这样的背景下,个性化信息推荐服务应运而生,它旨在跟踪用户的历史信息,掌握用户的兴趣特征,从而主动向用户推送他们可能感兴趣的信息资源. 不同的推荐系统采取不同的推荐策略,但它们收稿Et期:2011年4月21Et 作者简介:王丽莎,女,硕士生,主要研究方向:个性化信息推荐.张绍武,男,副教授,主要研究方向:情感计算和文本挖掘.林鸿飞,男,博士,教授,博士生导师,主要研究方向:搜索引擎,文本挖掘和自然语言理解.E.mail:hflin@dlut.edu.cn. 1)基金项目:国家自然科学基金资助项目(编号:60673039,60973068);国家社科基金 (编号:08BTQ025);国家863高科技计划资助项目(编号:2006AA01Z151)和教育部博士点基金(编号:20090041110002). .-—— 289--—— 情报第31卷第3期2012年3月的基本方法都是通过跟踪用户的历史行为,用户的属性特征(如性别,年龄,职业等)或者项目信息,针对每一个目标用户进行不同的个性化推荐.目前为止已经涌现出了各种各样的推荐算法,但总体可分为两大类:基于内容(content—based,CB)的推荐算法和协同过滤(collaborativefiltering,CF)推荐算法. 但是由于基于内容的推荐算法存在诸多缺陷,如只能够处理文本信息,缺少向用户推荐新信息的能力等,如今已经很少有推荐系统采用这种算法了.协同过滤又称为合作过滤或社会过滤,它基于如下假设:如果一些用户对一些项目的评分较相似,则他们对其他项目的评分也比较相似,从而将具有相同爱好的用户感兴趣的项目推荐给目标用户. 与基于内容的推荐算法相比,协同过滤的优势在于:?能够处理非结构化的信息资源(如电影, 音乐等);?除了根据用户的项目评分信息外,还能够基于其他一些具有数值信息的概念进行过滤; ?具有向目标用户推荐新信息的能力.鉴于协同过滤的诸多优点,它已经成为信息推荐系统中应用最广泛的一项技术,并且达到了非常不错的效果. 协同过滤的关键步骤是找到目标用户的最近邻居,然而在计算对象之间相似度的过程中,数据稀疏成为了最大的障碍因素,最终影响了推荐结果的准确性.目前已经有了大量的研究工作致力于解决协同过滤推荐系统中固有的数据稀疏性问题,我们的项目.标签导向的随机游走推荐模型(TRWR)的其中一个步骤——在项目空间中根据对象之间的转移概率进行有限步长的随机游走——也是为了消减协同过滤中用户.项目评分矩阵的稀疏性. 协同过滤算法只依赖于用户的历史评分行为, 息, 没有利用其他的特征信息,如用户的标签标注信项目的类别信息等.但是随着越来越多的网站提供了社会化标注服务,允许用户自由,自主地给项目添加标签,近年来利用标签信息对项目进行分类,检索已经成为了一种流行方法,甚至在个性化信息推荐系统中也越来越多地引入标签信息来更加准确地捕捉用户的兴趣特征,从而达到更好的推荐效果.同用户对于项目的评分信息一样,在整个标签空间中用户的标注行为也存在很大的稀疏性,所以我们的 TRWR模型另外一个步骤——在标签空间中进行有限步长的随机游走——就是为了消减用户-标签标注矩阵的稀疏性. 为了既吸取协同过滤算法简单,有效的优点,又引入其他的元数据来更好地捕捉用户的兴趣特征, ..—— 290..—— 我们提出了一种项目一标签导向的随机游走推荐模型(TRWR),优化了信息推荐的结果.该模型的基本思想就是针对特定用户分别在项目空间和标签空间中根据对象之间的相似性计算转移概率,进行有限步长的随机游走,在两个空间中都生成若干个待推荐项目,然后重新计算预测评分,最后对该用户进行个性化信息推荐. 2相关工作鉴于协同过滤的诸多优点,它已经成为信息推荐系统中应用最广泛并且比较成功的一项技术,目前个性化信息推荐研究工作中的很大一部分也是为了解决协同过滤中的数据稀疏性问题,冷启动问题和可扩展性问题这三大缺点. 协同过滤方法可分为两种常见的类型.一种是基于内容的协同过滤算法;另外一种就是基于模型的协同过滤算法,该方法先在离线状态下用训练集中的历史数据得到一个成熟的推荐模型,模型的建立可以使用各种机器学习的方法,如贝叶斯网络,聚类算法,人工神经网络,概率模型等,再用此模型来高效快速地进行在线的个性化信息推荐一. 但是由于基于模型的算法训练过程代价太高且灵活性差,所以现实的推荐系统中它的应用比较少, 大多数还是采用基于内容的协同过滤,此时数据的稀疏性问题便成为了限制推荐性能的瓶颈之一. 文献[5]提出了一种RandomWalkRecom. mender(RWR)算法用来消减协同过滤中的稀疏性问题,根据项目之间的相似度针对不同用户的初始评分信息在项目空间中进行不同的随机游走过程. 通过目标用户的初始评分向量和到某一特定项目_『的转移概率向量,我们便可以计算出在整个随机游走的过程中,目标用户"选中系统中任一项目-『的概率值,该值可以看作是用户u对于项目-『的喜好值.重复进行这样的计算过程,最后便得到了一个新的用户-项目评分矩阵,该矩阵可以用来进行项目推荐.在未进行这样的随机游走过程之前,数据集MovieLens的初始用户.项目评分矩阵的稀疏度为 94.86%,而利用该模型得到的新的用户.项目评分矩阵的稀疏度为0,有效解决了协同过滤中的稀疏性问题.该模型的相关理论和推导过程等细节部分将在3.1节进行详细论述. 协同过滤算法只依赖于用户的历史评分行为, 没有利用其他额外的特征数据.近年来越来越多地基于项目和标签的随机游走个性化信息推荐模型引入其他的用户信息或是项目信息来达到提升推荐性能的目的,社会化标签数据就是一个研究热点,它可以用来区分相似用户或是可以看作是项目的简短描述信息... 文献[6]在一个基于内容的推荐系统中引入标签数据,既基于项目的文本描述信息又基于标签标注信息来对用户的兴趣特征进行学习.通过对30 个目标用户进行学习,进而分别进行个性化信息推荐,结果证明当引入标签信息后推荐精度相较于单纯的基于内容的系统有了提高. 文献[8]提出了一种具有很高参考价值的基于标签的推荐算法(tagommenders),首先计算用户对于各标签的喜好值,再通过标签喜好值计算用户对于各未评分项目的预测评分.我们的论文也借鉴了文献[8]中提出的这种tagommenders算法来计算用户对于各标签的喜好值,即初始的用户-标签评分矩阵,但是由于该矩阵存在很大的稀疏性,我们又在标签空间中进行有限步长的随机游走来对该矩阵进行填充. 3项目一标签导向的随机游走模型(TRWR) 3.1RandomWalkRecommender(RWR) 由于本文的算法是对RandomWalkRecom— mender的改进,所以先介绍RWR模型的相关理论和推导过程,然后引出我们的改进算法. RWR采用了一阶马尔可夫链模型,即用户u在当前步骤下处于某一状态的概率只取决于该用户前一步骤的状态,用公式表示为 Pr(X+1=iIX)(1) 用I代表系统中的项目集,m是项目集的大小, 则可以建立一个具有m个节点的有向带权图,图中的节点node代表项目i,边edge的权重P代表从项目直接转移到项目的概率 P. f=Pr(X. +1=lX. =i)(2) 根据公式(2)可以计算出一个mm阶的项目转移概率矩阵P,矩阵中的每一列p代表从m个项目到项目的转移概率向量.用U代表系统中的用户集,n是用户集的大小,则根据所有用户的历史评分信息可以建立一个nm阶的初始用户一项目评分矩阵R,矩阵中的每一行代表用户u的评分向量,每一个元素R代表用户对项目i的历史评分数据,且三=Pr(X..=i).根据该用户一项目评分矩阵我们便可以计算出用户"在第k步时处于项目_『的转移概率 Pr(X=)=?Pr(X,=i)P(全概率公式) = ?(递推公式)(3) =OtR:? 式中,因子是用户在当前状态下继续下一步骤的概率,用它来有效地控制随即游走的步长.文献 [5]通过实验验证,的值随着训练集比例的减小而增大. 有了公式(3),我们便可以计算出用户u对于项目_『的全局概率 ?Pr(=.『) Pr(X=-『)=———一 ??Pr(=) =c ?一?(4)一"一_J, 式中,C是常量,在实际的计算过程中可以不考虑在内.根据公式(4)计算所有用户对于所有项目的全局概率值便得到一个用户一项目排序矩阵天 = ?RP=RaP(I—P)(5) 该用户一项目排序矩阵能够反映出每一个目标用户对每一个项目的感兴趣程度,可以用来进行项目推荐,但是不能用来对项目评分进行预测,所以算法的最后一个步骤便是对进行归一化处理.此时得到的排序矩阵既可以用于推荐又可以用于对项目评分进行预测. 整个RWR算法的流程总结如下: 算法1RandomWalkRecommender(RWR) 1:SComputeSimilarityMatrix(R) 2:fori+_1tomdo 3:sum+一?s 4:forjtomdo 5:P卢Jsv./sum+(1一卢)/m 6:endfor 7:endfor 8:P+_tzP(,一P) 9:十一RP 10:PredictionsScale(R) 11:returnPredictions 一 29】一情报第31卷第3期2012年3月算法中的卢因子代表用户以卢的概率转移到与其当前所在项目最相似的直接邻居项目,相应的,用户以1一/3的概率随机跳转到任一对象,与项目之间的相似度无关. 3.2项目-标签导向的随机游走模型(TRWR) 由于RWR模型的提出主要是为了消减协同过滤当中的项目评分矩阵的稀疏性,所以它只在项目空间中进行随机游走来达到目的,没有额外地考虑系统中与用户兴趣相关的其他元数据.本文在此基础上进行了改进,加入了用户标签,这样不但解决了用户一项目评分矩阵的稀疏性问题,而且利用标签更好地捕捉了用户的兴趣特征,优化了信息推荐的结果.TRWR的基本思想就是分别在项目空间和标签空间中根据对象之间的相似性进行有限步长的随机游走,最后将两个空间中产生的推荐项目融合,并重新计算评分,将前Top-N个具有最高预测评分的项目推荐给目标用户.在标签空间中进行的随即游走与在项目空间中的原理一致,但是由于系统中没有用户对于标签的显式评分信息,所以TRWR算法的关键步骤和困难之处在于建立初始的用户一标签评分矩阵.我们可利用的信息只有用户对于项目的历史评分,用公式(6)来模拟用户n对于标签t的初始评分 ):!!(6) '?加(,) 式中,是用标签t标注过的项目集合,(i,f)代表项目i和标签t的相关性权重,r?. 是用户"对项目i 的评分.若用户u对用标签t标注过的所有项目都没有评分信息,则Mr(,t)=0 在计算(i,t)时我们像文献[8]那样引入标签质量(i,t)来衡量项目i和标签t的相关性权重. 标签t对于项目m的标签质量幻(i,)意味着t对的描述能力.例如,系统中有29部电影都被标注了 "kungfu"这个标签,但这个标签在电影i上被使用了13次,在其他电影上均只被使用过一次,此时从直观上理解,我们认为"kungfu"对于电影i的标签质量要高于它对于其他电影的标签质量.此时项目 i和标签t的相关性权重定义为 ,., 1…( ,) exD ) '一f口t.JJ 而计算tq(i,)又有多种方法,Num-item-apps是现实系统中应用最多而且性能较好的一种标签质量计 ..—— 292..—— 算法,m.它基于如下假设:对于一个特定的项目, 被越多用户使用的标签具有越高的标签质量值.此时标签t对于项目i的标签质量可如下计算幻(,t)=IappI(8) 式中,lapp"l代表标签t在项目i上的标注次数. 当根据公式(6),公式(7),公式(8)计算出初始的用户一标签评分矩阵R后,我们便利用算法1 在标签空间中进行随机游走,生成用户一标签排序矩阵.最后便是计算用户一项目预测评分矩阵,该矩阵中的每一项 ?sim(,f)?rank ;生—+一r uEsire((9)r.=一Il') 式中,代表标注在项目i上的标签集合,-r是用户 "的平均项目评分值,rank是根据算法1计算出的用户u对于标签t的排序值,sim(i,t)是项目i和标签t的相似度,计算方法如下: ?(r一).(rank一rank) sim(,t)=——=二兰三兰======================== ./?(厂ro)??(rank一rank),,""ii (10) 式中,代表对项目i进行过评分的用户集合,r. 是用户u对项目i的评分值,rank是用户"的平均标签排序值. 我们在实验中根据TRWR算法在项目空间和标签空间中分别生成Top.N个待推荐项目,然后将这2N个项目融合,并重新计算评分,最后将按照预测评分重新排序后的前Top.N个项目推荐给目标用户.用偶代表项目空间中产生的推荐项目集,豫代表标签空间中产生的推荐项目集,和分别代表在项目空间和标签空间中预测出的用户n对于项目.『的评分,重新计算预测评分的方法如下定义: J?IR,J?TR .『?IR,隹豫(11) J?TR,J隹IR 整个TRWR算法的流程总结如下: 算法2项目.标签导向的随机游走模型 (TRWR) 1:利用算法1在项目空间中进行随机游走,对目标用户u生成?个待推荐项目. 2:假设系统中共有k个不同的标签,m个不同一一一2 基于项目和标签的随机游走个性化信息推荐模型的项目,则根据公式(8)计算得到一个km 阶的标签质量矩阵TQ,该矩阵中的每一项 tq(i,)代表标签t对于项目i的标签质量值. 3:根据公式(7)重新计算TQ矩阵中的每一项, 得到一个k阶的标签一项目权重矩阵w, 该矩阵中的每一项W(i,t)代表标签t和项目i之间的相关性权重. 4:假设系统中共有n个不同的用户,则根据公式(6),矩阵和初始的用户一项目评分矩阵 R计算得到一个nk阶的初始用户一标签评分矩阵. 5:利用算法1在标签空间中进行随机游走,进行到步骤9时便停止,得到一个nk阶的用户一标签排序矩阵. 6:根据公式(10),初始的用户一项目评分矩阵R 和用户.标签排序矩阵计算得到一个nm 阶的预测评分矩阵,根据该矩阵对目标用户 u生成?个待推荐项目. 7:根据公式(11)重新计算这2N个待推荐项目的预测评分,将前Top—N个具有最高预测评分值的项目推荐给u. 3.3相似度计算方法的改进从上述算法的描述中我们知道,无论是在项目空间还是在标签空间中进行随即游走,都是根据对象之间的转移概率,而转移概率的计算直接依赖于项目或标签之间的相似度.目前应用最广泛的两种相似度计算公式是Cosine和Pearsoncorrelation,它们都是基于共同评分历史信息的.例如,我们要计算两个项目或两个标签的相似性,Cosine表达式和 Pearsoncorrelation表达式分别如公式(12)和公式(13)所示: , "ir uj sim(i,):—=u二E~二'ij二=(12) ./?r?r2,,"?'iy"?'ij 式中,s是对i和-『都评分过的用户集合,r和r, 分别是用户"对i和_『的评分值. ?(r一一ru)(r一) sim(,)=—竺兰二二二二二====二(13) '/?(rru)?(r一ru),,"E'E 式中,r是用户u的平均评分值.Cosine和Pearson correlation均只考虑了对象之间评分数值的差异性, 缺少了项目或标签之间共同评分用户的数量.如系统中有两个项目i和_『,它们的评分相似度为0.78, 有150个共同评分用户;而项目i和k的评分相似度虽达到了0.82,但却只有60个共同评分用户,这时我们提出一个设想:i是否和更加相似?所以我们把共同评分用户数量考虑在内,作为另一个相似度的衡量标准 ,用corr(i,_『)代表采用Cosine或 Pearsoncorrelation计算出的评分相似度,引出调整后的公式(14) 1 m(,)rr(,)(14) 我们根据实验验证,当把共同评分用户数量引入时能够更加准确地衡量出对象之间的相似程度. 4实验结果与分析 4.1语料来源和数据剪枝本文采用MovieLens站点提供的公开数据集, 在实验过程中用到了其中的两个文件ratings.dat和 tag.dat.ratings.dat文件中包含6040个用户对于 3952部电影给出的共计1000209条匿名评分数据;tag.dat文件中包含4009个用户对7601部电影所标注的共计95580条标签信息.因为我们在实验中既用到用户对于电影的评分信息,又用到用户对于电影的标签信息,所以需要对tag.dat文件进行预处理,取用户编号在前6040中或者电影编号在前 3952中的数据,这样处理后剩余48053条标签信息.最后分5次随机抽取80%的数据作为训练集, 剩余20%的数据作为测试集进行了交叉验证. 4.2对比实验的描述我们将实验结果与Top—N,DV这两种基本的 item.basedtop—N算法进行了比较;由于本文是对 RandomWalkRecommender(RWR)的改进,所以又对比了RWR的实验结果.Top.N算法也是通过计算每个用户对于每个项目的排序评分来进行个性化信息推荐,而排序矩阵=RS,其中是初始的用户一项目评分矩阵,Js是项目之间的相似度矩阵. DV算法是对Top—N的改进,用相应用户的平均评分值对稀疏性很大的初始用户一项目评分矩阵进行了填充. 4.3TRWR的实验结果对比与分析我们在项目空间的基础上又引入了标签空间, --—— 293?-—— 情报第3l卷第3期2012年3月同时采用性能较好的Pearsoncorrelation相似度计算方法,将TRWR与Top—N,DV,RWR的实验结果进行了对比,如图1,图2,图3所示,图中的横坐标是推荐项目数. 从图1我们可以看到,尽管DV,RWR和TRWR 的Precision值会随着推荐项目数的增多而有所下降,但都远远高于最基本的Top.N推荐算法.而且当引入用户的标签特征进行随机游走以后,TRWR 的推荐结果精度较之RWR有了非常明显的提高. 图1也显示当推荐项目数大于50时,这四种推荐算法的准确率在整体上会随着推荐项目数的增多呈单调趋势,但是DV,RWR和TRWR的Precision值单调递减,而Top.N的Precision值却在推荐项目数少于100时呈单调递增趋势,此后基本保持不变.分析原因,可能是因为较之DV,RWR和TRWR,Top.N 算法本身就更加依赖于前?个具有最高预测评分的项目,所以推荐项目数对其的影响比较大.对于 DV,RWR和TRWR来说,由于已经经过了其他有益于推荐性能的中间步骤的处理,所以推荐项目数的增多会引入不相关的噪声信息,导致推荐精度有所下降. 图1Precision值对比图2显示,随着推荐项目数的增多,无论是Top- N,DV,RWR还是TRWR,Recall值都呈持续上升的态势.而这四种推荐算法相比,TRWR的Recall值依然最大. O.5 0.45 0.4 O.35 O_3 0.25 0.2 O.15 O.1 O.1O 0 ., / r一/ /卢 ?/.—一 /r厂 — ? ',, 5O1o0150200250300 +T0p_N - 41--DV —-异ff四 *豫f你 .-—— 294.-—— 图2RecaH值对比除此之外,图3还对比了各种推荐算法的MAE 值.尽管根据Precision和Recall来度量时DV的性能要远远优于Top-N,但是此时在这四种推荐算法当中,DV的MAE值却最大,甚至大于基本的Top. N,这或许是因为DV算法在用户一项目评分矩阵中非常武断地用每个用户的平均评分对其未评分项目进行了初始化,导致预测结果出现了比较大的偏差. 与我们预想的结果一致,尽管TRWR算法无论是在推荐结果的准确率还是在推荐结果的召回率上较之其他三种算法都呈现出最佳性能,但是MAE值却仅仅低于DV算法.这是因为当我们引入用户的标签特征来对该用户的未评分项目进行预测时,用户对标签并没有显式的评分信息,我们只能根据项目和标签之间的相似度来估量评分,但是采用一般计算项目之间相似度的方法来衡量一个项目和一个标签之间的相似度时难免会出现较大偏差,所以导致预测的MAE值提高,这也是我们在以后的工作中需要解决的一个缺陷. 图3MAE值对比 4.4优化相似度计算方法后的实验结果对比与分析为了验证公式(13)的有效性,我们用其作为对象之间的相似度计算方法,重新比较了Top.N,DV, RWR和TRWR的Precision,Recall,MAE,结果如图 4至图6所示.在此仅比较了当项目数为200时优图4Precision对比基于项目和标签的随机游走个性化信息推荐模型图5Recall对比图6MAE对比化的相似度计算公式对各推荐算法的影响.我们也观测了当推荐项目数为其他值时结果的变化,证实了它们所反映出的规律与推荐项目数为200时一致. 从表中数据我们可以得知,当优化了相似度计算方法后,除了DV算法,Top—N,RWR,TRWR的 Precision值和Recall值都有不同程度的提高,同时 MAE值下降.之所以优化的相似度计算方法对DV 算法没有影响,是因为我们在计算对象之间的相似度之前就已经对初始的用户一项目评分矩阵进行了填充,此时任意两个对象之间的共同评分用户数量都为整个系统中的用户总数,所以共同评分用户数量因子的引入不对推荐结果造成影响. 4.5值的变化对推荐结果的影响文献[5]已经通过实验验证,0f的值随着训练集比例的减小而增大.我们的训练集占全部数据集的比例为0.8,图7用折线图形象地描绘出值的变化对推荐结果的影响. 从图7中我们可以看到,尽管Precision值和 MAE值并不会随着值的变化有大的波动,但是 Recall值在=0.3时达到最大.所以本节之前的所有实验结果都是在取0.3的前提下得到的. 4.6推荐项目数对TRWR性能的影响尽管通过前面的实验结果数据我们得知当推荐项目数大于50时,TRWR算法的Recall值会随着推图7值的影响(此时的推稃项目数为200) 荐项目数的增多而显着上升,但是在实际的应用当中推荐项目数却不宜过多,否则便失去了个性化信息推荐的意义.当然,最佳推荐项目数要根据数据集规模的大小而改变:当数据集较小时,推荐项目数要减少;当数据集较大,可选项目较多时,推荐数量相应也要增多,这样才能达到更好的推荐效果.在这里,我们给出在MovieLens数据集下,当推荐项目数小于50时TRWR算法性能的变化. 从图8和图9中我们可以看到,TRWR算法性能的Recall值和MAE值随推荐项目数的逐渐增多反应出来的趋势与前文中推荐项目数大于50时是一致的,但是Precision值的变化略有不同.当推荐项目数小于30时,Precision随项目数的增多而增大;当推荐项目数大于30时,Precision逐渐减小. 这是因为我们用的MovieLens数据集的规模较大, 当给用户推荐的电影数目过小时便达不到很好的推荐效果.尽管通过图8和图10我们可以得知当推荐项目数等于30时,Precision值达到最大,MAE值图8Precision值变化图9Recall值变化情报第31卷第3期2012年3月图10MAE值变化也相对较小,然而此时的Recall值偏低,为此在实际的应用当中,我们可以根据侧重点的不同取不同的推荐项目数,从而在Precision,Recall和MAE中取得一个较好的平衡. 5结束语本文提出了一种新的随机游走模型TRWR.融合了项目评分和标签信息这两种元数据进行个性化信息推荐.实验结果证明,我们的这种方法无论是在Recall值,MAE值和RMSE值上都有一定的改善.总结起来本文有三个方面的贡献:?利用了用户的标签标注信息,更加准确地捕捉到了目标的兴趣特征,提高了个性化信息推荐的结果;?验证了共同评分用户数量或共同标注用户数量对于对象之间相似度衡量的正向影响;?能够通过用户的标签标注信息预测出用户对于项目的评分值. 除此之外,本文的基于项目.标签的随机游走模型也有一些不足和需要改进的地方:?过滤掉了数据集中的时间戳因子,没有考虑用户的兴趣特征可能会随着时间的变化而转移;?在衡量标签之间的相似性时,只是通过评分值的差异性和共同标注用户数量来计算,没有考虑标签之间的语义相似性.这些不足也成为我们以后的工作方向,我们会在本文的基础上继续探索,希望能够进一步提高个性化信息推荐的结果. 参考文献 [1]KleinbergJ,SandlerM.ConvergentAlgorithm$forCella. ?—— 296.—— borativeFiltering[C]//Proceedings0fthe4thACM ConferenceonElectronicCommerce ,NewYork,NY. USA,2003:1.10. [2]KleinbergJ,SandlerM.UsingMixtureM0de18forCella- borativeFiltering[C]//Proceedingsofthe36thAnnual ACMSymposiumonTheoryofComputing ,NewYork, NY,USA,2004:569.578. [3]AdomaviciusG,TuzhilinA.TowardtheNextGenerati0n ofRecommenderSystems:ASurvey0ftheState. of.the.An andPossibleExtensions[J].IEEETransacti0ns0n KnowledgeandDataEngineering ,2005,17(6):734.749. [4]BreeseJs,HeekermanD,KadieC. Empirica1Analysisof PredictiveAlgorithmsforCollaborativeFiltering[C]// Proceedingsofthe14thConference0nUncertaintvin ArtificialIntelligence,Madison,USA,1998:43.52. [5]YildirimH,KrishnamoorthyMS.Arand0mwalkmethed foralleviatingthesparsityproblemincollab0 rative filtering[C]//Proceedingsofthe4thACMConferenceon RecommenderSystems,Lausanne,Switzer1and,2008: 131—138. [6]deGemmisM,L.psP,SemeraroG, eta1.Integratingtag8 inasemanticcontent—basedrecommender[C]//Pmcee. dingsofthe4thACMConferenceonRecommender Systems,Lausanne , Switzerland2008:163.170. [7]ZhenY,LiWJ,YeungDY.Tagico:Taginf0珊edco11a. borativefiltering[c]//Proceedingsofthe5thACM ConferenceonRecommenderSystems ,NewYork,NY, USA,2009:69-76. [8]SenS,VigJ,RiedlJ.Tagommenders:ConneetingUsersto ItemsthroughTags[C]//Proceedingsofthe18thIn,er. nationalWorldWideWebConference,Madrid,Spain, 2009:671-680. [9]SenS,VigJ,RiedlJ.Learningtorecognizevaluabletags [C]//Proceedingsofthe13thInternationa1c0nference onIntelligentUserInterfaces,NewYork,NY,USA,2009: 87_96. [1o]LiuD,HuaXS,YangLJ,eta1.TagRanking[c]// Proceedingsofthe18thInternationalW0rldWideWeb Conference,Madrid,Spain .2009:351.360. (责任编辑王建平)

                    本文档为【基于项目和标签的随机游走个性化信息推荐模型】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于项目和标签的随机游走个性化信息推荐模型

你可能还喜欢