39
学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询
来源:职称驿站所属分类:新闻传播论文 发布时间:2021-02-07浏览:24次
摘 要:[目的/意义]全面把握和理解用户兴趣偏好,准确为用户推荐相近兴趣领域的微博,是提升用户对微博平台依赖程度的关键。针对当前微博推荐方法存在的用户兴趣漂移、用户间信任关系利用不充分等导致的推荐质量不高的问题,提出了基于主题和多重信任关系的微博个性化推荐方法。[方法/过程]首先,利用HDP主题模型进行目标用户及其关注用户的主题挖掘,获取目标用户及其关注用户个体兴趣偏好;其次,通过计算目标用户及其关注用户的相似度和多重信任关系强度,获取目标用户群体兴趣偏好;第三,通过将目标用户个体兴趣偏好与群体兴趣偏好进行线性加权,得到目标用户对微博主题的综合兴趣度;最后,根据新发布微博的主题概率分布和目标用户对微博主题的综合兴趣度,计算目标用户对新微博的兴趣度并降序排列,得到前Top-N个推荐结果。[结果/结论]实验结果表明,该方法优于传统的推荐方法,充分利用了用户间的信任关系,能够有效解决用户兴趣漂移问题,提高了微博推荐的精准性和质量。
关键词:微博推荐;多重信任关系;HDP主题挖掘
DOI:10.3969/j.issn.1008-0821.2021.02.001
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2021)02-0003-07
《新媒体研究》以马列主义、毛泽东思想、邓小平理论和“三个代表”重要思想为指导,全面贯彻党的教育方针和“双百方针”,理论联系实际,开展教育科学研究和学科基础理论研究,交流科技成果,促进学院教学、科研工作的发展,为教育改革和社会主义现代化建设做出贡献。
Abstract:[Purpose/Significance]To fully grasp and understand users' interests preferences,and to accurately recommend microblogs of similar interests to users,is the key to improve users' dependence on the microblog platform.In order to solve the problems of low quality of the current microblog recommendation methods,such as user interest drift and insufficient use of trust relationship among users,a personalized recommendation method based on topic and multiple trust relationship is proposed.[Methods/Process]First of all,this paper used HDP subject model to mine the subjects of the target users and their concerned users,and obtained the interests preferences of the target users and their concerned users.Secondly,by calculating the similarity and multiple trust relationship strength of the target users and their concerned users,the interests preferences of the target users was obtained.Thirdly,the target users' individual interest and group interest were weighted linearly to get the target users' comprehensive interest.Finally,according to thedistribution probabilityof the newly-published topics and the comprehensive interest degree of the target users,the interest degree of the target users was calculated and ranked in descending order,and the first Top-N recommended results were obtained.[Results/Conclusions]Experimental results showed that the method was superior to the traditional one,fully utilized the trust relationship between users,could effectively solve the problem of user interest drift,and improve the accuracy and quality of recommendation.
Key words:microblog recommendation;multiple trust relationship;topic mining
Web2.0技術的日趋成熟与快速发展,推动着全球互联网进入网络交互时代。微博作为Web2.0时代的典型代表,它的发展和应用给互联网信息传播和社会生产生活方式带来巨大的影响,逐渐成为社会信息共享和情感表达的交流互动平台。用户可以通过微博平台获取海量实时信息,满足信息需求,同时可以拓展社交网络,扩大人际交往范围,建立新的社会关系[1]。根据2019年3月15日微博数据中心发布的《2018微博用户发展报告》显示,截至2018年12月,微博月活跃用户已达4.62亿,日活跃用户增至2亿[2]。随着微博用户和微博信息爆炸性增长,少量有用关键信息淹没在海量信息海洋中,信息过载和知识缺乏现象越加突出,用户在海量微博信息中找到自己感兴趣的内容变得越发困难。如何在海量微博信息中为用户推荐高质量的信息内容,降低用户获取有用信息的成本,解决“信息迷航”问题,满足用户个性化信息需求,提高信息消费和利用效率,成为当前微博平台运营管理面临的首要问题。
推荐系统作为缓解“信息迷航”的有效手段,目前已被广泛应用于各商业网络及互联网相关领域[3]。实现个性化推荐,准确把握和理解用户兴趣偏好或需求是关键[4]。概率主题模型能够从海量文档中挖掘隐藏的主题结构,将文档从高维的词向量空间映射到低维的主题向量空间,因此,利用概率主题模型进行微博主题挖掘,获取用户兴趣偏好,进而推荐与用户兴趣偏好最为相似的微博集合,是目前常用的微博个性化推荐方法,如Ramage D等[5]利用WordNet、Wikipedia等外部知识库进行微博语义扩充,利用LDA主题模型进行用户兴趣偏好主题建模,实现用户兴趣偏好的语义表达;Alkhodair S A等[6]利用LDA主题模型进行Twitter的主题兴趣挖掘,利用WordNet、Twitter-LDA进行主题兴趣的特征词扩充,实现了用户兴趣偏好的准确表达;崔金栋等[7]提出的基于LDA主题模型的微博信息推荐方法,利用大数据技术进行海量微博文本的预处理,提高了微博信息推荐的查全率和查准率。王涵等[8]提出结合LDA主题模型和列表排序的协同过滤方法,利用LDA主题模型进行用户—项目评分矩阵建模,实现用户兴趣偏好的表达。利用LDA主题模型进行用户兴趣偏好主题挖掘,需要预先设置生成主题K值,K值的设置具有很大的随机性和主观性,影响了最终生成主题的质量。同时,微博内容形式多样,随意性和碎片化严重,仅利用LDA主题模型进行用户兴趣偏好挖掘难以解决用户兴趣偏好漂移问题,主要不足在于深层次的用户兴趣偏好难以被表达。
事实上,依据社会学中的同质理论,社会化环境下微博用户的兴趣偏好更易受到其信任的社交好友的影响[9]。除了利用LDA主题模型进行微博用户兴趣偏好主题挖掘外,用户间通过社交行为形成的信任关系更能体现出用户的兴趣偏好特征,是衡量用户兴趣偏好或需求的重要内容。现有的基于信任关系的微博推荐方法,如SocialMF[10]、RSTE[11]等,大都将用户间信任关系视为单一、同质的关系,简单地利用用户间的关注/被关注關系进行信任强度计算,较少考虑用户间信任强度的差异和潜在影响,致使推荐效果很不理想。针对上述问题,本文在深入研究微博主题特征和用户间社交行为的基础上,将概率主题模型、用户间信任关系与微博个性化推荐方法相结合,提出了基于主题和多重信任关系的微博个性化推荐方法。首先,利用HDP主题模型进行目标用户及其关注用户的主题挖掘,得到目标用户及其关注用户的兴趣偏好主题概率分布,实现目标用户及其关注用户的个体兴趣偏好表达;其次,通过计算目标用户及其关注用户的相似度和多重信任关系强度,得到目标用户感兴趣的群体用户,实现目标用户群体兴趣偏好的表达;第三,通过将目标用户的个体兴趣偏好与群体兴趣偏好进行线性加权,得到目标用户对微博主题的综合兴趣度,解决用户兴趣偏移问题;最后,根据新发布微博的主题概率分布和目标用户对微博主题的综合兴趣度,计算目标用户对新微博的兴趣度并降序排列,得到排序前Top-N个推荐结果。
1 基于主题和多重信任关系的微博推荐方法
基于主题和多重信任关系的微博推荐方法(Microblog Recommendation Method Based on Topic and Multiple Trust Relationship,MR-TMTR)总体架构如图1所示,主要包括4个模块:主题挖掘模块、多重信任关系计算模块、加权主题兴趣度计算模块、微博个性化推荐模块。
1.1 主题挖掘模块
主题挖掘模块的主要功能是利用HDP(Hierarchical Dirichlet Processes,分层狄利克雷过程)主题模型进行目标用户U及其关注用户V的微博主题挖掘,得到目标用户U及其关注用户V的主题概率分布,实现目标用户U及其关注用户V的个体兴趣偏好表达。由于利用LDA主题模型进行微博主题挖掘时,需要预先设置生成主题的K值,随机性和主观性较大,影响了最终生成主题的质量;同时,利用Dirichlet分布进行LDA主题采样,前提是各生成主题间是相互独立的,使得主题间的相关性得不到有效表达。HDP主题模型是一种在DP(Dirichlet Processes,狄利克雷过程)的基础上,使用Stick-breaking、Polya Ura或Chinese Restaurant Process构造狄利克雷过程的主题生成模型,主要特点是可以通过自动学习主题数目,挖掘文档内部深层次的语义信息,得到文档—主题—特征三层模型,无需预先设置生成主题K值,提高了最后生成主题的质量;同时,通过趋于无限的概率计算进行主题混合,能够根据不同的混合比例进行新的DP生成和新生主题共享,使得主题间的相关性得到表达[12]。因此,选择HDP主题模型进行微博用户主题挖掘,图2给出了利用HDP主题模型生成用户主题分布向量的图模型,表1对HDP图模型中的符号进行了说明。利用HDP主题模型进行微博主题挖掘的实现过程,主要分为4步:
Step1:初始化微博主题分布向量θk,利用Stick-breaking构造方法进行HDP模型采样,抽样生成微
博主题在语料库层的分布率Gk,采样方法为:
Step2:随机选取任意微博文本m,利用Multinomial分布函数进行微博主题的抽样生成,即Sm,i~Multinomial(σ(G));再利用Beta(α)分布函数进行微博文本Stick-breaking概率的抽样生成,即Gk~Beta(1,γ)。
Step3:针对微博文本m中的任意词n进行主题分配,即Tm,n~Multinomial(σ(Dm,i),在此基础上进行词wm,n的抽样生成,即wm,n~Multinomial(θm,Tm,n。
Step4:借助变分推断方法[13]进行真实后验概率分布的近似计算,得到目标用户U及其关注用户V的主题概率分布。
1.2 多重信任关系计算模块
多重信任关系计算模块的主要功能是根据目标用户U及其关注用户V的社交行为,从关注关系、共同关注关系、共同评论关系、共同转发关系等多重维度进行用户间信任关系强度计算,线性加权得到目标用户U对其关注用户V的综合信任关系强度,解决目前用户信任计算简单地利用用户间的关注/被关注关系。该过程主要分为5步:
Step1:计算目标用户U对其关注用户V的关注关系信任强度。在微博平台中,用户间的关注/被关注关系是微博信息传播的主要途径,用户转发或收到的微博信息主要来自于其关注的好友,是一种显式直接的信任关系[14]。假设用户U关注了用户V、w1、w2、w3,说明用户U可能与用户V、w1、w2、w3的兴趣偏好相似,用户V、w1、w2、w3可能会对用户U的兴趣偏好产生积极影响。相对于用户w1、w2、w3,如果用户U之前多次评论或转发过用户V的微博,则说明用户U和用户V的兴趣偏好更相似,它们之间的信任关系强度也越大。因此,目标用户U对其关注用户V的关注关系信任强度计算方法可定义为:
其中,Nuv表示目标用户U评论或转发其关注用户V的微博总次数,Nu表示目标用户U评论或转发的微博总次数。
Step2:计算目标用户U对其关注用户V的共同关注关系信任强度。假设用户U关注了用户V、w1、w2、w3,用户V关注了用户w2、w4、w5,则用户U和用户V共同关注了用户w2,这种用户U与其关注用户V都共同关注了1个或多个其他用户的情况,称他们之间构成共同关注关系,即粉丝关系。由于微博平台中具有相似兴趣偏好的用户更容易形成粉丝关系,且用户间共同关注的用户越多,他们之间的兴趣偏好越相似,因此,目标用户U对其关注用户V的共同关注关系信任强度计算方法可定义为:
其中,Followees(U)表示目标用户U的所有关注好友列表。
Step3:计算目标用户U对其关注用户V的共同评论关系信任强度。在微博平台上,用户可以對任意用户发表的微博进行评论,多个用户经常评论相同的微博,表明这些用户之间存在相似的兴趣偏好。假设目标用户U评论了用户w6、w7、w8、w9的微博,用户V评论了w6、w7、w10的微博,则表明目标用户U与其关注用户V构成了隐式共同评论关系,且共同评论的微博越多,他们之间的兴趣偏好越相似,隐式信任关系强度也越大。因此,目标用户U对其关注用户V的共同评论关系信任强度计算方法可定义为:
其中,Comments(U)表示目标用户U评论过的所有微博列表。
Step4:计算目标用户U对其关注用户V的共同转发关系信任强度。在微博平台上,用户可以对任意用户发表的微博进行转发,多个用户经常转发相同的微博,表明这些用户之间存在相似的兴趣偏好。假设目标用户U转发了用户w11、w12、w13、w14的微博,用户V转发了w11、w14、w15的微博,则表明目标用户U与其关注用户V构成了共同转发关系,且共同转发的微博越多,他们之间的兴趣偏好越相似,信任关系强度也越大。因此,目标用户U对其关注用户V的共同转发关系信任强度计算方法可定义为:
T4UV=Retweets(U)∩Retweets(V)Retweets(U)∪Retweets(V)(5)
其中,Retweets(U)表示目标用户U转发过的所有微博列表。
Step5:计算目标用户U对其关注用户V的综合信任关系强度。根据Step1~Step4的计算结果,线性加权得到目标用户U对其关注用户V的综合
信任关系强度:
1.3 加权主题兴趣度计算模块
加权主题兴趣度计算模块的主要功能是:首先,利用KL(Kullback-Leibler,KL)距离函数[15]进行目标用户U与其关注用户V的主题相似度计算,得到目标用户U和用户V的主题相似度;其次,结合目标用户U对其关注用户V的综合信任关系强度,线性加权得到目标用户U对其关注用户V的兴趣度并降序排列,选取排名靠前的Top-N个关注用户构成目标用户U的兴趣群体,得到目标用户U对微博主题的群体兴趣分布;最后,将目标用户U的个体兴趣偏好和群体兴趣偏好进行线性加权,得到目标用户U对微博主题的综合主题兴趣度。该过程主要分为3步:
Step1:目标用户U与其关注用户V的主题相似度计算。假设利用HDP主题模型得到的目标用户U及其关注用户V的主题概率分布向量分别是UIt、VIt,微博主题集合T={t1,t2,…,tk},则利用KL距离函数得到的目标用户U和用户V的主题相似度为:
Step2:计算目标用户U对微博主题的群体兴趣分布。首先,根据目标用户U与其关注用户V的主题相似度sim(UIt,VIt)、目标用户U对其关注用户V的多重信任关系强度TUV,线性加权得到目标用户U对其关注用户V的兴趣度:
其中,φ表示权重系数。将R(U,P)的计算结果降序排序,选取靠前的Top-N个关注用户构成目标用户U的兴趣群体Q,计算目标用户U对微博主题的群体兴趣分布:
其中,PIt表示兴趣群体Q中任意用户P的主题概念概率分布。
Step3:计算目标用户U对微博主题的综合主题兴趣度。线性加权目标用户U的个体兴趣偏好UIt和群体兴趣偏好UQt,得到目标用户U对微博主题的综合主题兴趣度:
其中,τ表示权重系数。
1.4 微博个性化推荐模块
假设时间窗口内目标用户U的关注用户发布的新微博集合表示为Znew,利用HDP主题模型对每条新微博znew进行主题挖掘,得到新微博的主题概率分布zIt,计算目标用户U对新微博的主题兴趣度:
其中,T表示目标用户U感兴趣的主题集合。将DI(U,znew计算结果降序排序,并将排名靠前的Top-N个微博推荐给目标用户U。
参考文献
[1]李吉,黄微,郭苏琳.一种基于相似度和信任度融合的微博内容推荐方法[J].图书情报工作,2018,62(11):112-119.
[2]微博数据中心.2018年微博用户发展报告[EB/OL].http://www.useit.com.cn,2019-06-30.
[3]Winlaw M,Hynes M B,Caterini A,et al.Algorithmic Acceleration of Parallel ALS for Collaborative Filtering:Speeding Up Distributed Big Data Recommendation in Spark[C]//Proceedings of the 2015 IEEE 21st International Conference on Parallel and Distributed Systems,Piscataway,NJ:IEEE,2015:682-691.
[4]Kim Y,Shim K.Twitobi:A Recommendation System for Twitter Using Probabilistic Modeling[C]//IEEE International Conference on Data Mining,Piscataway:IEEE Computer Society,2011:340-349.
[5]Ramage D,Dumais S T,Liebing D J.Characterizing Microblogs with Topic Models[C]//Proceedings of the AAAI Conference on Weblogs and Social Media,Washington:AAAI Press,2010:130-137.
[6]Alkhodair S A,Fung Benjamin C M,Rahman O,et al.Improving Interpretations of Topic Modeling in Microblogs[J].Association for Information Science and Technology,2017,69(4):528-540.
[7]崔金栋,杜文强,关杨.基于大数据与LDA融合的微博信息推荐方法研究[J].情报科学,2018,36(9):27-31,76.
[8]王涵,夏鸿斌.LDA模型和列表排序混合的协同过滤推荐算法[J].计算机科学,2019,44(9):216-222.
[9]王磊,任航,龚凯.基于多维信任和联合矩阵分解的社会化推荐方法[J].计算机应用,2019,39(5):1269-1274.
[10]Jamali M,Ester M.A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks[C]//Proceedings of the 4th ACM Conference on Recommender Systems,New York:ACM,2010:135-142.
[11]Ma H,King I,Lyu M R.Learning to Recommend with Social Trust Ensemble[C]//Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval,New York:ACM,2009:203-210.
[12]颜端武,陶志恒,李兰彬.一种基于HDP模型的主题文献自动推荐方法及应用研究[J].情报理论与实践,2016,39(1):128-132.
[13]Abramson N,Braverman D,Sebestyen G.Pattern Recognition and Machine Learning[J].IEEE Trans.on Information Theory,2003,9(4):257-261.
[14]张仰森,郑佳,唐安杰.基于多特征融合的微博用户权威度定量评价方法[J].电子学报,2017,45(11):2800-2809.
[15]Blei D M.Probabilistic Topic Models[J].Communications of the ACM,2012,55(4):77-84.
[16]Chaney A J B,Blei D M,EliassiRed T.A Probabilistic Model for Using Social Networks in Personalized Item Recommendation[C]//Proceedings of the 9th ACM Conference on Recommender Systems,New York:ACM,2015:43-50.
《基于主题和多重信任关系的微博推荐方法研究》
本文由职称驿站首发,您身边的高端学术顾问
文章名称: 基于主题和多重信任关系的微博推荐方法研究
扫码关注公众号
微信扫码加好友
职称驿站 www.zhichengyz.com 版权所有 仿冒必究 冀ICP备16002873号-3