欢迎访问一起赢论文辅导网
SCI期刊论文
当前位置:首页 > SCI期刊论文
基于用户评论的深度情感分析和多视图协同融合的混合推荐方法
来源:一起赢论文网     日期:2020-02-03     浏览数:41     【 字体:

 users express their preferences as scalar ratings on items.Content-based recommender methodsrely instead on the content representations of items to locate items that have similar content toitems the target user liked.However,these methods are still inadequate and its recommendationeffect is limited,especially when the target user has little historical data.At present,it is a recentdevelopment trend to do personalized recommendation through fusing multi-view of interestpreferences to build the hybrid recommendation model,which usually makes personalized recom-mendation with user-item interaction ratings,implicit feedback and auxiliary information in hybridrecommendation system.In this paper,a novel hybrid recommendation algorithm is proposedthat based on deep sentiment analysis of user reviews and multi-view collaborative fusion.Forthese problems that it is difficult to analyze user reviews’sentiment and items content’semantics,and a single view of the recommended model lead to user profile is extensive,we use Word2vec tocharacterize the short texts of user reviews and combine long short-term memory networks torealize the sentiment analysis of the user review on the context semantic level.At the same time,a sentiment fusion method based on opinion pre-filtering and user rating embedding is proposed,and an embedded network structure is designed for deep semantic analysis and sentiment calculationof user’s review.The proposed method will solve the problem that there is a great deviationbetween the user’s rating and real interest preference,and also solve the extreme imbalanceproblem of the user rating distribution.In addition,we use the distributed vector representationof paragraph to characterize the short text of the item’s text description,so as to realize thesimilarity calculation of the item’s content.We design a method to measure the similarity ofcandidate items and calculate K nearest neighbor items,which solves the problem that the item’scontent information is not easy to mine and use in recommendation system.Finally,a fusionmethod of recommendation view based on collaborative training is proposed,which integratesuser ratings,sentiment preferences and item’s content information.It can fill and modify thesparse user ratings matrix,and then realize recommendation based on ratings prediction.It solvesthe problem that multi-recommendation views with different interests and preferences are difficultto fuse in hybrid recommendation system,and solves the problem of lack of sufficient labeled datafor modeling in a certain degree.We conduct the experiments on Amazon product dataset,andcompare our algorithm with a variety of classic and state-of-the-art recommendation algorithms.Specially,the results are evaluated in Mean Squared Error,Hit Radio,and Normalized DiscountedCumulative Gain.The experiment result shows that the algorithm proposed in this paper has asignificant effect in mining user’s sentiment.On the ten recommended datasets,our algorithmhas also a significant improvement in the accuracy of the score prediction and TopNperformanceof the recommendation system in different degrees.Keywords hybrid recommendation;distributed representation;sentiment analysis;collaborativetraining;scoring matrix1 引 言随着电子商务和社交网络等信息技术的迅速发展,“信息超载”成为困扰人们网络生活的主旋律.个性化推荐作为一种帮助用户快速搜寻有用信息的有效工具,越来越受到人们的青睐.伴随而来的,各种推荐算法如雨后春笋般出现.纵观推荐算法的发展历程,协同过滤和隐语义模型[1]是推荐系统发展早期较流行的算法,其在过去十多年间得到了长足发展.鉴于深度学习技术在人工智能诸多应用中取得的显著成效,基于深度学习的推荐模型也逐渐成为研究者追逐的焦点[2-3].目前,用户评分矩阵(RatingMatrix)仍然是大多数推荐系统利用的主要行为偏6期 张宜浩等:基于用户评论的深度情感分析和多视图协同融合的混合推荐方法3171息[4],但基于用户评论[5]、用户隐式反馈[6]、物品内容信息[7]的推荐越来越受到人们的关注,然而受文本挖掘、用户行为分析等方面的制约,这些方面研究取得的进展并不十分令人满意,但它们在解决推荐系统的推荐准确性、冷启动、可解释性等方面具有重要的潜力.在推荐算法的发展历程中,一种传统的为研究者推崇的是协同过滤算法,其目标是将用户和物品间的二元关系转化为评分预测问题,然后依据用户对物品的评分进行协同过滤或排序[8],进而产生推荐列表.随后大量的研究工作发现,由于受用户评分真实性的制约以及评分矩阵稀疏性的影响,依据用户评分产生的推荐结果并不能准确地体现用户的兴趣偏好[8-9].基于此,研究者们做了大量的后续工作.Zhang等人[10]通过比较用户评分和评论文本的情感倾向,指出用户评分并不能真实反映用户评论的情感倾向.扈中凯等人[5]对用户评分进行统计分析,发现用户对物品的评分比较随意、且评分等级分布极度不均衡(如图1中的统计数据[5],评分等级为5分的占96.2%,评分等级为4分的占3.5%,评分等级为1~3分的仅占0.3%).同时,本文对实验中来自亚马逊1995年至2013年的 Automotive等10个数据集的4 120 948条用户评论数据进行统计分析,得出类似的结论,即用户的评分等级分布极度不均(评图 1 用户评分等级分布图分等级为1~5分的分别占比4.8%、4.4%、9.0%、21.7%、60.1%).研究表明,这种评分分布极度不均衡的状况给协同过滤推荐造成了极大的困扰.陈龙等人[11]对用户评论的情感倾向进行分析,发现商品评论的评分是一种弱标注标签,即评论中可能存在实际情感语义与评分不一致的情况(如一条5星级的评分对应的评论中仍然存在负面描述).这种情感语义与评分不相符的标注数据称为噪声数据.研究表明这种噪声数据会对协同过滤的推荐结果产生较大的负面影响.在基于内容的推荐方面,物品内容的描述文本信息是一个重要的推荐依据.基于内容的推荐能有效解决系统的冷启动问题[12],且不受打分稀疏性的约束,能够发掘隐藏的“暗信息”,具有良好的用户体验,因此受到广泛的关注.然而,针对物品内容的短文本自然语言描述(通常较短且零散),无足够的信息量供机器进行统计推断,这给物品内容的语义理解带来了巨大困难.当前,利用深度学习技术融合多源异构数据[13]、融合评分矩阵及评论文本[14]、融合多特征的协同推荐[15]成为研究的热点.本文在上述研究的基础上,针对推荐系统中用户评分分布的不均衡及多推荐视图不易融合的问题,提出了基于用户评论的深度情感分析与多视图协同融合的混合推荐方法(HRSM算法),此处多视图即推荐系统 中 的多维度推荐因素.本文的混合推荐方法融合了用户评分矩阵、用户评论文本、物品的内容描述信息等三个推荐视图.与传统的加权融合和级联型等混合方法不同,本文设计了一种基于协同训练的推荐算法,实现用户评分的行为视图和物品描述的内容视图的融合.本文主要贡献在于提出了基于协同训练的多推荐视图融合的评分预测方法,并探讨了利用基于深度学习的自然语言处理技术对推荐系统中用户评论文本等辅助信息进行整合的技巧.本文的创新主要体现在以下3个方面:(1)提出基于协同训练的推荐视图融合方法.设计了一种基于协同训练的融合用户评分、情感偏好和物品内容信息的推荐算法,实现对稀疏的用户评分矩阵的循环填充和修正,进而实现基于评分预测的推荐.解决了混合推荐系统中不同兴趣偏好的多推荐视图不易融合的问题,同时在一定程度上解决了推荐系统建模中缺乏足够的有标签数据问题;(2)提出基于观点预过滤和基于用户评分嵌入的情感融合方法.设计一种嵌入的网络结构实现从上下文层面对用户评论进行深层语义分析和情感计算,并比较其在挖掘用户评论信息方面的效果.解决了推荐系统中用户原始评分与真实兴趣偏好存在偏差且评分等级分布不均衡的问题;(3)研究在推荐系统建模中融合多种自然语言处理技术的技巧.本文利用分布式的段落向量表征对物品内容描述的短文本进行相似度计算,并设计度量候选物品相似性的计算方法及计算 K 个最近3181 计  算  机  学  报 2019年品的方法,解决了推荐系统中物品内容的文本描述信息不易挖掘和利用的问题.2 相关工作在协同过滤推荐中,基于用户历史评分数据的推荐算法通常面临着数据稀疏的问题,而这种稀疏的用户评分通常会导致推荐质量下降[16];此外,原始数据的不完整及算法本身处理数据的特殊性,也会导致最终推荐效果不理想[17].当前,基于用户评论、用户隐式反馈挖掘的推荐研究受到了高度的重视,但其受文本挖掘和情感分析等技术的困扰.田超等人[18]通过整合网上商城的用户评论进行情感分析,实现SuperRank智能推荐系统原型.Shmueli等人[19]将用户评论信息作为协同过滤推荐的依据,并将其和 内 容 信 息 并 入 因 子 模 型 中 进 行 混 合 推 荐.Zhang等人[20]研究用户评论作弊对推荐系统的制约,提出了一种基于可疑行为扩散的统一框架,使得系统人员不需要关心具体的作弊方法就能以较高的准确率识别作弊用户以及作弊行为.Wang等人[2]针对评分数据在应用中的稀疏性问题,提出结合物品内容的深度表示 及协同训练构建评分矩阵.Wu等人[21]通过对 Stacked Denoising Autoencoders进行扩展来提高评分预测的精确度.Chen等人[22]归纳总结了 各 种 各 样 的 基 于 评 论 的 推 荐 方 法,通 过将用户生成的有价值的评论信息融入用户建模和推荐过程中,实现对用户评论推荐因素的挖掘,包括考虑评论的有用性、评论的主题、评论的总体观点、评论的 内 容、评 论 的 情 感 等.为 了 充 分 挖 掘 推荐系统中用户评论的上下文信息,以及减少评论中无关信息对推荐准确性的影响.Zhang等人[23]提出了一种协同多级嵌入模型,它利用一个投影层将词嵌入模型整合进标准的评分矩阵模型中来解决上述两个局限.Zhang等人[24]提出一种深度协同神经网络(DeepCoNN),在网络的最后一层中耦合两个并行的神经网络来实现混合推荐,其中一个网络学习用户评论的行为信息,另外一个网络从用户评论中学习物品的属性信息.Chen等人[25]通过引入一种新颖的注意力机制挖掘用户评论的有用性信息,提出了基于神经注意回归模型的推荐系统,可以预测精确的评分及每条评论的有用性.Han等人[26]从异构信息网络中提取不同层面的特征,利用精心设计的深度神经网络来学习各个层面的潜在因子,然后将其融合到一个注意力机制中实现协同过滤推荐.在推荐系统中,通过对真实数据分析也表明:用户评分往往与用户的兴趣偏好存在着较大的偏差,而用户评论等短文本信息可能更真实地反映了用户的兴趣偏好,故对用户评论的短文本的语义理解和情感挖掘是解决推荐系统中用户评分不真实、分布不均的重要途径[5,18].在基于内容的推荐中,物品的内容信息是一个重要的推荐依据,它也是用来解决推荐系统中冷启动问题的重要途径,但这种推荐方法会受到信息获取技术的约束.在众多的物品内容表现形式中,一种重要的形式是商家对物品的自然语言描述,传统的自然言语处理技术(如Bag of Words)将文本表示成一个 W 维的独热向量,该表示方法缺点非常明显,其假设所有对象都是相互独立的,容易受到数据稀疏问题的影响[27];同时,这种自然语言处理技术不能从语义层面对物品的内容信息进行分析,因此对物品内容的短文本进行语义理解和相似度计算是解决问题的关键.在对短文本的语义理解方面,研究者做了大量的工作.Wang等人[28]利用语义聚类和卷积神经网络对短文本进行建模,并在模型中使用预训练的词嵌入来引入额外知识.王仲远等人[29]归纳了当前比较流行的短文本语义理解模型:隐性模型、半显性模型、显性模型.Ma等人[30]提出一个新颖有效的框架,利用社会化媒体的内容信息来实现评分预测.Lian等人[31]提出了一个深度混合模型来提高个性化新闻推荐系统的表征学习能力.基于内容的推荐是依据用户喜爱的物品内容信息找到相似物品进行推荐,当前较流行的做法是利用信息检索中的相关理论、方法与技术来实现对物品内容信息的建模.由于评分 (rating)相对于物品(item)的稀疏性,基于模型的推荐通常缺乏足够的有标签数据[32].半监督学习作为一种同时利用有标签数据和无标签数据建模,来改进系统性能的学习策略,在推荐系统建模中得到较广泛的应用[33-34].鉴于推荐系统中各个推荐因素相对独立的特点,其很容易被划分为多个“充分冗余视图”,为利用协同训练策略构建推荐预测模型创造了天然的条件.Wu 等人[33]利用无标签和有标签用户信息(User Profile)构建一个多分类模型,实现了一个半监督混合推荐系统(HySAD).Zhang 等 人[34]提 出 了 一 个 基 于 上下文感知的半监督协同训练方法,来解决推荐系统中的冷启动问题.Ding等人[35]将视图数据集成到基于隐式反馈的推荐系统中,以挖掘购买等主要反馈数据以外的隐藏偏好信息.Wang等人[36]提出一种6期 张宜浩等:基于用户评论的深度情感分析和多视图协同融合的混合推荐方法3191收稿日期:2018-05-20;在线出版日期:2019-03-05.本课题得到国家自然科学基金(61702063)、重庆市基础科学与前沿技术研究重点专项(cstc2017jcyjBX0059)资助.张宜浩,博士,副教授,中国计算机学会(CCF)会员,主要研究方向为推荐系统、机器学习、自然语言处理.E-mail:yhzhang@cqut.edu.cn.朱小飞,博士,教授,中国计算机学会(CCF)会员,主要研究领域为大数据搜索与推荐、Web挖掘、机器学习.徐传运,博士,副教授,中国计算机学会(CCF)会员,主要研究方向为机器学 习、图 像 处 理.董 世 都,博 士,副 教 授,中 国 计 算 机 学 会(CCF)会员,主要研究方向为机器学习、图像处理.基于用户评论的深度情感分析和多视图协同融合的混合推荐方法张宜浩1) 朱小飞2) 徐传运1) 董世都1)1)(重庆理工大学两江人工智能学院 重庆 400054)2)(重庆理工大学计算机科学与工程学院 重庆 400054)摘 要 目前,大多数推荐技术使用用户评分来推断用户偏好.当有充足的评分信息时,协同过滤技术表现良好.然而,评分数据普遍存在着稀疏性,或者难以让用户将其偏好表示为对物品的评分等级,故有效性受到限制.基于内容的推荐方法依据物品的内容来寻找与目标用户喜欢的物品内容相似的物品.在目标用户没有充足的历史数据的情况下,该方法仍然不充分,其推荐效果也很有限.当前,融合多视图的兴趣偏好信息构建混合推荐系统是个性化推荐研究发展的趋势.混合推荐系统通过融合用户物品的交互评分、隐式反馈和辅助信息进行个性化推荐,故本文提出了一种新颖的基于用户评论的深度情感分析和多视图协同融合的混合推荐方法.针对用户评论、物品内容描述等短文本的情感及语义难以分析,单一推荐视图易导致对用户画像建模粗放等问题,本文利用词向量对用户评论的短文本进行分布式表征,并结合长短期记忆网络实现从上下文语义层面对用户评论的情感进行分析.同时,本文提出基于观点预过滤和基于用户评分嵌入的情感融合方法,设计了一种嵌入的网络结构对用户评论进行深层语义分析和情感计算,以解决用户评分与真实兴趣偏好存在较大偏差、评分等级分布极度不均衡等问题.此外,本文利用分布式的段落向量表征对物品内容描述的短文本进行相似度计算,并设计了候选物品相似性的计算方法及度量 K 个最近邻物品的方法,解决了推荐系统中物品的内容信息不易挖掘和利用的问题.最后,本文提出了一种基于协同训练的融合用户评分、情感倾向和物品内容信息的混合推荐算法,实现对稀疏的用户评分矩阵的循环填充和修正,进而实现基于评分预测的 TopN 推荐.该方法解决了混合推荐系统中不同兴趣偏好的多推荐视图难以融合的问题,同时在一定程度上解决了推荐系统建模中缺乏足够的有标签数据问题.本文在亚马逊数据集上进行实验,与多种经典的和当前先进的推荐算法进行性能对比,采用平方误差、命中率和标准化折扣累积增益进行性能评价.实验结果表明,本文提出的算法在挖掘用户情感上效果显著;在10个推荐数据集上,系统的评分预测和 TopN推荐指标皆有不同程度的显著改进.关键词 混合推荐;分布式表征;情感分析;协同训练;评分矩阵中图法分类号 TP391   DOI号 10.11897/SP.J.1016.2019.01316Hybrid Recommendation Approach Based on Deep Sentiment Analysis ofUser Reviews and Multi-View Collaborative FusionZHANG Yi-Hao1) ZHU Xiao-Fei 2) XU Chuan-Yun1) DONG Shi-Du1)1)(School of Liangjiang Artificial Intelligence,Chongqing University of Technology,Chongqing 400054)2)(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054)Abstract  Currently,most recommender techniques use user ratings to infer user preferences.Collaborative filtering techniques perform well when there is sufficient rating information.However,their effectiveness is limited because of the rating sparsity problem,or the difficulty in letting基于树增强的嵌入方法,来学习显式的决策规则和不可见的交叉特征,使推荐过程更加透明且有解释性.3 基于协同训练的混合推荐系统模型鉴于上述对推荐系统研究现状的论述,本文提出了一种基于用户评论的深度情感分析与多源推荐视图协同融合的混合推荐方法.一方面,我们通过挖掘用户评 论 的 情 感 倾 向,以 实 现 对 用 户 原 始 评 分偏离用 户 真 实 兴 趣 偏 好 的 纠 正,采 用 观 点 预 过 滤(opinion pre-filtering)方法[37]实现对用户的情感倾向和原始评分等级的综合度量,为基于物品的协同过滤推荐模型提供更加精确的反映用户真实兴趣偏好的综合评分数据.另一方面,我们对物品内容描述的文本信息进行挖掘,利用神经网络的方法将其表示成为分布式的段落向量,实现对物品内容的相似度计算,进 而 构 建 基 于 物 品 内 容 的 推 荐 模 型.最后,本文利 用 协 同 训 练 策 略 实 现 对 两 个 推 荐 视 图的融合,并 在 协 同 训 练 中 增 加 了 基 于 置 信 度 估 计与聚类分析的数据选择策略,尽量消除迭代训练中加入到训练数据池中的数据分布偏差.在此基础上,利用协同训练模型输出的评分矩阵和物品 的相似度,对初始推荐结果进行过滤和排序,从而得到最终推荐结果.基于协同训练的混合推荐系统框架如图2所示.图 2 基于协同训练的混合推荐系统框架3.1 用户评论的情感分析3.1.1 用户评论文本的分布式向量表示通过对推荐系统中的用户评论文本进行统计分析,发现其呈现形式通常是关键词和短文本.研究表明,这些短文本信息通常与长文本的处理方法不尽相同.短文本具有长度短、语法不规则的特点,且亦无足够的信息量来供研究者进行统计和推断.传统的诸如词性标注、句法分析等自然语言处理技术在短文本分析方面基本无能为力.早期对短文本的分析和应用主要通过枚举或关键词匹配的方式,对文本的语义理解基本避而不谈,而自动化的短文本理解通常需要依赖额外的知识.本文利用基于词向量的关键词表示方法,解决了传统稀疏表示方式的维数灾难,且无法表示语义信息的问题.同时也挖掘了词之间的关联属性,从而提高了关键词语义表示的准确度.词向量(Word2vec)作为一种进行高效率词嵌套学习的预测模型[38],其包括连续词袋模型(CBOW)和Skip-Gram 模型两种变体.CBOW 通过窗口范围内的词语预测中心词出现的概率,而 Skip-Gram 则是基于中心词预测窗口范围内词语出现的概率,其训练目标就是找出对预测句子或文档中的周围词语有用的词语的向 量表示.假 如 对于一个 给 定句子,w1,w2,…,wT表示句子中的词语,Skip-Gram 模型的目标函数g(w)就是求最大化平均对数概率.g(w)=1T∑Tt=1∑-cjc,j≠0logp(wt+j|wt) (1)在式(1)中,c表示训练文本的数量,c越大,可能会使得模型的准确率越高.Skip-Gram 模型使用层次Softmax函数来定义p(wt+j|wt).层次 Softmax使用 W 个字作为叶子的输出层的二叉树表示,并且对于每个节点明确表示其子节点的相对概率,利用随3102 计  算  机  学  报 2019年走算法分配每个单词的概率.Word2vec可以自动从大规模无标注用户评论中学习到句法和语义信息,实现对用户评论中关键词的表征.利用 Word2vec对用户评论的短文本信息进行向量表示,主要分为以下两个步骤:(1)根据收集的用户评论文本数据,利用 Skip-Gram 或 CBOW 训练词向量模型,将每个词表示成K 维向量实数值;(2)对于用户评论的短文本,在分词的基础上利用 TF-IDF等算法抽取 Top-N 个词表示文本的情感,然后从词向量模型中查找得到抽取的 Top-N个词的K 维向量表示.在得到每个 关 键 词 的 K 维 实 数 向 量 表 示 后,一种较为普遍的做法是利用加权平均的方式对关键词的向 量 进 行 处 理,将 其 等 价 于 用 户 评 论 文 本的向量表示,以实现对评论 信 息 的情感分析.这种加权平均的处理方法忽略了词语间的排列顺序对情感预测模型的影响.因为基于 Word2vec的词向量表示只 是 基 于 词 的 维 度 进 行 “语 义 分 析”,而 对 词向量进行加权平均 的处理方式并不具备上下文的“语义分析”能力,故本文构建基于词向量和长短期记忆网络的情感计算模型来实现对用户评论的情感分析.3.1.2 基于词向量和长短期记忆网络的情感计算在文本信息处理中,常用的方法是循环神经网络(RNN).然而,RNN 在处理长序列时会导致优化时出现梯度消失的问题.为解决这一问题,研究人员提出了门限(Gated RNN),其中最著名的就是长短期记忆网络(LSTM).研究也表明:在很多任务上,采用LSTM 结构的神经网络比标准 RNN 网络表现更好.LSTM 利用“门”结构来去除或增加信息到细胞状态.它通过在神经元中增加输入门、遗忘门和输出门三个“门”结构来达到增强或遗忘信息的目的,使得自循环的权重是变化的.基于 LSTM 的模型在参数固定的情况下,通过动态改变不同时刻的累积,可以有效 避 免 RNN 网 络 结 构 容 易 出 现 的 梯 度 膨胀,甚至梯度消失等问题.在 LSTM 网络结构中,每个 LSTM 单元的计算公式如式(2)~(7)所示:ft=σ(Wf·[ht-1,xt]+bf) (2)it=σ(Wi·[ht-1,xt]+bi) (3)C~t=tanh(WC·[ht-1,xt]+bC) (4)Ct=ft*Ct-1+it*C~t(5)Ot=σ(WO·[ht-1,xt]+bO) (6)ht=Ot*tanh(Ct) (7)在式(2)~(7)中,ft表示遗忘门,it表示输入门,Ot表示输出门;C~t表示前一时刻细胞的状态,Ct表示当前细胞的状态,ht-1和ht分别表示前一时刻单元的输出和当前单元的输出.本文采用基于 Word2vec和 LSTM 的用户评论的情感分析方法如图3所示.首先利用 Word2vec将矩阵形式的输入编码为较低维度的一维向量,以保留大多数有用信息;然后利用 LSTM 算法训练用户评论文本的情感分类模型,实现对用户评论的评分等级预测.同时,为了兼顾用户评分和评论信息对真实情感的交互影响,本文采用基于观点预过滤的方法和基于用户评分嵌入的方法分别对用户评分和情感预测评分进行融合.前者是利用 LSTM 网络得到预测评分后,同原始用户评分进行加权求和,基于用户评分嵌入的方法则是将 LSTM 网络向量与用户评分信息进行结合,将结果作为最后一层的输入,直接输出最终的综合评分.图 3 基于用户评分嵌入的情感分析方法基于观点预过滤[37](opinion pre-filtering)的方法,利用 Word2vec和 LSTM 对用户评论文本建模进行情感分析,预测得到每个用户对物品评论的情感倾向分数Scorer,对用户的原始评分进行加权求6期 张宜浩等:基于用户评论的深度情感分析和多视图协同融合的混合推荐方法3112出综合评分Scorec.Scorec=αScorer+(1-α)Scoreo(8)在式(8)中,Scorer表示用户对物品评论的情感预测评分,Scoreo表示用户对物品的原始评分,α 是两个评分间权重的平衡因子.基于用户评分嵌入的方法是在对用户评论信息进行情感分析的基础上,将得到的 LSTM 输出向量与用户评分信息进行结合(如式(9)所示),然后将上述结果 作 为 最 后 一 层 (全 连 接 层)的 输 入,并 通 过softmax激活函数直接输出最终的综合情感评分.Hi=htScore(Useri) (9)3.2 基于物品内容的相似度计算在推荐系统中,对物品内容的自然语言描述较短且大多是不完整的句子,通常也不遵循语法规则.本文利用段落向量(Paragraph Vector)[39]对物品内容描述的短文本进行分布式表示.段落向量是一种基于神经 网 络 的 隐 性 短 文 本 理 解 模 型,它 将 短 文本向量当作“语境”用于辅助推理,在极大似然估计中,文本向量亦被作为模型参数进行更新.同 基 于Word2vec的文本向量表示方法相比,它在模型训练过程中对段落也增加了编码.与普通的词一样,段落编码也是被先映射成一个向量(即段落编码向量).在计算中,段落编码向量和词向量累加或者连接起来,作为输出层Softmax的输入.在对物品内容描述文本的训练过程中,段落编码保持不变,相当于在每次预测单词概率时,其都整合了整个句子的语义信息.在预测阶段,我们给物品内容的描述文本分配一新的段落编码,同时保持词向量和输出层 Softmax的参数不变.最后,我们利用梯度下降法训练新的物品内容描述文本,直至其收敛,从而得到物品内容的低维向量表示.物品内容的段落向量分布式表征如图4所示.图 4 物品内容的段落向量分布式表征在得到物品内容的惟一d维分布式向量表示后,就可以利用相似度计算的方式得到每两个物品内容之间的相似度和距离.本文利用余弦公式度量两个物品间的相似度,同时利用马氏距离计算两个物品内容自然语言描述的距离.假设两个物品内容自然语言描述的段落向量表示为 PVa=(x11,x12,…,x1d)和PVb=(x21,x22,…,x2d),其中d 表示两个段落向量的维度.则它们间的相似度和距离分别定义式(10)和式(11):sim(PVa,PVb)=PVd·PVdPVd2· PVd2 =∑i=di=0x1ix2i∑i=di=0x21槡i∑i=di=0x22槡i(10)dis(PVa,PVb)= (PVa-PVb)TS-1(PVa-PVb槡 )(11)其中S 是特征向量PVa和PVb的协方差矩阵.3.3 基于协同训练的推荐视图融合在构建混合推荐系统时,本文利用用户综合评分视图构建基于物品的协同过滤推荐模型;与此同时,利用物品内容的自然语言描述视图构建基于物品内容的推荐模型;最后基于协同训练策略实现两个推荐视图的融合.在数据选择方面,利用基于置信度估计与聚类分析的数据选择算法对数据 进行过滤,而后加入到另一个分类器的训练数据池中,进行下一轮训练,如此迭代.基于协同训练的推荐视图融合的框架如图5所示.图 5 基于协同训练的推荐视图融合3.3.1 基于协同训练的混合推荐算法基于协同训练的混合推荐算法是在用户对物品评分的基础上构建初始评分矩阵;然后利用观点预3122 计  算  机  学  报 2019年过滤的方法度量综合评分,从而更新评分矩阵;最后设计一个基于协同训练的混合推荐算法,依据综合评分矩阵和物品内容描述的向量相似度来循环地填充和优化评分矩阵,进而实现推荐和排序.基于协同训练的混合推荐算法流程如图6所示.图 6 基于协同训练的混合推荐算法流程在推荐系统中,用户u对物品i的评分记为Ru(i);对应的评分矩阵为Rm×n(U,I),其中行向量 m 表示用户的个数,列向量n表示物品的个数.在基于物品的协同过滤推荐模型中,输入用户的原始评分矩阵Rm×n(U,I),其中Ru(i)∈{1,2,3,4,5},以及情感分析模型预测的虚拟评分矩阵R→m×n(U,I),其中R→u(i)∈{1,5},1表示用户情感为负面,5表示用户情感为正面,输出为数据集 Dtrain.基于物品的协同过滤推荐算法的描述如算法1所示.算法1. 基于物品的协同过滤推荐算法.输入:用户对物品的评分矩阵Rm×n(U,I),情感计算模型预测的虚拟评分R→m×n(U,I)输出:基于物品协同过滤推荐的训练数据集 Dtrain1.根据用户评分矩阵,抽取针对用户u的训练数据Di={R(i)T|R(i)∈Rm×n(U,I),Ru(i)≠,i∈[1,n]},其类别标签为L(i)=Ru(i)∈{1,2,3,4,5};//在 m×n的评分矩阵中,行向量表示用户,列向量表示物品.其中R(i)表示评分矩阵的列向量,Ru(i)表示用户u对物品i的评分2.更新训练数据评分Ru(i)://利用观点预过滤的方法计算用户对 物 品 的 综 合 评 分.其 中 Timecur表 示 当 前 时 间,TimeRu(i)表示用户对物品的评论时间,时间只取年份R→u(i)={R→m×n(U,I)∈{1,5}|m=u,n=i},Ru(i)=αR→u(i)+(1-α)Ru(i)Timecur-TimeRu(i).3.更新训练数据集://将评分4的标记为正类,加入数据池 Di(+)中,将评分 2的标记为负类,加入数据池Di(-)中DL={Di(+)∪Di(-)},Di(+)={R(i)T|R(i)∈Rm×n(U,I),L(i)4},Di(-)={R(i)T|R(i)∈Rm×n(U,I),L(i)2}.4.训练基于物品的协同过滤推荐模型,用分类器h1对候选数据 D={R(i)T|R(i)∈Rm×n(U,I),Ru(i)=}进行预测,得到预测标签L(i);D′L←{(D(i),L(i))}.5.利用基于置信度估计与聚类分析的数据选择算法对数据进行筛选,返回预加入训练数据池的数据.//DL表示一次迭代中原有的数据,D′L表示一次迭代中增加的数据(数据的标签为协同过滤模型的预测评分)Return Dtrain={DL ∪D′L}.在算法1中,利用基于物品的协同过滤推荐方法,来填充用户评分矩阵的缺省值;同时更新用户u的训练数据集.在情感分类模型中,一般分为细粒度(5级分类)和粗粒度(2级分类),考虑到2级情感分类模型的准确率远高于5级情感分类模型[38],故本文的推荐算法中采用2级情感分类.分别将用户情感为正面和负面的评分设置为5分和1分;然后利用观点预过滤的方法对用户情感评分和原始评分进行综合度量;最后利用基于物品的协同过滤模型实现对评分矩阵的预测和填充,并利用基于置信度估计与聚类分析的数据选择算法对数据进行筛选,将增量数据加入用户u的训练数据集.在基于物品内容描述模型中,利用 K 最近邻算法来计算物品内容描述的距离,通过物品的余弦相似度以及 K 个最近邻物品(马氏距离)的评分来更新或填充用户评分和缺省值,将其利用到基于物品内容的推荐模型中进行下一步迭代.基于物品内容的推荐算法描述如算法2所示.算法2. 基于物品内容的推荐算法.输入:用户对物品的预测评分 D′L={(D(i),L(i)},物品内容描述的向量表示PV(Item),训练数据集Dtrain输出:评分矩阵Rm×n(U,I)6期 张宜浩等:基于用户评论的深度情感分析和多视图协同融合的混合推荐方法3123

[返回]

下一篇:基于离散优化的哈希编码学习方法