欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

SCI期刊论文
当前位置:首页 > SCI期刊论文
基于双注意力机制和迁移学习的跨领域推荐模型_柴玉梅
来源:一起赢论文网     日期:2021-01-13     浏览数:21     【 字体:

 基于双注意力机制和迁移学习的跨领域推荐模型柴玉梅1) 员武莲1) 王黎明1) 刘 箴2)1)(郑州大学信息工程学院 郑州 450001)2)(宁波大学信息科学与工程学院 浙江宁波 315211)摘 要 跨领域推荐可用于解决单一领域数据稀疏导致的推荐系统性能退化问题,还可以缓解推荐系统中存在的用户冷启动问题.然而,现有的方法大多利用用户对项目的评分进行建模,忽略了评论文本所蕴含的信息.为此,本文提出了一种基于双注意力机制和迁移学习的跨领域推荐模型,首先通过CNN对评论文本建模,提取用户和项目特征;其次通过构造融合词的上下文关系的词注意力机制从评论文本中捕获词级别的信息,以提升CNN对文本中重点信息的关注度;然后通过构造特征突显机制从CNN提取到的用户特征和项目特征中捕获特征级别的信息;最后引入迁移学习,通过同时提取领域特有的特征和领域间的共享特征进行不同领域之间的联合建模,进行评分预测.本文在Amazon数据集上进行了实验比较与分析,首先对本文模型的推荐性能进行评估,与现有的跨领域推荐模型相比,在两种不同的跨领域数据集上平均绝对误差分别提升6.1%和9.15%,均方根误差分别提升3.66%和7.01%;然后对本文模型的知识迁移性能进行评估,与现有的单领域推荐模型相比,在不同数据集下均方误差分别提升5.47%和10.35%;最后通过实验验证了本文提出的注意力机制的有效性,及在缓解数据稀疏问题和用户冷启动问题方面的优势,也验证了模型的普适性.关键词 推荐系统;迁移学习;跨领域;CNN;评论文本中图法分类号TP391   DOI号10.11897/SP.J.1016.2020.01924A Cross-Domain Recommendation Model Based onDual Attention Mechanism and Transfer LearningCHAI Yu-Mei 1) YUN Wu-Lian1) WANG Li-Ming1) LIU Zhen2)1)(School of Information Engineering,Zhengzhou University,Zhengzhou 450001)2)(School of Information Science and Technology,Ningbo University,Ningbo,Zhejiang 315211)Abstract Cross-domain recommendation can be used to solve the problem of degrading theperformance of the recommendation system caused by sparse data in a single domain,and it canalso alleviate the cold start problem of users in the recommendation system.However,most ofthe existing methods use the user’s rating data to model the item,ignoring the review textwritten by the user for the item and the rich user and item information it contains.In recentyears,deep learning has been successfully applied to various fields.Inspired by this,this articleproposes a Cross-Domain Recommendation Model based on the Dual Attention Mechanism andTransfer Learning(AMTR)based on the review text.Firstly,modeling review text throughconvolutional neural network,extract user and item features.Secondly,this paper constructs theword attention mechanism and feature highlighting mechanism that fused the context of words,and proposes a feature extraction network based on the dual attention mechanism.The wordattention mechanism captures word-level information from the review text to increase CNN’sattention to the key information in the text,while making the recommendation interpretable;Thefeature highlighting mechanism captures feature level information that is helpful for ratingprediction from user features and item features extracted by CNN.Finally,based on the featureextraction network,transfer learning is introduced to jointly model between different domains toachieve knowledge transfer between domains.In this process,feature extraction networks indifferent domains are used to simultaneously extract domain-specific features and share featuresand combine with factorization machine to perform rating prediction to achieve cross-domainrecommendation.In this paper,the experimental comparison and analysis is carried out on theAmazon dataset.The experimental results show that the performance of the AMTR model interms of mean absolute error,root mean square error and mean square error is better than thecomparison model.Firstly,evaluate the recommend performance of the AMTR model,comparedwith the existing cross-domain recommendation model,the mean absolute error of the AMTRmodel on both different cross-domain datasets increased by 6.1%and 9.15%,respectively,andthe root mean square error is improved 3.66% and 7.01%.Secondly,the knowledge transferperformance of the AMTR model is evaluated.Compared with the existing single domainrecommendation model,the mean square error of the AMTR model increased by 5.47% and10.35%in different datasets.Then,the effectiveness of the attention mechanism proposed in thispaper is verified through related experiments,and by controlling the number of reviews,theadvantages of the proposed model in mitigating data sparseness and user cold start problems areverified;Finally,the universality of the model is verified on various data sets.In addition,thispaper also considers the impact of the difference in rating scales on the model in this paper.Thispaper makes full use of review text in different domains,effectively mines user and item informationin different domains through neural networks,improves the performance of cross-domainrecommendation,and expands the new way of using review text information to a certain extent.Keywords recommendation system;transfer learning;cross-domain;CNN;review text1 引 言推荐系统[1]可以缓解当下大数据时代中存在的“信息过载”问题,它帮助用户从繁杂的信息中挑选出需求的信息,为用户提供个性化服务.传统的推荐都是基于单一领域,但随着数据的急剧增长,单一领域的信息难以满足用户的需求,而广泛应用于单领域的协同过滤方法[2-3]虽然简单有效,却存在评分数据稀疏和用户冷启动问题[4],使得推荐性能下降,解决这种问题的方法之一是跨领域推荐.跨领域推荐[5-6]旨在利用其它领域的用户偏好和项目特征等信息来帮助目标领域提高推荐的准确性,使得目标领域能对用户或项目进行更加充分的建模,有效地缓解了数据稀疏和用户冷启动问题.研究与事实也表明,来自不同领域的用户和项目之间有较大的关联,例如:用户在不同的领域也会表现出相同的爱好,如喜爱恐怖类电影的用户也会倾向于购买恐怖类的书籍.现有的大部分跨领域推荐工作主要是利用用户对项目的评分数据[7-8],这种方法虽然一定程度上缓解了数据稀疏和用户冷启动问题,但在数据高度稀疏的情况下,仅依靠评分信息,推荐系统难以全面地对用户和项目建模,无法学习出可以进行知识迁移的有效信息,并且难以将源域的知识充分地迁移到目标域.相比于评分仅代表用户对项目的一个总体态度来说,评论文本在反应用户喜好的同时,可以解释给出评分高低的原因,为用户和项目的建模提供丰富的信息,同时可以补充利用评分进行知识迁移过程中有效信息不足的缺点,提高跨领域推荐效果,这是以往跨领域推荐工作所忽视的.然而评论文本结构复杂,很难直接被推荐系统所理解,因此如何利用自然语言处理技术帮助推荐系统解析评论,提取出评论文本包含的信息,同时使得推荐具有可解释性以及如何将这些信息在领域之10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1925间进行迁移是本文研究的重点.受Liu等人[9]利用迁移学习[10]方法提高文本分类性能的启发,本文提出了一种端到端的基于双注意力机制和迁移学习的跨领域推荐模型AMTR(Attention Mechanism and Transfer Learning),主要工作如下:(1)本文利用CNN 分别对用户和项目对应的评论聚合文本进行特征提取,相较于传统的特征提取方法能够提取更为充分的信息,并对用户和项目的特征进行更好地建模.(2)本文提出两种不同的注意力机制,分别从词级别和特征级别两种视角提取出评论文本中的重要信息.词注意力机制(Words Attention Mechanism,WAM)通过融合词的上下文信息,衡量单词的重要性,过滤出相对于全局重要的单词,同时增加推荐的可解释性.特征突显机制(Feature HighlightingMechanism,FHM)通过抑制相似通道,捕捉特征通道中独立性较强的通道.从而提高模型对评论文本中的重要信息的关注,使其具有更好的特征提取能力.(3)本文提出了一种新的跨领域推荐模型,联合建模源域、目标域和共享域,利用不同领域的神经网络同时提取领域特有的特征和领域间的共享特征,有效地学习到了可以进行知识迁移的信息,将源域的知识充分地迁移到目标域,提高了推荐性能,并缓解了数据稀疏问题和用户冷启动问题.此外,本文还针对用户之间的评分尺度差异问题进行了相应的研究和实验验证.2 相关工作跨领域推荐采用知识迁移的策略将与目标领域关联较为密集的辅助领域的知识迁移到目标领域,提高目标领域的推荐性能,有效地缓解了传统推荐系统中存在的数据稀疏和用户冷启动问题.Li等人[11]提出了一个密码本迁移模型CBT(CodeBookTransfer),它假设不同领域共享一个评分模式并将其称为“密码本”,将密码本从辅助领域迁移到目标领域缓解数据稀疏问题,但是这种方法忽略了不同领域的评分模式具有差异性,可能会导致负迁移.Gao等人[12]在CBT基础上考虑不同领域拥有各自的特异性提出了CLFM 模型,在学习所有领域共享的评分模式的同时,还学习领域特有的评分模式,提高了跨领域推荐的准确度.Moreno等人[13]考虑不同辅助领域和目标领域之间的关系,根据不同领域的相关性自动学习不同程度的知识.王俊等人[14]在考虑领域具有共享和特有的评分模式后,考虑了项目的共享被评分模式,提出一种三元桥迁移学习模型(Triple-Bridge Transfer,TRBT),增加了正迁移.Hu等人[15]考虑领域和领域之间的潜在关系,把不同领域的评分矩阵组成张量,通过张量分解捕获特征.随后Hu等人又提出了WITF(Weighted Irregular Tensor Factorization)模型[16],利用所有用户的多领域反馈数据来学习用户和项目的跨领域先验,从而提高推荐性能.Lian等人[17]通过引入一个因子分解框架将协同过滤和基于内容的过滤结合,随后将其嵌入到一个多视图神经网络实现跨领域推荐.Hu和Zhang等人[18]采用神经网络学习各领域的潜在特征以及复杂的用户-项目交互关系,实现不同领域之间的知识传递.合理地使用评论文本进行评分预测从而提高推荐系统性能已被证明是有效的[19-20].Zheng等人[21]利用两个并行神经网络,学习目标用户撰写的所有评论文本的潜在特征得到用户行为,以及项目的所有评论文本的潜在特征得到项目属性,然后结合这些潜在的特征提出DeepCoNN(Deep CooperativeNeural Networks)模型.Catherine等人[22]在Deep-CoNN模型上扩展一个transform 层,将用户和项目的潜在特征转换为目标评论的近似表示并用于评分预测,构建出新的评分预测模型.Seo等人[23]在CNN基础上提出了通过注意力机制建模评论中不同部分与用户行为和项目属性的关联度,从而构造潜在表示.Tay等人[24]提出了一种共同关注的多指针学习方案的深度学习推荐框架,使最具信息性的评论能够用于评分预测同时实现更深层次的单词级交互.3 加入双注意力机制的特征提取网络为了从评论文本中获得用于评分预测的用户特征和项目特征.本文首先构造特征提取网络进行文本特征提取,将CNN作为特征提取的基础,相较于传统的机器学习方法,CNN具有提取复杂特征的优势,可以自动提取评论文本中的语义特征,不依赖于人工,从而有效地避免了人工提取特征的不足,学习到更鲁棒的特征表示.为了使模型有更好的特征提取能力,提出词级别的WAM 以及特征级别的FHM.如图1所示,特征提取网络首先将用户和项1926 计  算  机  学  报 2020年图1 特征提取网络目对应评论文本的词向量通过WAM,加强对评论文本的重点信息的关注,其次使用CNN提取特征,最后通过FHM 捕获更多重要信息.3.1 相关定义为了方便阅读,本节主要介绍一些模型中用到的定义.定义1. 数据表示.输入模型的数据表示可以描述为一个四元组{U,I,XUI,RUI},其中U 为用户、I为项目、XUI为用户U 对项目I 所做的评论、RUI为用户U 对项目I 的评分.定义2. 评论聚合文本.某个用户u 为项目I撰写的所有评论文本或某个项目i拥有的用户U 为其撰写的所有评论文本.定义3. 用户行为.一个用户的行为可以从它为项目撰写的评论中体现,可以描述为一个二元组{u,Du},其中u表示用户,Du表示用户u 撰写评论的集合,Du={X1,X2,X3,…,Xm},其中m 表示用户撰写评论的个数.定义4. 项目属性.一个项目的属性可以从用户为其撰写的评论集合中体现,可以描述为一个二元组{i,Di},其中i表示项目,Di表示用户为项目i撰写评论的集合,Di={X1,X2,X3,…,Xp},其中p表示项目拥有的评论的个数.3.2 用户和项目评论聚合文本的词向量表示模型使用自然语言处理中词向量[25]表示文本的方法将评论文本词向量化,然后通过神经网络提取评论文本的语义信息.不同于传统词袋模型,为了保留单词的顺序,设每条评论X={x1,x2,x3,…,xn}.通过Glove[26]获得评论X 中每个词的词向量,得到评论X 的句向量e={ex1,ex2,ex3,…,exn}.根据定义3,对于用户u 撰写的评论来说,其撰写m 条评论,将这些评论聚合为一个文档du1:m,记为du1:m=e1e2e3…em (1)根据定义4,项目i的评论聚合文本的表示为文档di1:p,其中p 条评论分别来自不同的用户u,di1:p记为di1:p=e1e2e3…ep (2)评论聚合文本的词向量生成的具体过程如算法1所示.算法1. 评论聚合文本词向量生成.输入:评论文本集合{{U,I,XUI,RUI}(1…F)}输出:用户评论聚合文本du、项目评论聚合文本di1.FOR评论文本集合中的每一个用户u∈U DO2. IF u={U,I,XUI,RUI}[0]THEN3.  将评论XUI词向量化生成句向量eUI4.  执行操作(1):du=dueUI5. END IF6.END FOR7.FOR评论文本集合中的每一个用户i∈I DO8. IFi={U,I,XUI,RUI}[0]THEN9.  将评论XUI词向量化生成句向量eUI10.  执行操作(2):di=dieUI11. END IF12.END FOR13.RETURNdu,di其中,{U,I,XUI,RUI}[0]表示元组的第1个元素,{U,I,XUI,RUI}[1]表示元组的第2个元素.3.3 融合上下文关系的WAM受Seo等人[23]采用局部和全局注意力层学习单词权重的启发,本文在词向量层和卷积层之间加入WAM.WAM 通过融合词的上下文关系,在原始评论文本中得到不同词在当前文本中的重要性,使得CNN的训练重点集中在评论文本中与评分预测信息关联度高的部分,由此加强对评论文本的重点部分的关注,并且削弱了影响较小的词,WAM 如图2所示.10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1927图2 WAM 示意图以用户评论聚合文本的词向量经过WAM 为例,首先将用户评论聚合文本的词向量矩阵经过一个卷积层进行卷积操作.卷积层具有w 个神经元,每个神经元j对应一个窗口大小为q 的卷积核.将用户u的词向量文档du1:m 与卷积层的每个卷积核Kj进行卷积运算,压缩后的特征如下:WAuj=f(du1:m*Kj+WAj) (3)本文将WAM 的卷积操作视为一种参数可学习的特征压缩方法,因此将该卷积核的窗口大小与输出通道个数设置为1.其中卷积核为Kj∈RC×1,“*”表示卷积操作,WAj表示偏置量,f 是ReLU[27](Rectified Linear Units)激活函数.将压缩后的特征输入到权重生成块中得到对应词的权重因子,权重生成块包含两个全连接层.受word2vec[28]的启发,使用全连接层进行上下文关系的融合,将文本中每个词的上下文信息融合到隐层的每个结点.第一层全连接层使用ReLU为激活函数,压缩长度为L 的特征,输出长度为L/r的特征,其表示如下:fc1=ReLU(Wd*WAuj+bd) (4)其中,Wd∈RL×(L/r)表示权重矩阵,其中L 为词向量矩阵的宽,r为超参数(本文设置r为16),表示中间的特征衰减系数,bd∈RL/r表示偏置量.第二层全连接层使用sigmoid为激活函数,将经过第一层全连接层衰减后的特征维度复原,输出长度为L 的权重向量,即每个单词对应的权重因子fc2.fc2=sigmoid(Wu*fc1+bu) (5)其中,Wu∈R(L/r)×L 表示权重矩阵,bu∈RL 表示偏置量.将得出的权重因子与原始用户评论聚合文本的词向量逐通道相乘,得到带有权重因子的向量矩阵,从而融合上下文关系,突出不同单词的重要性,向量矩阵表示如下:WAM u1:m=du1:mfc2 (6)3.4 基于CNN的文本特征提取网络本文采用CNN 进行文本特征的自动提取,在WAM 后利用卷积层以及最大池化进行特征提取.卷积层对经过WAM 后的词向量文档进行卷积操作后得到新的特征.用户u 的词向量文档WAM u1:m首先进行卷积运算,每个卷积操作后产生一个特征图,产生的特征图的公式如下:zuj=f(WAM u1:m*Kj+bj) (7)其中卷积核为Kj∈Rc×q,q(q∈{3,4,5})表示卷积核的窗口大小,“*”表示卷积操作,bj表示偏置量,f是ReLU激活函数.随后对特征图的每个通道进行最大池化操作,得出每个通道中最大的值oj.ouj=max zu1,zu2,…,zu(Σi=1,…,mni-q+1{ } ) (8)最大池化后,卷积特征被缩减为一个固定大小的向量,其维度和通道的个数相同.将w 个神经元对应特征拼接得到特征,记为Ou={ou1,ou2,ou3,…,ouw} (9)随后将用户特征和项目特征进行拼接,构建用户-项目特征,得到特征O 如下:O=OuOi (10)其中,Oi表示项目i经网络提取得到的特征.3.5 引入FHM受Hu等人[29]的启发,提出关注特征层通道之间相关性的FHM.FHM 通过建模特征通道之间的关系,抑制相似通道,自适应地增加特征通道中独立性较强的通道,提高网络性能,FHM 如图3所示.图3 FHM 示意图1928 计  算  机  学  报 2020年将词向量经过CNN之后产生大小为C×H×W的特征图O 作为FHM 的输入,随后进行形状转换,转换为C×1×(H×W )的特征图G 后,将G 中的通道与通道之间两两进行点乘操作,计算通道之间的相似性矩阵.FHM 的目的是削弱特征通道之间相似度较高的通道,突显相似度较低的通道作为重要的特征通道.因此将相似性矩阵中最大的特征值减去其中的每一个元素,随后计算权重因子atte:atte=softmax(max(GGT)-GGT) (11)将atte与原始的特征进行内积操作得到的新的特征,随后将新的特征与可学习参数α相乘,再与原始输入特征相加得出最终输出.h=α·(atte·O)+O (12)其中,“·”表示向量的内积.4 跨领域推荐模型AMTRAMTR模型目的是在对评论文本合理建模提取有效信息的基础上,将源领域获取的知识用来丰富目标领域的数据,实现跨领域的知识迁移,从而解决目标领域数据稀疏和用户冷启动问题,提高目标域推荐的准确性.因此本文在基于双注意力机制的特征提取网络基础上,通过联合建模源域、目标域和共享域三个不同的领域,利用特征提取网络分别学习源域和目标域中领域特有的特征以及共享特征,最后引入因子分解机FM(Factorization Machine)从而构建出跨领域推荐模型AMTR.如图4所示,AMTR模型由词向量、特征提取网络和决策网络组成,其中特征提取网络使用CNN同时提取评论文本中用户的源域特征、目标域特征和共享特征,以及项目的源域特征、目标域特征和共享特征,在CNN 前后加入WAM 和FHM.决策网络进行不同领域知识融合以及使用因子分解机进行评分预测.图4 AMTR模型4.1 引入迁移学习后的特征提取网络本文模型通过建模不同的领域实现知识的迁移,因此特征提取网络分为三个部分:源域、目标域以及共享域.三个域的网络模块皆使用两个并行的CNN分别进行用户特征和项目特征的提取,其使用相同的网络结构,网络之间参数不共享.通过源域和10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1929目标域学习领域特有的特征,通过共享域学习领域间的共享特征.其中源域输入源域评论,目标域输入目标域评论,共享域输入源域和目标域的评论.源域、目标域和共享域的特征提取的具体过程如算法2所示.算法2. 源域、目标域以及共享域的特征提取.输入:用户聚合评论文本文档du1:m、项目聚合评论文本文档di1:p,卷积核的窗口大小q输出:源域、目标域特征Ol,共享域特征Oc,l∈{s,t}1.将du1:m,di1:p送进WAM 中,生成WAM u1:m,WAM i1:p2.对WAM u1:m,WAM i1:p进行操作(7),生成(Zuj)l,(Zij)l3.对(Zuj)l,(Zij)l执行操作(8)4.FOR EACHj∈q DO5. 进行操作(9)生成(Ou)l=(Ouj)l,(Oi)l=(Oij)l6.END FOR7.进行操作(10)生成Ol=(Ou)l+(Oi)l8.对WAMu1:m,WAMi1:p进行操作(7),生成(Zuj)c,(Zij)c9.对(Zuj)c,(Zij)c进行操作(8)10.FOR EACHj∈q DO11.进行操作(9)生成(Ou)c=(Ouj)c,(Oi)c=(Oij)c12.END FOR13.进行操作(10)生成Oc=(Ou)c+(Oi)c14.RETURNOl,Oc4.2 知识融合以及评分预测的网络通过特征提取网络得到三个领域的特征,随后进行三个领域知识的融合,将来自源域的特征和共享域的特征结合,来自目标域的特征和共享域的特征结合,实现知识的迁移.特征融合过程为:三个域的特征分别通过全连接层后进行拼接,得到最终的特征输出y^k:y^k=f(wschc+wshs+bs),k=0f(wtchc+wtht+bt), k 烅烄烆=1(13)其中,k(k∈{0,1})是域标签,0代表源域,1代表目标域.wsc、wtc、ws、wt和wc分别为共享域和源域、共享域和目标域、源域、目标域和共享域的权重,而bs和bt分别为源域和目标域的偏置量,f 代表ReLU激活函数.随后引入FM[30]得到用户对项目的预测评分:r^=w^0+Σ|y^k|i=1w^iy^ki+Σ|y^k|i=1Σ|y^k|j=i+1〈v^i,v^j〉y^kiy^kj (14)其中,w^0是全局偏置量,w^i是y^k中第i个分量的权重值.〈v^i,v^j〉=Σ|y^k|f=1v^i,fv^j,f为各分量之间的二阶交互.4.3 AMTR模型的损失函数考虑到领域特有的特征可能进入共享特征空间,导致数据冗余,为保证它们之间的独立性,在共享特征后引入域鉴别器[9].使用域鉴别器p(d|hc),预测共享特征hc上的领域标签d,区分特征来自源域还是目标域,定义如下:p(d|hc)=softmax(wchc+bc) (15)其中,wc表示共享域权重,bc表示共享域偏置量.为了使共享域难以区分特征是来自于源域还是目标域的特征空间,减少不同领域的概率分布的差异,防止领域特有的特征进入共享空间,本文在共享特征空间中加入对抗性损失[9]Ladv消除噪声特征,记为Ladv=1 nΣ ni=1Σ1k=0p(d=k|hci)logp(d=k|hci)(16)随后分别在源域和目标域的特征空间加入域鉴别损失函数,使得领域特有的特征空间可以更好地区分不同的领域,定义源域Ls和目标域Lt的负熵损失函数为L{s,t}=- 1n{s,t}Σn{s,t}i=1 Σ k∈{s,t} I(di=k)logp(d=k|h{s,t}i )(17)为了学习领域的不变的特征,在已学到的共享特征hc和领域特有的特征hc、ht上增加正交约束[9]Lorth记为Lorth=Σ k∈{s,t} hcThk (18)AMTR模型可以选择最小均方误差(L2)和最小绝对值误差(L1)损失函数训练模型,实验显示L2比L1的表现稍好,因此本文利用L2损失函数进行训练,实验结果详细见5.5.6节.模型的损失函数最终定义为loss=Σ k∈{s,t}-1nkΣnkj=112(rku,i-r^ku,i)2+λ12Ladv+λ22Ls+λ32Lt+λ42Lorth+λ52Θ 2F(19)其中,λ1、λ2、λ3、λ4和λ5为不同损失函数的正则化参数,Θ 表示模型参数.rku,i和r^ku,i为用户u 对项目i 的真实评分和预测评分.4.4 AMTR模型的联合训练AMTR模型训练的具体过程如算法3所示.采用联合训练的方式将源域和目标域中的数据依次送入网络中,用域鉴别器判定特征的域标签,将不同域传递出的损失值相加进行反向传播从而进行参数的更新.1930 计  算  机  学  报 2020年算法3. AMTR模型的训练.输入:源域的训练数据Ds({数据ds,标签ls}),目标域的训练数据Dt({数据dt,标签lt})(|Ds|>|Dt|),模型f,损失函数L,学习率ε,衰减率ρ1,ρ2,稳定系数δ输出:决策层参数wc,wb,ws,bs,wt,bt,wsc,bsc,wtc,btc,特征层的网络参数Θs,Θt,Θc1.正交初始化参数Θ={wc,wb,ws,bs,wt,bt,wsc,bsc,wtc,btc,Θs,Θt,Θc}2.迭代次数epoch=03.一阶矩和二阶矩变量s=0,r=0;4.时间步step=05.WHILEepochMaxepoch DO6. FOR EACH (ds,ls)∈Ds DO7.  从Dt中随机选取一个目标域训练数据dt,lt8.  计算梯度g←1mΘL(f(ds,dt,Θ),ls,lt)9.  更新参Θ←Θ-ερ1s+(1-ρ1)g1-ρstep1ρ1r+(1-ρ1)g2槡 1-ρs1tep+δ,s←ρ1s+(1-ρ1)g,r←ρ1r+(1-ρ1)g210.  step+=111. END FOR12. epoch+=113.END WHILE14.RETURNΘ4.5 模型时间复杂度分析本文提出的AMTR模型中,主要的时间成本包含以下两个部分:特征提取网络和决策网络.其中特征提取网络包含WAM、CNN和FHM.对于WAM 来说,设置句子的长度为n,词向量的维度为d.进行卷积操作的时间复杂度为O(nd),通过两个全连接层的时间复杂度为O(2×n2/r),r为特征衰减系数.通过 CNN 的时间复杂度为 O (Σiqi×d ×n×Cout),其中Cout为输出通道数.通过 FHM 的时间复杂度为O Σi( Couti).对于决策网络来说,特征合并层的时间复杂度为O Σi( Couti×n′),n′表示决策参数,且n′<n.FM的时间复杂度为O(k(n′)2),其中k为FM 的系数.因此AMTR模型总的时间复杂度为O=(nd+2×n2/r+Σiqi×d×n×Cout+ΣiCouti+ΣiCouti×n′+k(n′)2).5 实验与分析5.1 数据集为保证实验结果的可靠性,本文选用Amazon数据集①进行实验评估.该数据集主要包含用户对网站商品的评价信息及商品元数据,总共有142800000条评论,评分范围为1到5的整数,时间跨度为1996年5月至2014年7月.本文在Amazon数据集中选择“电影”、“图书”和“CD”作为实验数据,将其分为“电影-图书”和“电影-CD”两个跨领域组合进行实验分析.首先对数据进行稠密度的预处理,保留三组数据中具有10条以上评论的用户,“图书”和“电影”中超过120条评论的项目,“CD”中超过30条评论的项目,随后从“电影-图书”和“电影-CD”跨领域组合中选择有交互的用户.“电影”的稠密度相比于“图书”和“CD”的稠密度更大,因此在跨领域组合中将“电影”作为源域,“图书”和“CD”分别作为目标域.其次对评论文本进行分词、删除停用词、用Nltk② 进行词形的还原等处理,数据集统计信息如表1所示.表1 数据集统计信息域#用户#项目#评论稠密度/%电影-图书电影图书2000584656382158621211351.841.07电影-CD电影CD2000587369752140381404221.821.0065.2 评价指标平均绝对误差MAE(Mean Absolute Error)、均方根误差RMSE(Root Mean Square Error)和均方误差MSE(Mean Square Error)是评估推荐性能的三个指标,它们通过计算预测评分和真实评分之间的误差来衡量推荐结果的准确性.MAE、RMSE和MSE 定义分别为MAE=1 NΣ Ni=1|ru,i-r^u,i| (20)RMSE= 1 NΣ Ni=1(ru,i-r^u,i) 槡2 (21)MSE=1 NΣ Ni=1(ru,i-r^u,i)2 (22)其中,N 表示测试数据的数量,ru,i表示测试数据真实的评分,r^u,i表示通过AMTR模型后得到的ru,i的10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1931①②http://jmcauley.ucsd.edu/data/amazon/https://www.nltk.org/预测值.MAE、RMSE 和MSE 三个指标越小代表推荐准确性越高.MAE、RMSE 和MSE 的评价结论一致.为了与对比模型在同一评估方法下进行实验对比,本文将选择对比模型采用的评价指标来评估评分预测的精度.5.3 对比模型为了评估AMTR模型的性能,将与以下模型进行对比:(1)CBT[11].一种跨领域推荐的经典模型.将用户和项目的特征因子进行聚类得到评分模式矩阵,同时假设领域之间的评分模式相似,在领域间进行评分模式共享.(2)CLFM[12].一种聚类层次的潜在因子模型.不仅学习领域之间共享的评分模式,还学习每个领域特有的评分模式,仅利用共享评分模式进行知识迁移.(3)CDTF[15].一种典型的基于张量分解的跨领域推荐模型.利用用户-项目-领域三元关系,通过张量的三因式分解捕捉特征,从而进行知识迁移.(4)WITF[16].一种基于张量因式分解模型.它利用从多领域学习到的显式偏好数据和隐式偏好数据作为先验知识从而提高目标域的推荐性能.(5)CCCFNet[17].一种多视图的神经网络学习框架.将协同过滤和基于内容的过滤结合进行跨领域推荐.(6)MF[31].一种传统的基于协同过滤思想的方法.它将评分矩阵进行分解,得到用户矩阵和项目矩阵,从而预测缺失评分.(7)DeepCoNN[21].一种利用神经网络进行评论文本建模的代表性推荐模型.通过并行CNN 联合学习评论文本中用户和项目的特征从而进行评分预测.(8)D-ATT[23].一种基于注意力机制的推荐模型.通过在CNN 编码层之前引入注意力机制过滤评论文本中重要单词得到用户和项目特征进行评分预测.5.4 实验设置本文模型采用两种不同的方式进行训练与测试.方式1将经过预处理的实验数据集中源域数据全部用于训练,目标域数据随机分为训练集和测试集,其中80%的数据用于训练,20%用于测试.方式2将源域数据全部用于训练,目标域数据随机分为50%的训练集和50%的测试集.在实验环节,实验配置为Ubuntu16.04、CPUi7-8700HQ、16GB内存、NVIDIA GTX 1050Ti 4G,实验所需环境为Python2.7.13、Pytorch0.4.0、Nltk、Scipy、Gensim=3.2.0、Numpy=1.15.本文使用Glove将评论文本向量化,词向量维度L 为100,卷积核数量设置为150,采用多个不同的卷积核进行卷积操作,窗口大小分别为3、4、5.为了缓解过拟合现象,将0.5的dropout[32]应用于决策网络的全连接层.损失函数的参数设置为λ1=λ2=λ3=λ4=0.04,λ5=0.000 64.本文模型中FM 的权重因子维度设置为5,输入FM 的用户特征维度和项目特征维度设置为50.采用自适应矩估计Adam[33](AdaptiveMoment Estimation)训练模型进行优化,它是一个基于随机梯度的优化器,具有自适应估计,其学习率设置为0.001,其余参数设置和Pytorch① 相同.对比模型的参数均为最优值,CBT模型的用户和项目的聚类的数量均设置为50;CLFM 模型的用户和项目的聚类的数量均设置为50,共享公共子空间的维度设置为40;CDTF模型的潜在因子向量的维度设置为25,λU=0.05,λV=0.001,λC=0.001;WITF模型的潜在因子向量的维度设置为25,λU =1,λV=1,λC=1;CCCFNet模型的参数按论文最优值取值;MF算法的潜在因子向量的维度设置为20,正则化参数设置为0.001;DeepCoNN 模型的卷积核数目设置为150,权重衰减设置为0.0064;D-ATT模型按照原论文的最优参数取值.本文对AMTR的重要参数进行了研究,实验表明不同的卷积核数目对模型的性能有不同的影响.在实验中,设置卷积核数目为50、100、150、200、250.在“电影-CD”数据集得到的实验结果如图5所示.图5 卷积核数目对MSE 值的影响从图5中可以看出,当卷积核数目为150时,模型在数据集上MSE 取最小值,而随着卷积核数目的继续增加,模型的MSE 持续变大,模型的性能随着卷积核数目的增加反而变差,因此本文设置模型1932 计  算  机  学  报 2020年① https://pytorch.org/的卷积核数目为150.而DeepCoNN模型与本文一样采用深度学习的方法,利用CNN 进行文本特征的提取从而进行用户和项目的建模.在DeepCoNN模型测试卷积核数目对模型性能影响的时候,MSE同样呈先下降后上升的趋势.因此可以看出卷积核数目对模型性能有较大的影响.5.5 实验结果与分析本文实验的目的是验证融合评论文本信息进行跨领域推荐的AMTR模型优于仅利用评分信息的跨领域推荐模型以及仅在单领域进行推荐的模型.因此通过验证如下内容,评估本文模型的有效性:(1)验证融合文本信息带来的推荐性能提升;(2)验证迁移学习在不同数据集上带来的推荐性能提升;(3)验证注意力机制带来的推荐性能提升;(4)验证本文模型解决数据稀疏和用户冷启动问题的能力;(5)验证本文模型的普适性.此外,还对调整用户评分尺度差异问题进行了相应实验验证.5.5.1 推荐准确度比较为了验证模型的推荐准确度,实验评估了本文提出的AMTR 模型与现有的跨领域推荐模型CBT、CLFM、CDTF、WITF 以及CCCFNet在“电影-图书”和“电影-CD”两种数据集下的结果,并将结果进行比较.对于AMTR模型,使用方式1进行训练与测试.由于上述对比模型大多采用MAE和RMSE 作为实验评估指标,为与其评估方法一致,采用上述指标.不同模型在不同数据集下的MAE 和RMSE 如表2所示.表2 不同数据集下MAE 和RMSE 的比较模型电影-图书MAE RMSE电影-CDMAE RMSECBT 0.8546 1.0286 0.8777 1.0631CLFM 0.9035 1.0787 0.9101 1.1115CDTF 1.1543 1.2535 1.1522 1.2238WITF 1.0800 1.2790 1.0341 1.2003CCCFNet 0.9462 1.1991 0.8713 1.0958AMTR 0.7936 0.9920 0.7798 0.9930从表2可以看出,不管是基于MAE 指标,还是RMSE 指标,本文提出的AMTR模型在不同数据集的实验中均优于对比模型,并且取得了最优的结果.在“电影-图书”数据集上,AMTR模型的MAE为0.7936,相对对比模型中表现最好的CBT 模型提高6.1%;RMSE 为0.9920,提高3.66%.另外在“电影-CD”数据集上,其MAE 为0.7798,相对对比模型中MAE 最好的CCCFNet模型提高了9.15%;RMSE 为0.9930,相对对比模型中RMSE 最好的CBT模型提高7.01%.该结果表明利用评论文本的AMTR模型相对于利用评分的模型能更有效提高评分预测的准确度.5.5.2 知识迁移的有效性为了验证AMTR模型知识迁移的有效性,表明模型可以通过迁移学习提高目标域的推荐精度,本文将AMTR 与单领域的推荐模型MF、Deep-CoNN以及D-ATT进行了比较.对于AMTR模型采用方式1进行训练和测试,其中三个单领域模型只在“图书”和“CD”数据集上进行测试.由于对比模型大多采用MSE 作为评价指标,因此本实验采用MSE 作为评价指标,结果如图6和图7所示.从图6和图7的结果可以看出,在两种数据集上,本文提出的AMTR 模型均优于对比模型.在“电影-图书”数据集上,AMTR 模型的MSE 为0.9841,相比于MF、DeepCoNN和D-ATT模型分别提升了47.72%、14.1%、5.47%.在“电影-CD”数据集上,AMTR模型的MSE 为0.9861,相比于MF、DeepCoNN和D-ATT 模型分别提升了42.49%、14.18%、10.35%.结果表明,相比于只利用单领域数据来说,利用辅助领域数据可以帮助目标域提高推荐性能.表明了AMTR模型具有较好的知识迁10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1933移性能,可以提高目标域的推荐精度.与此同时,利用评论文本的模型DeepCoNN和D-ATT以及AMTR 的MSE 相较于利用评分的MF在“电影-图书”数据集分别提升了33.62%、42.25%、47.72%,在“电影-CD”数据集分别提升了28.31%、32.14%、42.49%,由此可见利用评论文本相比于利用评分可以更好地提高推荐的性能.为了进一步验证AMTR模型能够有效地进行知识迁移,本文设计了一组新的对比实验进行验证,本文模型采用方式2进行训练与测试,单领域推荐模型的数据集随机分为50%作为训练集,剩余50%作为测试集.实验结果如图8和图9所示.通过图8和图9可以看出,本文的AMTR模型在不同的数据集下仍取得了最优性能.在“电影-图书”数据集上,AMTR模型的MSE 为1.0003,相比于MF、DeepCoNN和D-ATT 模型分别提升了46.41%、14.2%、4.55%.在“电影-CD”数据集上,AMTR模型的MSE 为0.9884,相比于MF、DeepCoNN 和D-ATT 模型分别提升了47.06%、16.82%、10.81%.结果表明本文模型可以充分利用源域数据提高目标域的推荐精度的问题,具有较好的知识迁移性能.5.5.3 WAM 和FHM 的有效性本文加入词级别和特征级别的注意力机制,用于捕获更多的重要信息,使得模型有更好的特征提取能力.为了研究WAM 和FHM 对模型性能的影响,本文在“电影-图书”和“电影-CD”跨领域数据集上设置了一组对比实验.分别在不加入WAM和FHM的AMTR-W&F模型,只加入FHM 的AMTR-W模型,只加入WAM 的AMTR-F模型以及AMTR模型上进行对比,结果如表3所示.表3 不同注意力机制下的MSE 比较数据集AMTR-W&F AMTR-W AMTR-F AMTR电影-图书1.1423 1.0546 1.0945 0.9841电影-CD 1.1089 1.0730 1.0925 0.9861从表3可以看出加入注意力机制的模型的性能整体优于不加入注意力机制的模型.在“电影-图书”数据集下,加入WAM 和FHM 的本文模型AMTR的MSE 为0.9841,相较于AMTR-W&F、AMTR-W、AMTR-F分别提升了15.82%、7.05%、11.04%.在“电影-CD”数据集下,本文模型的MSE 为0.9861,相较于AMTR-W&F、AMTR-W、AMTR-F分别提升了12.28%、8.69%、10.64%.由此可以表明WAM和FHM 可以有效地捕获出重要信息,使模型有更好的特征提取能力,提高了模型的性能.为了更直观地说明WAM 可以通过词的输出权重表示不同词的重要性,因此以两个可视化的案例来说明本文提出的WAM 的有效性,随机从“图书”和“电影”的测试集中选择一条用户对某个项目的评论语句作为测试对象,该评论不做任何除词干化之外的操作,保留该句的每一个词的权重,将权重值大于平均值的词标为斜体加下划线,对远大于平均值的词加粗显示,以此为标准,绘制如图10所示的注意力分布情况.图10 注意力分布可视化结果1934 计  算  机  学  报 2020年“图书”领域下的评论总体是用户对书籍内容本身,以及阅读感受的分析评价.“This is a good book”表明用户对“书”的积极情感;“book for children ofall ages”表达了物品“书”本身的特征,是关于“儿童”的书籍;“describingthe stories behind some of themost popular ballets”表明书中“描述”的“故事”是关于“芭蕾舞的”;“written in easy-to-understandlanguage and has beautiful illustrations”表明书用“易于理解的语言”进行“编写”以及具有“精美的插图”.从这句话可以得出“书”的特征有“儿童”、“描述”、“芭蕾舞的故事”、“编写”、“易于理解的语言”和“精美的插图”,同时也可以得知用户对书的“描述”、“编写”、“语言”和“插图”等方面特征的关注.用户虽然只有一个“good”描述了对这本书的感受,但是从“易于理解的语言”和“精美的插图”等方面可以看出用户对这本书的评价呈优.“电影”领域的评论中,可以看出用户对电影整体的偏好,认为它有趣,动作丰富,人物鲜活,摄影技术很好,是蓝光的.体现出用户对电影关注在“电影给予的感觉”、“动作”、“角色”和“摄像”,这些关注的评价呈优,也体现了电影本身的特征“有趣”、“动作”、“角色”、“摄像”和“蓝光”.WAM 很好地关注了enjoy、movie、fun、action packed、charactersare fresh、cinematography feels good、Blue-ray(喜欢、电影、有趣、动作丰富、人物鲜活、摄影技术很好、蓝光).且“action”和“Blue-ray”具有更好的权重,说明它们占据的关注度更高.从上可以看出,WAM 很好地关注了文本中的重要信息,并为这些重要的信息赋予了高权重,因此,神经网络可以通过WAM 加强对文本内容重点部分的关注,使得模型有更好的特征提取能力,同时WAM 提取重要信息的有效性得到证明,使得推荐更具有解释性.5.5.4 缓解数据稀疏问题为验证AMTR模型可以缓解目标域中数据稀疏问题,本节设置两组对比实验,分别与跨领域推荐模型和单领域推荐模型进行对比,通过控制测试集中用户的评论数进行实验.本文模型采用方式1进行训练与测试.针对测试集中每个用户的所有评论,分别从中随机挑选α 倍的评论作为测试集,α 为10%、30%、50%、70%以及100%.实验1. 与跨领域推荐模型的比较本实验在不同的α下分别对跨领域模型进行测试,结果如图11和图12所示.10期 柴玉梅等:基于双注意力机制和迁移学习的跨领域推荐模型 1935α越小,表明领域中的数据越稀疏,数据稀疏问题越明显.由图11和图12可以看出无论α取何值,AMTR模型在“电影-图书”和“电影-CD”两个数据集上MAE、RMSE 普遍优于对比模型,取得了较好的效果.其中,在α为10%时,CBT模型由于数据太少无法得出实验结果.图11表示“电影-图书”数据集下的实验结果.首先从横向比较可以看出,随着α的增加,用户的评论数量增加,各个模型的推荐效果均逐步在提升.例如,当α 为100%时,AMTR、CBT、CLFM、CDTF、WITF、CCCFNet模型相比于α 为10%时,MAE分别提升了2.24%、-、8.19%、13.17%、18.24%、10.87%;RMSE 分别提升了1.91%、-、14.76%、1.97%、14.51%、10.98%;相比于α 为50%时分别提升了1.75%、4.11%、4.52%、6.23%、5.52%、5.61%;RMSE 分别提升了1.17%、3.82%、9.5%、0.98%、10.2%、5.2%.由此可见,本文的AMTR模型相较于对比模型取得了更为稳定的效果,说明AMTR模型受数据稀疏问题的影响较小.同时表明了AMTR模型相对于对比模型可以挖掘更多的有利于评分预测的用户和项目信息,即使在数据较为稀疏的情况下,模型通过评论文本进行知识迁移后的信息可以帮助模型取得较为稳定的推荐效果,更好地缓解数据稀疏问题.从纵向比较可看出,本文模型在各种不同α 下相较于对比模型呈现的效果为最优.例如,当α 为10%时,AMTR模型的MAE 为0.8160,与CLFM、CDTF、WITF、CCCFNet模型相比分别提高了16.94%、47%、44.64%、23.89%;RMSE 为1.0111,分别提高了21.52%、26.21%、41.3%、29.78%.α为50%时,AMTR模型的MAE 为0.8111,相比于CBT、CLFM、CDTF、WITF、CCCFNet模型分别提高了8.46%、13.76%、40.55%、32.41%、19.12%;RMSE 为1.0037,分别提高了6.31%、17%、25.96%、37.55%、24.74%.α最小时,本文模型效果远高于对比模型,充分说明AMTR模型相较于对比模型可以更好地缓解数据稀疏问题.此外,在α为任意值的情况下AMTR模型相比于考虑评分的模型效果提升显著,说明评论文本相较于评分蕴含更多的用户和项目信息,能更好的缓解数据稀疏问题.图12表示“电影-CD”数据集下的实验结果.首先从横向比较可以看出,随着α的增加,各个模型的推荐效果均不断变好.例如,当α为100%时,AMTR、CBT、CLFM、CDTF、WITF、CCCFNet模型相比于α为30%时,MAE 分别提升了1.79%、18.52%、13.4%、13.55%、12.83%、6.74%,RMSE 分别提升了1.7%、11.61%、16.19%、1.96%、18.31%%、8.84%;相比于α 为70% 时,MAE 分别提升了1.38%、0.74%、8.59%、6.4%、0.99%、2.17%,RMSE 分别提升了0.92%、0.27%,11.44%、0.97%、5.2%、4.52%.由此可见,本文的AMTR模型效果较为稳定,相比于对比模型能够更好地缓解数据稀疏问题.从纵向比较可看出,本文模型在各种不同α下效果呈最优.例如,当α 为30%时,AMTR 模型的MAE 为0.7977与CBT、CLFM、CDTF、WITF、CCCFNet模型相比分别提高了26.52%、24.64%、49%、36.47%、14.1%;RMSE 为1.0100,分别提高了16.92%、26.34%、23.34%、37.34%、17.42%.α为70%时,AMTR 模型的MAE 为0.7936,与CBT、CLFM、CDTF、WITF、CCCFNet模型相比分别提高了9.15%、20.24%、42.26%、25.04%、9.94%;RMSE 为1.0022,分别提高了6.36%、22.37%、23.13%、25.01%、13.88%.由此可见,本文所提出的AMTR 模型在一定程度上缓解了数据稀疏问题对推荐结果带来的不利影响,更好地提高了推荐的性能.实验2. 与单领域推荐模型的比较.本实验在不同的α下分别对单领域模型的表现情况进行了测评,结果如图13和图14所示.1936 计  算  机  学  报 2020年图13和图14结果表明,即使在不同的数据集下,本文模型相较于对比模型取得了较高的性能.首先从横向比较可以看出,随着α的增加,各个模型效果逐步提高.例如,在“电影-图书”数据集下,α 为100%时,AMTR 模型的MSE 为0.9841,与α 为10%、30%、50%、70% 相比分别提高了3.83%、2.81%、2.34%、0.57%.在“电影-CD”数据集下,α为100%时,AMTR模型的MSE 为0.9861,与α为10%、30%、50%、70% 相比分别提高了4.99%、3.39%、1.94%、1.84%.本文AMTR 模型效果随着α增加效果变化不明显,表明数据稀疏问题对模型性能影响不大,AMTR模型的稳定性较好.其次,从纵向可以看出,在各种不同α下,AMTR模型呈现的效果最好.例如,在“电影-图书”数据集下,α为10%时,AMTR模型的MSE 为1.0224,与MF、DeepCoNN、D-ATT 模型相比分别提高了55.27%、14.79%、24.6%.α 为50%时,AMTR 模型的MSE 为1.0075,分别提高了51.52%、12.86%、11.21%.在“电影-CD”数据集下,α为30%时,AMTR模型的MSE 为1.0200,与MF、DeepCoNN、D-ATT模型相比分别提高了49.81%、12.34%、23.11%.α为70%时,AMTR模型的MSE 为1.0045,分别提高了47.49%、12.53%、10.1%.结果表明,数据越稀疏,AMTR模型的性能越优于对比模型,表明了本文AMTR模型相较于仅利用单领域信息的推荐模型能够更有效地缓解数据稀疏问题.且利用评论文本的DeepCoNN、D-ATT、AMTR的效果相较于利用评分的MF的效果更好,表明了评论文本相对于评分蕴含着更丰富的用户和项目信息,可以更好地缓解数据稀疏问题.5.5.5 缓解用户冷启动问题用户冷启动[34]是推荐系统存在的一个不可忽视的问题,当新用户行为消息较少时,系统无法掌握其喜好,推荐性能会下降,跨领域推荐可以缓解这种问题.为验证AMTR模型可以缓解目标域中用户冷启动问题,本节设置两组对比实验,将AMTR模型与对比模型分别在“电影-图书”和“电影-CD”数据集上进行对比.从“图书”和“CD”数据集中挑选出400个不与训练集用户重叠的新用户,同时将新用户的评论数目控制为1、3、

[返回]

下一篇:基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究_罗凌