欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:13872932658(疫情期间使用)
邮箱:peter.lyz@163.com

Q Q:
910330594
网址:http://www.17winner.com
工作时间:
9:00-24:00  

SCI期刊论文
当前位置:首页 > SCI期刊论文
基于双记忆注意力的方面级别情感分类模型
来源:一起赢论文网     日期:2019-12-19     浏览数:180     【 字体:

 statement,and then decode it with our proposed attention mechanism to extract the affectivepolarity information with respect to the given aspect.On one hand,two external memories areconstructed in this paper:a declarative memory and a procedural memory,which have the wordlevel and phrase level information with respect to the given aspect.Meanwhile,position-basedweighting and attention mechanism can help the model capture the important part of each memoryrelated to the target aspect.On the other hand,in the encoder,the words of aspect are the firstinput before the whole sentence.The purpose is to introduce concern of the aspect words in theencoding phase,guide the model to focus on a specific aspect first.Besides,the paper proposes aGRU-based two-stage decoder for selectively extraction of the affective polarity information withrespect to the given aspect from each of the memories.The GRU-based decoder is able to combinetwo complementary features of the word level memories and phrase level memories,helps themodel to have the sentence semantic information and decode more accurate sentiment representationabout the target aspect.Finally,the output representation generated by decoder is fed into asoftmax layer to calculate the probability score of each candidate sentiment polarity.In order toverify the validity of the model,we compare its performance with other STOA models on threebenchmark datasets,including the SemEval 2014Laptop and Restaurant datasets and a widelyused Twitter datasets.The experimental results show that the proposed model outperforms otherrelated works in terms of both the classification accuracy and the generalization performance.Wefurther explore the effectiveness of the proposed aspect-level attention mechanism and the proposedsemantic information extraction mechanism with a bunch of carefully designed experiments,withthe aim to provide new insights and experimental evidence for further study in this area.Keywords aspect-level sentiment classification;sentiment analysis;attention mechanism;memory;neuro-language model1 引 言自然语言处理中的情感分析任务,是指采用计算机辅助手段,基于文本,分析人们对于产品、服务、组织、个人、事件、主题及其属性等实体对象所持的意见、情感、评价、看法和态度等主观感受[1-2].方面级别情感分析是情感分析方法研究领域当前关注的重要问题之一,它包括两个子任务:方面词提取任务和方面级别情感分类任务[3].方面词(As-pect Term)可以是一个单词,也可以是一个短语,为了简化描述,本文统称为方面词.本文研究方面级别情感分类问题,即针对给定语句S 所描述的对象O 的某个特定方面A,分析该语句所表达的语义中关于 的情感极性[4].例如:“Looking around,I saw a roomfull of New Yorkersenjoying a real meal in a real restaurant,not a clubhouseof the fabulous trying to be seen.”该语句摘自SemEval 2014Restaurant数据集,语句评论的对象是餐厅(Restaurant),描述了三个方面:room、meal和clubhouse,相应的方面级别情感分类结果分别是:中性、积极和消极.方面级别情感分类在许多领域,特别是电子商务领域应用广泛,因此受到业界和学术界的关注[5-6].随着深度学习方法,特别是神经语言模型,近年来在自然语言处理领域不断取得新的进展[7-9],越来越多的方面级别情感分类模型开始采用深度学习模型.早期 的 模 型 采 用 递 归 神 经 网 络 (Recursive NeuralNetworks,RecNN)结构,利用句法结构信息辅助提高情感分类准确率[10].然而研究表明,此类模型的性能受句法分析错误的影响较大,特别是在处理非书面表达时性能表现不稳定(如 Twitter数据).近期性能表现较好的方面级别情感分类模型主要以循环神经网络(Recurrent Neural Networks,RNN)为基础构建[11-12].其中,具有注意力机制的双向 RNN模型在当前取得了最佳的性能表现[13-16],因此近期的相关工作主要围绕探索研究注意力机制的设计、RNN 网络的设计以及分类器设计等几方面展开,以进一步提升算法性能.6481 计  算  机  学  报 2019年对当前性能表现较好的模型进行对比研究发现,将句子视为单词序列,以 RNN 作为序列学习工 具,能 够 在 隐 状 态 层 获 得 句 法 层 面 的 有 效 表达[13].通过进一步引入注意力机制,可以帮助过滤隐状态中与所关注的方面词无关的信息,部分实现对隐状态序列在句法分析层面(关于方面词的)语义合成,进而提高模型的分类准确率[15].然而,这种解决方案有两个缺点.一是主流 RNN 模型所采用的长短时记忆机制会导致情感语义的叠加,当句子中存在多个情感极性不一致的方面词时,模型的分辨率会受到影响.二是现有的注意力机制大多基于词向量在语义空间中的相似性进行计算,而表达用户观感的情感词大多与目标方面词关联比较紧密,因此目前普遍采用的基于向量加法的注意力计算方法也难以有效识别复杂语句中与方面词真正相关的情感词,特别是在口语化文本中,大量用户情感表达采用隐喻或语义转折方式进行表达,这种情况较为突出,目前学术界普遍采用相对距离加权的辅助手段来削弱远距离情感词的影响[15-16],这种方式虽然在实际应用中被证明有效,但同时也是导致分类算法在复杂语句失效的主要原因之一.为解决上 述 问 题,受 Bahdanau 等 人 提 出 的 机器翻译模型的启发[17],本文提出了一个新颖的基于双记忆 注 意 力 机 制 的 多 层 模 型 (Bi-Memory basedAttention Model,BMAM),主要贡献如下:(1)本文提出了一种新的方面级别情感分类模型.BMAM 模 型 基 于 RNN Encoder-Decoder框 架设计,与相关工作的主要区别在于,该模型首先对完整语句进行编码,然后在解码阶段迭代地从给定语句中提取关于给定方面词的情感信息.解码器采用分段机制设计,分段采用 RNN 网络进行注意力调优,可以在每一时间步,根据上一步的输出使用注意力机制从相应的记忆中更准确地定位与给定方面词相关的情感极性信息,进而通过调整网络的隐状态获取语句关于给定方面词的情感表达.(2)本文提出了一种新颖的基于双记忆的注意力机制.通过引入两种不同类型的记忆模块,能够从词级别和短语级别两种视角分别提取出语句中与给定方面词有关的重要信息,从而有效克服了基于相对距离加权的词级别记忆模型忽略句法信息的问题,使模型能够更准确地捕获复杂语句中关于不同方面词的情感极性变化.(3)本文使用了该领域广泛使用的三个公开数据集对模型性能进行验证,包括 SemEval 2014[3]的Laptop、Restaurant数据集以及 Dong等人发布的Twitter数据集[10],并与当前主流的相关工作进行了性能比较,实验结果表明,所提出的 BMAM 模型的性能优于相关工作,本文提出的双记忆注意力机制能够有效地从复杂语句中提取出关于给定方面词的情感极性信息,基于该注意力机制设计的编解码模型能够适用于方面级别情感分类任务.2 相关工作方面级别情感分类是情感分析领域的一个细分任务,目标是识别句子中对于给定方面信息的情感极性[3].随着神经语言模型近年来在自然语言处理领域不断取得新的进展,特别是分布式表示学习方法在机器翻译和自动问答等子领域的成功应用,推动了学术界将研究注意力从早期依赖于人工定义特征的传统方法迁移到深度方法[7-9].Dong等人首次提出将递归神经网络应用到方面级别情感分类上,通过自适应的递归神经网络从文本中获取情感极性信息,利用句子的句法结构信息辅助模型提高情感分类准确率[10].该模型引发了学术关注,但随后的研究发现,此类模型对句法依赖性较强,容易受句法分析错误的影响,特别是在处理非书面表达时性能表现不稳定,如 Twitter数据.近年来性能表现较好的模型多为基于 RNN 的方面级别情感分类模型[11],例如,Tang等人采用两个长短期记忆网络(Long Short-Term Memory,LSTM)分别从方面词的左右两侧对语句进行编码,然后连接两个网络的最后输出,作为最终的语句(关于方面词的)情感表达[11].Zhang等人采用门限神经网络对语句的句法和语义信息以及方面词上下文信息进行建模[12].这些基于 RNN 的模型都取得了较好的分类结果,但由于 RNN 网络本身的特点,如LSTM 网络和门限网络倾向于重视近期输入,因此单纯基于RNN 的模型无法很好地捕捉到复杂语句中相对距离较远的情感极性词或短语与方面词之间的潜在关联.后续的研究表明,通过引入注意力机制有助于解决该问题.一条复杂语句中可能包含多个方面词,句中的每个词可能与一个或多个方面词产生关联,句中的短语也可能传达出关于特定方面 词的情感 极性信息.通过引入注意力机制,能够从复杂语句中捕获与方面词相关的细节情感特征[18].例如,Wang等人提出基于 注意力机制 的 ATAE-LSTM 模 型,通过对8期 曾义夫等:基于双记忆注意力的方面级别情感分类模型7481及给定方面词分别采用 LSTM 进行编码,得到句中每个词的隐藏层输出和对方面词的向量表达,然后采用注意力机制对隐藏层输出进行处理,将得到的注意力向量与方面词向量拼接得到关于方面词的情感极性表达[13].Tang等人提出了基于注意力机制的 MemNet模型,该模型基于输入语句的词向量构成的外部记忆进行注意力学习,模型的每一层基于上一层输出的结果重新计算注意力分布,借助深度网络的特征抽象能力实现注意力微调,最终得到关于给定方面词的情感极性表达[15].Chen等人在 MemNet的基础上提出了一个基于注意力机制的 RAM 模型,该模型 使用 GRU 网络实现对注意力的多层抽象,然后通过对不同注意力层捕获到的信息进行非线性组合得到关于给定方面词的情感极性表达[16].上述三个模型是近两年在方面级别情感分析任务中综合性能表现较好的模型,其共性在于均借助一个由词向量(或与之对应的 RNN 隐状态)构成的记忆,采用基于向量相似性的注意力机制,得到关于给定方面词的语句情感表达向量,然后据此进行情感极性分类.如前所述,本文提出的 BMAM 模型与相关工作的主要区别在于该模型采用 Encoder-Decoder框架,建模的基本思想是首先借助 RNN 网络得到关于语句的编码,然后通过分段解码从语句编码中提取出关于给定方面词的情感语义向量,然后据此进行情感极性分类.基于 RNN 的 Encoder-Decoder模型在机器翻译领域的成功应用表明,即使在处理复杂语句时,使用 RNN 作为编码器也能够得到包含完整语义的语句向量表达[17,19-21].因此,如果解码器能够根据给定的方面词准确地从中提取出相关的情感语义表达,则理论上可以准确地实现对任何复杂语句的方面级别情感分类.基于类似的思路,Dai等人在文本分类任务中尝试首先训练一个自编码器,然后用预训练得到的 RNN 模型参数作为分类器模型训练的初始值,取得了较好的实验效果[22].但迄今为止,尚未看到直接使用解码器的输出结果作为文本分类的相关工作,因此本文提出的基于分段解码的语义提取模型是对方面级别情感分析新思路和新方法的一次探索.本文提出的注意力机制与现有的工作既有联系也有区别.双方的共性在于均基于记忆网络的思想进行设计.所谓记忆网络是利用一个可读写的长期记忆(Memory),通过构建一个或多个推理器,基于历史记忆实现推理[23].为了区别 RNN 网络中传递的记忆信息,本文将这种长期记忆称为外部记忆.双方的 区 别 在 于,ATAE-LSTM 和 RAM 模 型 采 用RNN 隐状态构成外部记忆进行注意力学习,忽略了经过预训练得到的词向量本身蕴含的词级别特征.MemNet模型采用词向量构成的外部记忆进行注意力学 习,忽 视 了 RNN 隐 状 态 蕴 含 的 短 语 级 别 特征[16].在我们提出的BMAM 模型中,提出了双记忆机制分别学习句子的短语级别特征及词级别特征,以提升方面级别情感分类的准确性.3 模型描述本文提出的基于双记忆注意力的方面级别情感分类模型(BMAM)借鉴了神经网络翻译模型的设计思想,采 用 基 于 RNN 的 编 码 器-解 码 器 网 络 结构.其中,编码器用于读入句子,输出对该语句所包含语义的抽象表达(实值向量).解码器对该向量进行解读,输出关于给定方面词的情感语义向量,将其输入Softmax分类器,得到情感分类结果.研究表明,神经网络的深度、注意力机制、以及词、短语级别特征等因素对方面级别情感分析算法的性能均有显著影响,因此在 BMAM 模型中,综合考虑了这些因素,为 便于理 解,采 用自底向 上的方式,分三步介绍模型的设计方案.首先,给 出 一 个 简 化 的 网 络 模 型 用 于 说 明BMAM 的设计原理,称为 GEDM 模型(GRU basedEncoder-Decoder Model),原因是该模型的编码器采用 GRU(Gated Recurrent Units)循环神经网络[19],解码器仅由一个 GRU 单元构成.该模型事实上是一个句子 级 别 的 情 感 分 类 器 模 型,在 本 文 中 作 为Baseline模型,用于辅助评估BMAM 模型的性能.然后,在 GEDM 基础上引入方面词信息、一组词级别记忆模块和注意力机制,并扩展了解码器的GRU 网络步长,称为SMAM(Single Memory basedAttention Model).该模型作为简化版的 BMAM 模型,用于说明记忆模块和注意力机制对算法性能的影响.最后,在 SMAM 基础上增加一组短语级别记忆模块,并给出 BMAM 模型的设计细节.3.1 GEDM模型符号约定:以符号s={w1,w2,…,wN}表示长度为 N 的输入的语句,wi表示句子中的单词.符号xi∈Rd 表示 wi对 应的词向量 (d 维 实 值 向 量),则x={x1,x2,…,xN}为语句s的向量表达.8481 计  算  机  学  报 2019年期:2018-04-28;在线出版日 期:2019-01-19.本 课 题 得 到 国 家 自 然 科 学 基 金 项 目 (61772117)、“十 三 五”装 备 预 研 领 域 基 金 项 目(6140312010203)、军委科技委前沿探索项目(1816321TS00105301)、四川省科技服务业示范项目(2018GFW0150)、提升政府治理能力大数据应用技术国家工程实验室重点项目(10-2018039)资助.曾义夫,硕士研究生,主要研究方向为自然语言处理、推荐系统.E-mail:ifz@std.uestc.edu.cn.蓝 天,博士,副教授,主要研究方向为机器学习、自然语言处理.吴祖峰,博士,副教授,主要研究方向为专家系统、自然语言处理.刘 峤(通信作者),博士,教授,中国计算机学会(CCF)会员,主要研究领域为自然语言处理、机器学习和数据挖掘.E-mail:qliu@uestc.edu.cn.基于双记忆注意力的方面级别情感分类模型曾义夫 蓝 天 吴祖峰 刘 峤(电子科技大学信息与软件工程学院 成都 610054)摘 要 方面级别情感分类的研究目标是针对给定语句所描述对象的特定方面,分析该语句所表达出的情感极性.现有的解决方案中,基于注意力机制的循环神经网络模型和多层模型性能表现较好,二者都借助了深度网络和外部记忆做注意力调优,但实验结果表明这些模型在处理复杂语句时的性能不够理想.本文提出一种基于双记忆注意力机制的方面级别情感分类模型,基本设计思想是借助循环神经网络的序列学习能力得到语句编码,并构造相应的注意力机制从语句编码中提取出关于给定方面词的情感表达.为此,构造了两个外部记忆:陈述性记忆和程序性记忆,分别用于捕获语句中与给定方面词相关的词级别和短语级别信息,并设计了一个分段解码器,用于从相关记忆中选择并提取情感语义信息.为验证模型的有效性,在三个基准数据集上进行了测试,包括SemEval 2014的Laptop和Restaurant数据集和一组常用的Twitter数据集,实验结果表明,本文提出的模型在分类准确率和泛化能力上的表现优于相关工作.此外,还设计了专门实验以验证本文提出的方面级别注意力机制和情感语义提取机制的有效性,为进一步研究方面级别情感语义抽取问题提供了新的思路和实验证据.关键词 方面级别情感分类;情感分析;注意力机制;记忆;神经语言模型中图法分类号 TP311   DOI号 10.11897/SP.J.1016.2019.01845Bi-Memory Based Attention Model for Aspect Level Sentiment ClassificationZENG Yi-Fu LAN Tian WU Zu-Feng LIU Qiao(School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610054)Abstract  Aspect based sentiment analysis is one of the basic issues in sentiment analysis field,which is a central concern of the semantic web and the computational linguistics community inrecent years.In this paper,we will focus on the aspect-level sentiment classification,which is asubtask of aspect based sentiment analysis.The goal of aspect-level sentiment analysis is todetermine the emotional polarity expressed by the statement with respect to the given aspect of anobject mentioned in that statement.State-of-the-art solutions include the attention-based recurrentneural network model and the attention-based multi-hop model,both of which contain an attentionmechanism built from an external memory,use a deep network structure for attention fine-tuning.However,according to our empirical study,these models only employ word level or phrase levelfeature,ignore the complementary information of the two kinds of features.Besides,previousmethods usually perform poor when dealing with grammatically complex sentences.In this study,in order to solve above problems,this paper proposes an aspect-level sentiment classificationmodel based on a dual memory based attention mechanism (BMAM).The basic design idea is to usethe sequence learning ability of the recurrent neural networks to obtain a compositional representationM 模型的结构如图1所示,左侧所示的编码器为展开的 GRU 网络,步长为 N(与输入的句子等长).右侧的解码器由单步 GRU 网络构成.解码器以编码器输出的最后一个隐状态hN和编码器记忆状态C 作为输入,输出为解码器隐状态hd,以该向量作为Softmax分类器的输入特征,输出长度为3的向量y,表示对该语句的情感分类结果分布.图 1 GEDM 分类器模型网络结构示意图为简化模型,提高计算效率,编解码器的 GRU采用相同的定义并共享参数.近年来的自然语言处理任务中,较多地采用 GRU 来替代 LSTM 作为序列特征抽象工具,二者的区别在于 GRU 中设置了一个重置门(Reset Gate),替代了 LSTM 中输入门和遗忘门的功能,而 LSTM 中的输出门的作用,则与 GRU 中的更新门(Update Gate)类似.本文采用标准的 GRU,在t时刻,重置门的定义如下:rt=σ w(rxt+urht-1) (1)  其中,wr∈Rd×d和ur∈Rd×d为权重矩阵,xt为当前时刻的输入,ht-1为t-1时刻的隐状态.σ表示Sigmoid激活函数.类似地定义更新门如下:zt=σ w(zxt+uzht-1) (2)  其中,wz∈Rd×d和uz∈Rd×d为权重矩阵.利用重置门可以得到隐状态更新量h′t:h′t=tanh whxt+uh(rt(⊙ht-1 )) (3)  其中,wh∈Rd×d和uh∈Rd×d为权重矩阵,tanh为双曲正切激活函 数,⊙ 表 示 Hadamard 乘 积.最终,GRU 输出的隐状态计算公式如下:ht=G(xt,ht-1)     =zt⊙ht-1+(1-zt)⊙h′t(4)由式(3)、(4)可见,重置门负责调控ht-1所包含的信息对 当 前 输 入 的 影 响,而 更 新 门 负 责 实 现 从ht-1到ht的状态转换.在 GEDM 模型中,解码器可以被视为一个语义解析器,用于从编码器得到的语句语义的压缩表达(即hN)中提取出情感语义,本文采用的方法是以hN作为新的输入,目的是避免引入干扰信息.解码器一个情感表达向量hd:hd=G(hN,hN) (5)  将该向量做线性变换后送入 Softmax分类器,得到关于该语句的情感分类预测结果y^:y^=softmax Wo(hd+bo) (6)  其中,y^∈R|c|×1是概率分布向量,c为情感类别集合,在三分类(积极、中性、消极)问题中|c|=3,wo∈R|c|×d为权重矩阵,bo∈Rd为偏移量.3.2 SMAM模型GEDM 模型是 句 子 级 别的 情 感 分 类模 型,接下来对其 进 行 改 进,使 之 能 够 处 理 方 面 级 别 情 感分类任务.以符号sa={wa1,…,waL}表示长度为L的方 面 词,符 号 xai∈Rd 表 示 wai对 应 的 词 向 量,xa={xa1,…,xaL}表示方面词sa的向量表达.如图2所示,本文将xa拼接在输入语句x 的前端,而非将其置于解码器中,目的是在编码阶段引入对方面词的“关注”,引导模型首先关注一个特定方面.编码器的计算公式与 GEDM 一致,最后输出:hN=G(xN,hN-1) (7)图 2 SMAM 分类器模型网络结构示意图SMAM 模型与 GEDM 模型的另一个显著区别在于解码器的设计.首先,SMAM 扩展了解码器序列长度,以充分发挥深度网络的特征抽象能力[9],从语句的编码中提取出关于方面词的情感语义.其次,SMAM 引入 了 一 个 基 于 陈 述 性 记 忆 (DeclarativeMemory,DM)[24]的注意力机制,以捕获并利用陈述性记忆中包含的针对特定方面的情感极性信息.陈述性记忆模块的构造方式是对输入语句x进行基于位置的加权.Tang等人的研究表明,位于方面词附近的单词对于情感分类结果准确率的影响大于其他距 离 较 远 的 单 词[15].为量化相对距离的影响,对x中任意单词wi,定义其位置权重vi如下:vi=1-pi/N (8)  其中,pi表示词wi在语句x 中相对于方面词的距离.对x中的单词进行位置加权,得到与句子等长的陈述性记忆向量 md={m1d,m2d,…,mNd},其中第i个元素mid∈Rd的计算方式如下:8期 曾义夫等:基于双记忆注意力的方面级别情感分类模型9481mid=vi·xi(9)在得到 md之 后,采 用 一 个 三 层 前 馈 神 经 网 络(Feedforward Neural Network,FwNN)来构造注意力机制.为了从句子中捕获关于给定方面情感极性信息,定义解码器中t时刻的注意力分值公式如下:st,i=w·f W1mid(+W2hL+W3h′t-1)(10)  其中,mid表示md中的第i 个记忆,hL表示方面词在编 码 器 中 被 首 先 编 码 后 输 出 的 隐 状 态,w∈R1×d,W1,W2,W3∈Rd×d为 FwNN 网络参数.在解码器中的不同时间步,FwNN 共享参数.注意到式(10)中,仅h′t-1是关于时间步的变量,由此可以实现注意力微调.在得到关于 md的分值向量st={st,1,st,2,…,st,N}后,采用如下的 Softmax公式得到t时刻关于 md的 注 意 力 权 重 分 布αt= (αt,1,αt,2,…,αt,N),元素计算公式为αt,i=exp(st,i)∑Nj=1exp(st,j)(11)最后,利用求得的注意力权重对陈述性记忆向量 md={m1d,m2d,…,mNd}进行加权求和得到:mdt=1N∑Ni=1αt,imid(12)  在解码器的每一个时间步,GRU 单元接受两个输入参数,一是上一个时间步输出的隐状态h′t-1(初始值为编码器输出的最后一个隐状态hN),二是根据h′t-1计算得到的当前注意力向量 mdt:h′t=G(h′t-1,mdt+h′t-1) (13)解码器最后一个时间步的隐藏层状态h′k送入Softmax分类器,其中参数k是解码器序列长度.3.3 BMAM模型SMAM 模型的优点在于它能够借助记忆模块md和注意力机制的帮助,充分利用单词级别的语义信息.然而在编码阶段,编码器输出的隐状态中还包含了短语级别的语义信息,SMAM 模型对这部分信息并没有加以利用.为了进一步考察这部分语义信息对于方面级别情感分类器性能的影响,在 SMAM模型的基础上引入一个新的记忆模块,称为程序性记忆(Procedural Memory,PM)[24],相应地将改进后的情感分类模型称为基于双记忆注意力的方面级别 情 感 分 类 模 型 (Bi-Memory based AttentionModel,BMAM).由于 BMAM 的编码器网络结构与SMAM 完 全 一 致,为 简 化 描 述,图 3 仅 给 出 了BMAM 模型的解码器网络结构.如图3所示,BMAM 中陈述性记忆 DM 的构造图 3 BMAM 模型的双记忆注意力机制示意图方式与SMAM 相同,程序性记忆 PM 的构 造方式与 DM 类似,区别仅在于 PM 采用编码器输出的隐状态序列h={h1,h2,…,hN}作为输入,借助 GRU的门控机制,h 中的元素hi能够一定程度上保留短语级别的记忆,这里利用了循环神经网络倾向于部分遗忘长序列中较早出现的 历史信息 的特点.PM记忆向量 mp={m1p,m2p,…,mNp}的构造方式与 md类似,同样考虑了距离加权(式(8))和注意力加权(式(12)),因公式相同不赘述.BMAM 的解码器逻辑上由两部分构成,首先基于记忆向量 mp做第一阶段解码,然后在 md基础上做第二阶段解码,目的是分别从两个记忆中捕获短语级别和词级别特征.第一阶段解码器采用的初始值是编码器输出的最后一个隐状态hN,在解码器的每一个时间步,GRU 单元的计算公式如下:h′t=G(h′t-1,mpt+h′t-1) (14)  其中,mpt表示基于程序性记忆mp,根据上一个时间步输出的隐状态h′t-1构造的注意力加权记忆向量.第二阶段解码器将采用陈述性记忆 md来构造注意力向量,GRU 单元的计算公式如下:h′t=G(h′t-1,mdt+h′t-1) (15)式(13)和(15)完全一致,解码器最后一个时间步的隐藏层状态h′k送入 Softmax分类器,输出关于情感分类的分布向量.BMAM 模型解码器中的两个阶段的 GRU 步长值q 和k 为超参数,在实际使用时根据验证集上的网格寻优结果确定.以上三个模型的训练均采用简化的交叉熵损失函数作为优化目标函数,损失函数定义如下:loss=-∑ilogp(y^i) (16)  其中,p(y^i)表示模型对第i个训练样本的正确类别标签的预测结果(概率值).本文采用随机梯度0581 计  算  机  学  报 2019年hastic Gradient Descent,SGD)方法优化目标函数且使用dropout技术来缓解过拟合问题.4 实验及分析4.1 数据集和评价指标为验证基于双记忆注意力机制的方面级别情感分类模型的有效性,采用了三组公开数据集进行测试,分别为 Restaurant、Laptop、Twitter数据集.Restaurant和 Laptop数据集来自于 SemEval2014测评任务,其标注结果包含积极、消极、中立、冲突四个极性[3].由于具有冲突极性的样本在数据集中的比例较低,本文参照其他研究者的工作对数据进行了预处理,去除了包含冲突极性的样本,最终得到的 Restaurant训练集和测试集分别包含 3608和1123条句子样本,Laptop训练集和测试集分别包含2328和638条句子样本.本实验使用的 Twitter数据集来自 Dong等人发布的公开数据集[10],其中包括使用推特社交软件的用户对名人、产品、公司等方面的评论信息,并对其中涉及的方面词进行了三种极性的手工标准(积极、消极、中立).Twitter训练集和测试集分别包含6248和692条句子样本.数据集的详细信息如表1所示.根据实验数据的特点,并参考近期相关工作的通行做法,实验结果同时报导两种分类评价指标,其中二分指标是仅区分积极和消极两种极性的分类准确率,三分指标是指同时区分积极、消极和中性的分类准确率.表 1 基准数据集的统计信息数据集Laptop训练集 测试集Restaurant训练集 测试集Twitter训练集 测试集积极 994  341  2164  728  1561  173消极 870  128  807  196  1560  173中性 464  169  637  196  3127  346总计 2328  638  3608  1120  6248  692本文采用斯坦福大学公开发布的300维的预训练 Glove词向量作为词典,词典大小为1.9M[25].相应地,所有 GRU 的隐藏层维度均设置为300,学习步长设置为η=0.01.其余超参数如SMAM 模型解码器步长k和 BMAM 模型解码器中的步长值q 和k 采用网格寻优法确定,方法是从训练集中随机取20%作为验证集,网格寻优的步长值取值范围设定为k=[1,20]和q=[1,20].本节报道的 BMAM 模型实验结果是分别在 Laptop和 Twitter数据集上取k=7,q=7,在 Restaurant数据集上取k=9,q=9的超参数条件下取得的.模型中其他参数均采用正态分布 N(0,0,0.052)随机初始化.4.2 对比模型为评估 BMAM 模型的性 能,将在三个 公开数据集上与如下相关工作中提出的模型进行对比:(1)SVM.Kiritchenko等人用支持向量机(SupportVector Machine,SVM)作 为 分 类 器,并 抽取 一 系 列表层8特征、词典特征和语法分析特征[6].该模型在SemEval-2014测评中,在 Laptop和 Restaurant数据集上分别取得了第一和第二的成绩.(2)GNN.Zhang等人使用门限神经网络来连接推文中的词以表示给定方面与上下文,之后将这两方面信息整合生成最终的句子表示[12].(3)ATAE-LSTM.Wang等人将方面向量拼接到句子中每个词的向量上,然后利用注意力机制将计算每个词向量的权重,从而生成加权句子表示[13].(4)MemNet.Tang等人将提出了一个基于输入词向量构成的外部记忆进行注意力学习的多层模型,其中模型的每一层基于上一个层输出的关于给定方面的语句注意力表达重新计算注意力分布,借助深度网络的特征抽象能力进行注意力微调[15].(5)RAM.Chen等人使用双向 LSTM 的隐藏层构建位置加权记忆,然后利用注意力机制从位置加权记忆中捕获远距离分隔开的情感特征[16].4.3 算法准确率比较分析表2 给 出 了 BMAM 模 型 与 相 关 对 比 模 型 在Laptop、Restaurants、Twitter等三个数据集上的方面词情感极性分类准确率结果.对于 GNN、ATAE-LSTM、MemNet模型,本文使用作者发布的代码进行了实验重现,对于 SVM 和 RAM 模型,直接引用了原始论文中发布的结果.通过分析实验结果我们发现,现有模型对于中性情感的分类性能均表现欠佳,为揭示该问题,本文在设计实验时考虑了二分类的情况,即从数据集中剔除情感极性标注为中性的方面词,仅对其中标注为积极和消极极性的方面词进行模型训练和测试,由此一共得到六组实验结果.表2中每一行表示相应模型在不同实验条件下得到的预测准确率,每一列得分最高的一项用粗体标出,表示性能最好.总体说来,本文提出的 BMAM模型在四组实验中优于相关模型,在两组实验中取得了与最 优模型相近 的 结 果,该 结 果 表 明 BMAM模型能够有效处理方面词情感分类任务.8期 曾义夫等:基于双记忆注意力的方面级别情感分类模型1581

[返回]
上一篇:RDBMS上的声明式递归计算
下一篇:基于多路分块的Pay-as-you-go实体识别方法