欢迎访问一起赢论文辅导网
博士论文
当前位置:首页 > 博士论文
基于多任务迭代学习的论辩挖掘方法
来源:一起赢论文网     日期:2019-10-22     浏览数:63     【 字体:

 ,whose goal is to classify argument components into different types,such as claimsor premises;(3)Argument component relation identification(RI Task),which aims to identifythe relationship type between argument components,such as support or attack.Recently,manyresearchers have proposed a series of argumentation mining models and made brilliant improvement.However,most of the existing approaches mainly focus on modeling each subtask and ignore thecorrelation information among the three subtasks,resulting in low performance.In addition,some of the approaches utilize pipeline methods to jointly model three subtasks.The pipelinemethods still consider each subtask independently,and train separated models for each subtask,which could lead to error propagation and redundant information in the training process.Morespecifically,the error of argument component boundary recognition module affects the followingargument component classification performance.Similarly,the error of argument componentclassification also influences the performance of argument component relation identification.Tosolve these problems above,we propose a multi-task iterative learning method which assumesthat tags predicting for one task could be useful feature for other tasks,and joints three subtasksin parallel to learn together for argumentation mining.Firstly,we obtain the shallow sharedparameters of the text character and word level by utilizing the deep Convolutional Neural Network(CNN)and the highway network.And then,the Bi-directional LSTM neural network is trainedto solve three subtasks at the same time to avoid error propagation.In the training process,thecorrelation information among each subtask is used to overcome the generation of redundantinformation.Finally,the output of three subtasks is concatenated as the input for the nextiteration to improve the performance.Multi-Task Learning(MTL)is an important machinelearning mechanism and improves the generalization performance by learning a task together withother related tasks.Our model based on MTL could iterative utilize predicting tags’distributionof each task explicitly.Experimental results on student essays published by the UKP laboratoryin Germany show that,compared to the state-of-the-art models,our model improve 2.74% onaccuracy,1.05% on“F1(100%)”and 1.19% on “F1(50%)”,which verify the validity of ourmodel.Besides,results also show that the performance of multi-task learning is better thansingle task learning.Keywords  multi-task learning;argumentation mining;iterator model;deep learning;convolutionneural network1 引 言随着互联网技术和社交媒体的快速发展,用户产生了大量的观点评论等主观性数据,对这些主观性数据的研究蕴含了巨大商业价值和学术价值.论辩挖掘(Argumentation Mining)旨在研究如何从主观性数据中自动地识别论点并抽取论点关系,以满足信息化背景下人们对信息检索和信息抽取的更高需求[1],正逐渐成为情感分析领域的研究热点.它可以广泛地应用在司法[2]、人文与教育[3]、用户生成内容[4]等领域,为人们提供便捷的自动化工具.论辩挖掘中的论点部件(Argument Component)是人们用来说服 听众接受某种 特定 观点 的 基本单位[5],通常一个主要论点(Major Claim)由多个主张(Claim)组成,而一个主张由多个前提(Premise)来图 1 已标记的学生论文数据集[1]样例支持它.图1所示的是一段学生论文的例子,论点部7期 廖祥文等:基于多任务迭代学习的论辩挖掘方法52514-26;在线出版日期:2018-11-30.本课题得到国家自然科学基金项目(61772135,U1605251)、中国科学院网络数据科学与技术重点实 验 室 开 放 基 金 课 题 (CASNDST201708,CASNDST201606)、可 信 分 布 式 计 算 与 服 务 教 育 部 重 点 实 验 室 主 任 基 金(2017KF01)资助.廖祥文,博士,副教授,中国计算机学会(CCF)高级会员,研究方向为文本倾向性检索与挖掘.E-mail:liaoxw@fzu.edu.cn.陈泽泽,硕士研究生,研究方向为文本倾向性检索与挖掘.桂 林,博士,研究方向为自然语言处理.程学旗,博士,研究员,博士生导师,中国计算机学会(CCF)会员,研究领域为网络科学、网络信息安全、互联网数据挖掘.陈国龙,博士,教授,博士生导师,研究领域为人工智能与网络安全.基于多任务迭代学习的论辩挖掘方法廖祥文1),2),3) 陈泽泽1),2),3) 桂 林1) 程学旗4) 陈国龙1),2),3)1)(福州大学数学与计算机科学学院 福州 350116)2)(福建省网络计算与智能信息处理重点实验室(福州大学) 福州 350116)3)(数字福建金融大数据研究所 福州 350116)4)(中国科学院网络数据科学与技术重点实验室,中国科学院计算技术研究所 北京 100190)摘 要 论辩挖掘可分为论点边界的检测、论点类型的识别、论点关系的抽取三个子任务.现有的工作大多数对子任务分别建模研究,忽略了三个子任务之间的关联信息,导致性能低下.另外,还有部分的工作采用流水线模型把三个子任务进行联合建模,由于流水线模型仍然是独立的看待每个子任务,为每个子任务训练单独的模型,存在错误传播的问题,且在训练过程中产生了冗余信息.因此,本文提出了一种基于多任务迭代学习的论辩挖掘方法.该方法将论辩挖掘三个任务并行地联合在一起学习,首先通过深度卷积神经网络(CNN)和高速神经网络(HighwayNetwork),获得文本字符和词级别的浅层共享参数表示;然后输入双向长短时记忆循环神经网络(Bi-LSTM),利用论辩挖掘三个任务之间的关联信息进行同时训练,不仅可以避免错误传播,而且能够克服冗余信息的产生;最后,联结三个任务的 Bi-LSTM 网络 输 出 作 为 下 一 次 迭 代 的 输 入,来 提 高 模 型 的 性 能.实 验 采 用 了 德 国 UKP 实 验 室公开的学生论文 数 据 集,实 验 结 果 表 明,与 目 前 最 好 的 基 准 方 法 对 比,该 方 法 的 准 确 率 指 标 提 高 了 2.74%,“F1(100%)”和“F1(50%)”指标分别提高了1.05%和1.19%,很好地验证了该方法的有效性.关键词 多任务学习;论辩挖掘;迭代模型;深度学习;卷积神经网络中图法分类号 TP391   DOI号 10.11897/SP.J.1016.2019.01524An Argumentation Mining Method Based on Multi-Task Iterative LearningLIAO Xiang-Wen1),2),3) CHEN Ze-Ze1),2),3) GUI Lin1) CHENG Xue-Qi 4) CHEN Guo-Long1),2),3)1)(College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116)2)(Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing(Fuzhou University),Fuzhou 350116)3)(Digital Fujian Institute of Financial Big Data,Fuzhou 350116)4)(CAS Key Laboratory of Network Data Science and Technology,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190)Abstract  Argumentation mining has recently become a hot topic in the field of data mining andnatural language processing.Its main task is automatic identification of argumentative structuresin persuasive essays so as to help people better understand the massive text information.Apersuasive essay usually consists of a series of argument components.The types of argumentcomponents are generally classified into claims or premises,and the types of relationship betweenargument components are commonly classified into support or attack.Argumentation miningtypically contains three consecutive subtasks,i.e.,(1)Argument component boundary detection(ACBD Task),which involves separating argument component from non-argumentative text unitsand identifying the argument component boundaries;(2)Argument component identification,Moens等人[8]在 Araucaria语料集[18]中,通过 提 取 单 词 对,文 本 统 计,动 词 论 辩 性语句关键指示词特征,训练多项式朴素贝叶斯和最大熵模型作为分类器来分类论 辩性和 非论辩性语句,取得了最好性能为73.75%的准确率.Florou等人[7]基于标点、情态动词和动词时态等功能特征,使用 C4.5决策树学习算法[19]作为分类器.Li等人[14]把任务一看成一个序列标注的问题,训练一个不需要依赖于特征的递归神经网络模型来解决论点边界检测的问题.对于任务 二,论 点 部 件 类 型 的 识 别,Teufel[12]等人假设任务一已经完成,即假设已经从文本中准确地提取了论点部件,他们将每个论点句子划分为主张、结果和目的等七种类型,通过提取文本中的结构、词性、语法等特征,训练朴素贝叶斯模型来预测有论辩性句子的论点类型.Rooney等人[11]使用基于自然语言处理的核方法来进行论点部件的分类,不需要任何启发式的特征.Feng等人[9]的方法是基于从论点部件类型的互信息中提取特征,因此它需要预先知道论点 的类型.Laha等 人[15]最 先将基于神经网络模型来应用于论辩挖掘研究,使用两个循环神经网络对论点的类型进行分类.Gao等人[20]把论点类型识别看成序贯决策问题,提出了一个基于强化学习的方法解决任务二.对于任务三,论点关系类型的检测,Palau[10]等人根据法律领域的文档,手动创建上下文无关语法(CFG)来检测论点关系的类型,这种方法不具有通用性,无 法 应 用 在 其 它 领 域 的 文 档 上.Cabrio 等人[21]通过结合文本中的蕴含关系来预测论点部件之间的关系.Stab等人[6]把任务三看成一个二分类任务,使用传统机器学习的方 法,提 取文 本中的结构、词法、语义、指示词等特征,训练分类器,预测主张-前提论点关系类型是支持或者是攻击.Peldszus等人[22]使用最小生成树算法通过计算论点之间的关系形成整体文章的整体结构,从而预测论点的关系类型.目前联合论辩挖掘三个子任务一起做的模型通常是采用流水线的方法,Persing等人[17]最先提出了使用基于流水线方法的端到端模型,输入未标注的文本,通过流水线模型解决三个子问题,最终输出标注的文本.类似的,Stab等人[1],首先为每个子任务训练独立的模型,然后定义一个整数线性规划模型(ILP)进行全局最优化求解.Eger等人[16]把论辩挖掘看 成 基 于 词 级 别 的 依 赖 解 析 和 序 列 标 注 问题,将三个任务的标签融合在一起,对每个单词进行标注,并使用序列标注问题中的经典的双向 LSTM-CNNs-CRF 模 型[23]预 测 论 辩 挖 掘 中 标 签 结 果.Niculae等人[24]提 出 了 一 种 不 需 要 构 建 树 结 构 就能从文档中抽取论辩关系的因子图的方法.同时,Potash等人[25]基于Pointer网络,提出了一个联合模型同时解决论点类型分类和抽取论点关系两个任务.论辩 挖 掘 被 广 泛 应 用 于 许 多 领 域,Moens等人[8,10]将 论 辩 挖 掘 应 用 于 法 律 决 策;Kirschner等人[26]将论辩挖掘研究方法用来分析科研论文的文档摘要;Boltui'c等人[27]应用于文本的观点挖掘,在教育领域;Somasundaran等人[28]将论辩挖掘应用于论文的自动评分系统;Zhang等人[29]将论辩挖掘应用于写作辅助系统,以及 Florou等人[7]将论辩挖掘应用于支持政府制定政策.3 问题描述与动机3.1 问题描述主观性数据的自然语言文本通常是由一系列论点通过一 定 的 结 构 化 关 系 组 成,如 图 2 所 示 的 是图1中学生论文样例构成的论辩结构图.论辩挖掘就是研究如何从主观性数据文本中自 动地识别 论点,判断论点的类型并抽取它们之间的关系.实质上是一个序列标注问题.论辩挖掘问题形式化定义描述如下:给定一篇文本 X={x1,x2,x3,x4,…}和类别标签集合y={y1,y2,y3,y4,…},其中xi表示文本中的一个单词,每个xi都跟标签yi关联[16].利用算法模型,将文本中的每个单词xi映射成一个类别标签yi,即X→Y.算法模型的输入是一篇主观性文本,输出是论辩挖掘三个任务对应的标签yi,yi定义下:yi={(b,t,d,s)|b∈{B,I,O},t∈{P,C,MC,⊥},d∈{…,-2,-1,1,2,…,⊥},s∈{Supp,Att,For,Ag,⊥}} (1)标签yi包含了4个元组(b,t,d,s),其中b,即为任务一的标签,使用 BIO 标记的方法,O 表示论点无关的单词,B表示句子中论点开始的单词,I表示论点句子中间部分的单词.t表示论点类型,MC 表示主要主张(Major Claim),即作者对文章主题提出的中心立场;C表示主张(Claim),即对主要主张(MC)某一个方面提出的 一 个观点;P 表 示 前 提,即 为 主 张(C)或者其它前提(P)提供支持或者反对的论据;(b,t)组成任务二的标签.d 表示当前论点部件与它相关的论点距离.s表示论点关系的类型,其中Supp和 Att分别表示前提与 主张之间 的支持和攻 击 关7期 廖祥文等:基于多任务迭代学习的论辩挖掘方法7251表示主张(C)与主要主张(MC)之间的赞同和反对的关系,(d,s)组 成任 务三的标签.同时定义了一个特殊的符号⊥表示该类型属性为空,比如,当一个单词属于论点无关时,它显然没有论点类型,也无论点关系.表1中给出了学生论文数据集的标注样例.表 1 学生论文数据集标注样例LivingB,C,⊥,ForAndI,C,⊥,ForstudyingI,C,⊥,ForoverseasI,C,⊥,ForisI,C,⊥,ForanI,C,⊥,ForirreplaceableI,C,⊥,ForexperienceI,C,⊥,ForwhenI,C,⊥,ForitI,C,⊥,ForcomesI,C,⊥,FortoI,C,⊥,ForlearnI,C,⊥,ForstandingI,C,⊥,ForonI,C,⊥,ForyourI,C,⊥,ForownI,C,⊥,ForfeetI,C,⊥,For.OOneB,P,-1,AttwhoB,P,-1,AttisI,P,-1,AttlivingI,P,-1,AttoverseasI,P,-1,AttwillI,P,-1,AttofI,P,-1,AttcourseI,P,-1,AttstruggleI,P,-1,AttwithI,P,-1,AttlonelinessI,P,-1,Att,I,P,-1,AttlivingI,P,-1,AttawayI,P,-1,AttfromI,P,-1,AttfamilyI,P,-1,AttandI,P,-1,AttfriendsI,P,-1,Att3.2 模型动机多任务学习是一种重要的机器学习模型,它能够通过与其它相关任务共享参数层和特征一起学习来提高模型的泛化性能[30].而论辩挖掘的三个子任务之间是有关联的相关任务,例如,论点类型为前提或者主张比论点类型为无关论点更有可能是攻击或者是支持的论点关系类型.在序列标注问题中使用一个任务的预测标签来改善相关任务的性能,称为堆叠序列学习(StackedSequence Learning)[31].因此,本文基于如下假设:论辩挖掘中一个子任务的预测标 签能够 作为有效特征,来改善其它子任务标签的性能.4 模型建立4.1 基于多任务迭代学习的论辩挖掘方法本文通过引入多任务迭代学习方法来解决论辩挖掘中的三个子任务.如图3所示,对于给定的输入的文本序列x,多任务迭代学习模型预测第i个论辩挖掘子任务的标签分布y(i)型的输入主要包括三个部分:图 3 论辩挖掘的迭代学习标注模型(1)h(shared):迭代模型底层的通用参数,如图5所示,它通过 CNN 和高速神经网络,从数据中提取不同子任务的共同特征,并在模型中被所有任务共享的参数.(2)y=y(1)+y(2)+y(3):位于迭代模型高层,联结上一次迭代的三个相关论辩挖掘任务的标签分布参数y.(3)f(shared):迭代模型中论辩挖掘每个子任务的特征表示,如表2所示,包括文本结构、文本语义等特征表示.我们将h(shared)和y联 结 起 来 作 为 双 向 长 短 时循环记忆 神 经 网 络 (Bi-LSTM)的 输 入,如 图 6 所示,论 辩 挖 掘 三 个 任 务 共 享 Bi-LSTM,h(shared)与Bi-LSTM 在每次多任务迭代训练学习过程中相互分离,并且在每次迭代训练 预 测标签过程 中,我 们将任务一论点边界检测任务的标签分 布输出联结为任务二 论 点 类 型 识 别 任 务 的 神 经 网 络 输 入,将论点类型识别任务的标签输出联结为任务三论 点关系抽取 任 务 的 神 经 网 络 输 入.在 迭 代 训 练 的 预测模型中,考虑三个子任务不同的特点,我们分别抽取每个子任务 的 特 征 构成f(shared)来预测最后的标签结果.三个子任务的特征如表2所示,主要包括文本结构、文本语义等特征.Stab等人[1]所提出的论辩挖掘模型中同样使用这些特征并取得了较好的效果.8251 计  算  机  学  报 2019年主张,论点部件②、③、④是这段论文的前提.并且论点部件②与论点部件①的主张有着攻击(Attack)关系,论点部件③与论点部件②的也是攻击关系,而论点部件④与论点部件①是支持(Support)关系,最后形成了图2所示的整段论辩文本结构图.图 2 样例文本的论辩结构图论辩挖掘主要分为3个任务[6],包括(1)论点边界的检测(Argument Component Boundary Detection,ACBD),即从论点无关的文本中分离有论辩性的文本并检 测 论 点 的 边 界[7-8];(2)论点类型的识别(Argument Component Identification,ACI),即 识别论点的类型,通常论点 类型 划分为主要主张、主张、前提[9-12];以及(3)论点关系的抽取(ArgumentComponent Relation Identification,RI),即抽 取 论点之间的 关 系,通 常 把 论 点 关 系 划 分 为 支 持 和 反对[10,13].目前在论辩挖掘的研究中,大多数的工作主要侧重研究论辩挖掘的一个子任务,为每个子任务训练独立的模型,这些方法主要分为两大类:(1)基于机器学习的方法.通过提取文本中词法、语义、句法结构、情态动词和动词时态等特征,训练多项式朴素贝叶斯[8]、C4.5决策树[7]、支持向量机[1]等二元或多类分类器来进行论点边界分割,论点类型分类以及论点关系抽取,这些方法十分依赖于手工特征的设计;(2)基于深度学习的方法.通过训练递归神经网络模型[14]来进行论点边界的检测,利用循环神经网络对论点的类型进行分类[15].这些方法大多以句子为单位进行标注,只利用了文本中的局部信息解决论辩挖掘的一个或两个问题.另外,以词为单位的联合序列标注方法[1,16-17],可以利用文本中上下文的长期依赖信息,对三个子任务进行联合训练,取得了较好的性能优势,主要分成两大类:(1)基于流水线(Pipeline Method)的方法[1,17]:主要有整数线性规划模型(Integer Linear Programming,ILP),它首先通过使用支持向量机(SVM)、条件随机场(CRF)等方法,独立串行 地训练三个子任 务的分类模型,最后定义一个整数线性规划函数进行全局最优化求解任务的标签预测结果.流水线方法由于论点类型识别的错误会影响到论点关系的抽取,存在错误传播的问题.另外,这种方法将识别出来的论点进行两两配对,之后进行论点关系分类,产生了论点关系对的冗余信息;(2)基于深度学习的方法:其中有 Bi-LSTM-CNNs-CRF序列 标 注 模型[16],将 三 个 子 任务的标签拼接成一个整体,训练神经网络模型来预测总体的标签分布,这种方法依然没有利用任务之间的关联信息.针对上述问题,本文提出了一种基于多任务迭代学习的论辩挖掘方法,该方法假设论辩挖掘三个子任务之间是相互关联的,不是各自独立的子任务,一个任务的标签预测结果可以作为预测其它论辩挖掘子任务标签的有效特征.模型使用基于词级别的BIO标注方法[16],迭代地利用每个子任务的标签分布,通过提取字符和词级别的特征表示构成共享参数层,并行的进行模型训练学习,并且在预测模型中融入了任务相关的特征.该模型不独立看待每个子任务,不仅使得每个子任务的标签预测结果相互学习,有利于减少错误传播的概率,并且避免了由于无关论点的两两配对,产生的冗余信息.本文采用德国 UKP实验室公开的学生论文数据集进行实验[1],结果表明与 BiLSTM-CNN-CRF、StagBLCC、LSTM-ER 和ILP 等基准方法对比,本文模型不仅在预测论辩挖掘三个子任务标签整体准确率指标上取得了最优的效果,在论点类型识别这个任务上,“C-F1(100%)”和“C-F1(50%)”评价指标分别提高了0.39%和1.05%;在论点关系抽取任务上“R-F1(100%)”和“R-F1(50%)”指标上提高了1.26%和1.18%;在论点边界检测任务上,F1值超过90.0%,达到了92.2%.更进一步地,本文验证了不同迭代次数的实验结果,发现随着迭代次数的增加,模型的性能越来越好,很好的证明了本文所提模型迭代学习的有效性.本文第2节为相关的工作;第3节为问题描述与动机;第4节提出本文的模型;第5节介绍实验数据集;第6节为实验,通过与基准实验的对比验证本文方法的有效性,并对实验结果进行分析;第7节为结束语.2 相关工作论辩挖掘已成为当前研究的热点,大多数的工作是基于每个子任务单独建模研究,对于任务一,从论文无关文本中分离有论辩性的文 本并检测其 边界,通常被看做是一个二分类的问题,作为论辩挖掘流水线任务的第一步,传统的机器学习方法大多集6251 计  算  机  学  报 2019年三个子任务的特征抽取任务 特征描述论点边界检测单词是否是句子的开头或者结尾单词位于整篇文本,段落,句子相对绝对位置单词与句号,逗号,分号等标点符号的距离词性特征(POS)论点类型识别单词是否为指示词以及指示词类型单词是否共享同一个名词或动词短语动词的时态以及是否为情态动词论点关系抽取论点部件之间是否有共享名词以及数量论点部件是否在同个句子或者段落中论点部件是否是在段落的开头或结尾论点部件之间的距离长度图 4 基于 CNN 的论辩挖掘文本表示多任务迭代学习模型能够利用模型前一次迭代的所有任务标签分布作为下一次迭代的输入特征,对于每个任务来说,前一次迭代中所有任务的标签分布可以通过标签的交互信息来修改下一步中预测错误的标签结果.同时,通过使用双向长短时记忆 网络(Bi-LSTM),该模型将标签的交互扩展到句子级别.为了确保每次迭代预测的结果与真实的标签相接近,在每一步的迭代结果中定义了一个损失函数cost,如方程(1)所示:cost=1T∑Ti=1L(yt,y*) (2)L(yt,y*)=1M∑Mi=1αm珟L(y(m)t,y(m)*) (3)其中,yt是第t次迭代的预测标签分布,y*是真实的标签结果,T 是迭代的总次数,也称为递归迭代层的长度,M 是相关任务的数量,αm表示第m 个任务的权重,L 是交叉熵函数.最终的预测的结果是所有预测标签分布的平均值,如方程(3)所示:y(m)=1T∑Ti=1y(m)t(4)在论辩挖掘序列标注模型中,本文构建了一个由 CNNs-Highway-LSTM 组成的神经网络序列标注模型.模型首先由字符和词级别的 CNN 来捕捉文本的特征表示.随后,将两个 CNN 提取得到的特征输入高速神经网络中,目的在于通过高速神经网络中的转换门(transform gate)来过滤有价值的特征.然后,过滤后的特征作为多任务学习底层框架中的共享表示,输入至 Bi-LSTM 网络中进行训练.最后,Bi-LSTM 输出相关任务的表示与底层的共享表示联结在一起,进行迭代学习.4.2 基于 CNN 的论辩挖掘文本表示本文采用了基于 CNN 的词级别和字符级别的论辩挖掘文本表示,该模型非常适用于形态丰富的语言文本中,能够从论辩挖掘文本中获取到丰富的词素、语义和形态等特征,为下一步的实验打下基础.4.2.1 基于 CNN 的词级别表示词级别的卷积神经网络,我们扩展使用了 Kim等人[32]用来解决序列标注问题的卷积神经网络.如图4所示,卷积神经网络(CNN)输入为文本7期 廖祥文等:基于多任务迭代学习的论辩挖掘方法9251下的特殊结构,(1)论点类型为主要主张 (MC)的 论 点 与 其 它 的 论 点 没 有 关 联 关系;(2)主张(C)总是关联全部的主要主张(MC);(3)每个主张(C)至少关联一个前提(P)或者其它主张(C).数据集中,无关论点的单词的数量有47 174个,包含了 1631 个句子,占总数的 32.2%,表 3(b)展示训练集和测试集分类标 注的结 果.总 体 而 言,有751个单词为主要主张(MC),1506个单词为主张(Claim),3832个单词为前提(Premise).论点之间有5338个关系,其中大部分是支持关系(>90%).表 3(b) 训练集和测试集标签分布统计类别 训练集 测试集论点边界分类Arg-B  4823(4.1%) 1266(4.3%)Arg-I  75053(63.6%) 18655(63.6%)Arg-O  38071(32.3%) 9403(32.1%)论点类型分类主要主张 598(12.4%) 153(12.1%)主张 1202(24.9%) 304(24.0%)前提 3023(62.7%) 809(63.9%)论点关系分类支持 3820(90.4%) 1021(91.7%)反对 405(9.6%) 92(8.3%)6 实 验6.1 实验环境实验环境为 Ubuntu 14.04.1,四块 GeForce GTX1080Ti显卡,共 44GB 显 存,Intel(R)Xeon(R)CPU E5-2620,32GB,Python 2.7.13,TensorFlow-GPU(0.12.1).6.2 实验对比模型将基准方法与本文的方法在相同的数据,实验选取了以下对比模型:(1)ILP(Integer Linear Programming)模型[1].该模型基于特征的选择,模型首先选择文本中的结构,词法语法和上下文等特征对论辩挖掘的三个任务,分别通过支持向量机,条件随机场方法构造分类器进行分类标注,之后定义了一个带有约束条件的目标方程,对分类器的结果进行全局调优.(2)LSTM-ER 模型[16].该模型基于端到端的神经网络模型,联合了实体和树结构的关系信息,对文本中的命名实体和关系进行抽取,模型的实体检测是使用 BiLSTM-CRF(BLC)标记模型,关系抽取则是实现一个神经网络用来预 测检测到的实体之间的关 系.这 个 关 系 抽 取 模 块 能 够 充 分 地 使 用 依赖关系树中的信息.为了在让 LSTM-ER 模型适应论辩挖掘 模 型 的 学 生 论 文 数 据 集,本 文 编 码 了 三种命名实体(前提 P,主张C,主要主张 MC),四种关系类型(支持 Support,攻击 Attack,赞同 For,反对Against).(3)StagBLCC模型[23].这个模型首先使用字符级卷积神经网络获得词的表示;之后,将词表示和训练完成的词向量联结起来,输入到 Bi-LSTM 网络中,得到每个状态的表示;最后,将 Bi-LSTM 的输出结果输入条件随机场(CRF)层,最终预测结果.(4)StagBL多任务学习模型[16].这个模型将式(1)中的y看成多任务学习中的主要任务,将y中论点类型识别任务的(b,t)标签和论点关系抽取(d,s)标签看做辅助任务.(5)LSTM-CRF-MTL 多任务学习模型[37].这个 模型是多任 务 学习的传统 方 法模 型,将 LSTM-CRF作为多任务学习的基础神经网络模型,任务之间共享一个通用的表示层,并单独为论辩挖掘三个子任务训练三个不同的 LSTM 神经网络.(6)Joint RNN Model[14]模型.该模型利用递归深度神经网络来解决论辩挖掘的论点边界检测任务.(7)HAs-augmented RL 模型[20],该模型利用论辩挖掘文本中上下文的特殊语境信息,通过强化学习的方法,将论点部件类型识别任务看做序贯决策问题进行建模.6.3 评价指标为了评估本文提出模型的有效性,采用了以下评价指标进行实验:(1)准确率(Acc).论辩挖掘任务中,三个任务分类正确的样本总数除以所有样本的总数.准确率越高,模型分类性能越好,其式子为Acc=∑Mi=1∑Nij=1y*j=yj1∑Mi=1Ni.Ni为第i个任务的测试集大小,y*j表示第j个样本的预测标签,yj表示其正确 的 标签,M 为任务的总数.(2)F1.类 似 Eger等 人[16],本 文 使 用 真 阳 性TP,假阳性FP,假阴性FN,真阴性 TN,来计算模型分类结果的 F1 值,F1=2TP2TP+FP+FN,对于预测论 点 部 件 识 别 抽 取 的 性 能,Persing 等 人[17]定义了一个“α匹配”的概念,比如当α 为100%时,2351 计  算  机  学  报 2019年…,xn],按照文本句子中单词的顺序,每一行都是一个由d 维向量表示的单词,CNN输出为序列 C=[c1,c2,…,cn],C 表示输入每个单词的特征,n 表 示 输 入 序 列 的 最 大 长 度.我 们 在 x之间使用窄 卷 积 和 一 个 宽 度 为k 的 卷 积 核 W ∈R(d×k),并且将k2和k-12作为填充向量填充到序列的头部和尾部,以便保证输入序列的长度在卷积层后不会发生改变.ci=f(WT·(xi-k)2(:i+k-1)2+b) (4)其中,ci卷积后的输出结果,f是非线性激活函数,b是偏差,xi:j表示序列中第i 个到第j 个单词.在输入论辩挖掘的文本序列中,滑动三种不同长度k=3,5和7的卷积核 W 去获取多个局部上下文特征向量,最后这些多维度的特征被联结为局部特征.4.2.2 基于 CNN 的字符级别表示基于卷积神经网络的字符的表示已经被证明是从单词的字符中抽取形态特征有效的方法[33].与基于 CNN 的词级别表示类似,当给定一个单词,我们将它的字符嵌入到卷积神经网络层得到特征映射,接着通过池化层进行 max-over-time pooling操作,从特征映射中捕捉重要的特征,经过池化层的输出就是单词的字符表示向量,最后将字符表示向量与词向量联合作为卷积神经网络的输入.4.3 基于高速神经网络的特征过滤在我们的实验中,如果只有词级别和字符级别的文本表示,实验性能无法达到最优.为了更好地从CNN 的字符和词级别的表示中提取出有效的特征,我们在卷积神经网络层之后紧接一个高速神经网络(Highway Networks)层[34],如图5所示.高速神经网络 通 过 增 加 transform 门 和 carry 门 来 控 制 数据的比例,用于过滤出文本中的重要特征,具体实现如下:ri=(ci-k)2(:i+k-1)2(6)c⌒′i=f WTC·ri(+bC)(7)ti=σ(ci·WT+bT) (8)gi=1-t (9)c′i=ti⊙c⌒′i +gi⊙ci (10)其中,ci:j表示论辩挖掘文本序列中第i 个单词到第j个单词的卷积结果,f是非线性激励函数,WC,bC,WT,bT是 线 性 变 换 参 数,ti是 高 速 神 经 网 络 中 的transform 门,gi是高速神经网络的carry门,高速神经网络允许一部分的ci在通过卷积变换后输出的结果不发现改变.图 5 多任务学习迭代模型共享底层4.4 基于 Bi-LSTM 模型的标注方法在论辩挖掘问题的主观性文本中,文本中上下文信息蕴含着十分重要的特征.因此我们将高速神经网络 层 输 出 的 共 享 特 征 用 做 长 短 时 记 忆 网 络(LSTM)[35]输入,LTSM 网络通过维护三个门限来控制信息是否被遗忘或者是传送到下一步中,从而解决自然 语 言 文 本 中 长 期 依 赖 的 问 题.具 体 实 现如下:It=σ(WSISt+WHIht-1+WCIct-1+bI) (11)Ft=σ(WSFSt+WHFht-1+WCFct-1+bF) (12)ci=Fi⊙ct-1+It⊙cft(13)cft=tanh(WSCSt+WHCht-1+bC) (15)ot=σ(WSOSt+WHOht-1+WCOct-1+bO) (16)ht=oi⊙tanh(ct) (17)其中,σ为sigmoid激活函数,hi是高速神经网络输出层的第i个单词,⊙是点积.在论辩挖掘这个序列标注的问题上,通过使用一个双向 LSTM 神经网络(Bi-LSTM)[36]来捕捉论0351 计  算  机  学  报 2019年下文信息.Bi-LSTM 神经网络在前向和后向传播过程中,使用两个隐藏状态h′和h″分别取捕捉文本中“过去”和“未来”的信息,在神经网络的输出,将两个隐藏状态联合起来作为最后神经网络的输出结果.4.5 模型求解图 6 多任务学习迭代模型迭代框架多任务迭代学习的论辩挖掘模型,由图5所示的共享底层和图6所示的迭代框架组成.共享底层的由字符和词级别的卷积神经网络(CNN)和高速神经网络(Highway Networks)构成,它与迭代框架中的 LSTM 网络,一起组成论辩挖掘的基本标注模型 CNNs-Highway-LSTM.论辩挖掘三个子任务在训练时一起共享 CNNs-Highway-LSTM 组成的网络结构,Bi-LSTM 在迭代框架中,被用来更好地捕获论辩挖掘文本中上下文的依赖信息.如图6所示,在训练过程中,我们将任务一论点边界检测任务的标签分布输出,联结为任务二论点类型识别任务的神经网络输入,将论点类型识别任务的标签输出,联结为任务三论点关系抽取任务的神经网络输入,并加入论辩挖掘任务相关的特征.在迭代模型的每次迭代中,随机选择一个任务并根据任务特定的目标更新模型,重复执行算法1,直到达到训练模型的最大epoch次数.值得注意的是,网络中每次迭代的参数不共享.Bi-LSTM 输出的h(i)均是任务相关的参数.训练模型的算法如下:算法1. 多任务迭代学习模型的训练算法.输入:论辩 挖 掘 三 个 子 任 务 的 训 练 数 据 集 序 列 X={(X1,X2,…)m}3m=1和标签y*={(y*1,y*2,…)m}3m=1输出:给 定 论 辩 挖 掘 三 个 任 务 序 列 的 预 测 标 签y={(y1,y2,…)m}3m=11.初始化模型参数P2.WHILEtT(T 是总迭代次数)DO3. FOR 每个子任务 mM(M 是任务总数)DO4.  从第 m 个任务中随机选取一批训练数据bm5.  计算bm的loss值Lm6.  根据Lm使用 Adam 方法计算pm梯度下降7. END FOR8. 计算平均梯度p=1M∑Mi=1pm9. 根据p 更新模型的参数p10.END WHILE5 数据集描述本文采用德国 UKP 实验室公开的学生论文数据集进行实验[1],这个数据集随机地从essayforum①论坛中挑选402篇学生英文论文,每篇论文包含一个主题.essayforum 是一个能够为不同类型的观点性文本提供书写反馈 的在线论坛.例如,学生用户可以根 据 论 坛 中 的 不 同 的 主 题,如 表 1 样 例 中 的“living and studying overseas”在海外学习和生活好不好为主题,发表自己的观点,进行写作,并在线提交他们的论文.专家会针对论文提供反馈意见.数据集包含7116个句子,由147 271个单词组成.实验数据集中训练集和测试集的划分如表3(a)所示,将402篇论文中的322篇划分成训练集,80篇划分成测试集.数据集的对每个单词进行标注.表 3(a) 数据集统计训练集 测试集论文总数   322   80段落总数 1786  449单词数量 118648  295387期 廖祥文等:基于多任务迭代学习的论辩挖掘方法1351① https://essayforum.com/(50%),论点关系抽取任务的R-F1(100%)和R-F1(100%),三个任务总体的 F1(100%)和 F1(50%)都呈现线性提高.说明迭代模型能够有效地降低标签的错误传播,是一种有效且分类能力好的神经网络训练方法.在迭代训练的过程中,本文模型将第i-1次迭代预测错误的标签,在第i次迭代时被校正为正确的标签.例如,表1中的样例在第1次迭代的时候,单词“One”的预测标签结果是“(B,P,-1,Supp)”,此时,任务一的标签(B)和任务二的标签(B,P)均预测正确,而任务三的标签(B,-1,Att)被错误地预测为(B,-1,Supp);当经过第2次的迭代之后,预测标签变为(B,P,-1,Att),可以发现,此时任务三被校正为了正确的标签(B,-1,Att).说明通过本文提出的多任务迭代学习方法,模型学习到了论辩挖掘子任务之间潜在的关联信息使得评价结果表现得更好.6.5.2 网络结构对实验结果的影响为了测试模型中每层网络结构部件对实验结果的影响,我们单独地移除模型中的网络结构部件进行实验,实验包括在模型中去除字符级别 CNN 表示层,词 级 别 CNN 表 示 层,高 速 神 经 网 络 层 以 及Bi-LSTM 层.实验结果如表5所示,可以发现,用于捕获上下文信息的 Bi-LSTM 层对实验结果影响最大,其 次 是 字 符 级 别 的 CNN 表 示 层,字 符 级 别CNN 表示层能够提升模型1.29%的准确率,并且词级别的 CNN 层和高速神经网络层都让模型的实验性能得到进一步的提升.由此表明,模型中的每一个网络结构部件对提升实验效果有着重要作用.表 5 模型中网络结构部件对实验结果的影响模型 Acc完整的网络结构 64.41去除字符级别 CNN 表示层 63.12(-1.29)去除词级别 CNN 表示层 63.75(-0.66)去除高速神经网络层 64.06(-0.35)去除 Bi-LSTM 层 62.68(-1.73)6.5.3 本文方法与其它联合模型的实验效果对比为了验证多任务迭代学习训练方法联合解决论辩挖掘三个子任务的有效性,将本文方法和现有的论辩挖掘 联 合 方 法 进 行 了 对 比,对 比 实 验 结 果 如表6所示,表格从上到下的 方 法分别是ILP 模 型、LSTM-ER模型、StagBLCC模型以及本文的方法.表 6 论辩挖掘联合模型在学生论文数据集的实验结果AccC-F1100% 50%R-F1100% 50%F1100% 50%ILP  60.32  62.61  73.35  34.74  44.29  44.68  55.23LSTM-ER  61.67  70.83  77.19  45.52  50.05  55.42  60.73StagBLCC 59.34  66.69  74.08  39.83  44.02  49.87  55.22本文方法 64.41  71.22  78.24  46.78  51.23  56.47  61.92从表6中,我们可以看出,各个基准方法整体的实验性能都明显低于本文提出的方法,本文所提的方法在准确率“Acc”上达到了64.41%,比ILP流水线模 型 提 升 了 4.09%,比 LSTM-ER 模 型 提 升 了2.74%,这表明多任务迭代学习方法优于传统的流水线方法.此外,在论点类型识别任务中,本文所提的方法,“C-F1(100%)”和“C-F1(50%)”两个评价指标比串行的ILP模型分别提高6.61%和4.89%;并且在论辩挖掘关系抽取任务中,“R-F1(100%)”和“R-F1(50%)”的评价指标上也比ILP 流水线模型提高了12.04%和6.94%,表明多任务迭代学习模型能够有效减少传统流水线模型中由于论点类型分类 错 误 而 导 致 的 接 下 来 论 点 关 系 抽 取 的 错误.综上 所 述,与 论 辩 挖 掘 联 合 模 型 的 对 比 实 验中,可以看出,本文提出的方法在7个评价指标上均明显高 于 现 有 的 方 法,从 而 验 证 了 多 任 务 迭 代学习模型方法在联合解决论辩挖掘三 个任务时的有效性.为了体现本文所提的方法实验效果的显著性,我们采用 T 检验的方法重复实验 10次,本文方法以p-value<0.01显著性优势压倒其它模型,说明采用多任务迭代学习的论辩挖掘方法起到了效果.6.5.4 本文方法与其他多任务方法的实验效果对比为了验证本文所提的多任务迭代方法比其他的多任务学习方法在解决论辩挖掘任务上具有更好的泛化效果.我们将所提的方法与相关的多任务方法在上述的7个评价指标上进行比较.对比方法包括StagBL模 型[16],LSTM-CRF-MTL 模 型[37],具 体 结果如表7所示,可以看到,我们的方法相较于前两个多任务学习方法取得更好的效果.需要说明的是这三个方法的任务学习形式,StagBL模型是借助辅助任务学习的形式,将式(1)中的y 看成多任务学习4351 计  算  机  学  报 2019年果与真实的标签结果完全一致.当α取值为 50%,表 示 预 测 标 签 中 至 少 有 50% 的部分与 真 实 的 标 签 相 匹 配.本 文 将 这 些 分 布 称 为C-F1(100%)和 C-F1(50%).类似的,对于论点关系的类型,定义为R-F1(100%)和R-F1(50%).显然R-F1的值取决于 C-F1的值,因为预测正确的论点关系类型必须要以预测为正确的论点类型为基础.同时,定义了两个“α 匹配”分别100%和50%的全局F1值,其式子如下:F1(100%)=2×C-F1(100%)×R-F1(100%)C-F1(100%)+R-F1(100%),F1(50%)=2×C-F1(50%)×R-F1(50%)C-F1(50%)+R-F1(50%).6.4 实验参数设置神经网络训练通过反向传播算法进行训练,并使用 Adam 梯度下降法[38]更新神经网络模型参数.在本文的实验中,字符嵌入的随机初始化,维度设置为64维,并在训练过程中使用 Find-Tuned方法进行调整.与 Ma等人[23]一样的,我们使用 StanfordsGloVe[39]中的100维向量作为本文的词向量.在实验中,我们使用线性整流 ReLu函数作为模型的激活函数,Adam 梯度下降法学习率初始化设置为0.01,dropout率设置为0.2,l2正则化为1E-5,最小的batch为100.本文网络中所有的参数均通过在[-0.1,0.1]的正态分布进行初始化.字符级别的CNN 网络的过滤窗户大小设置为1,3,5并且每个过滤窗口带有30个特征映射,词级别的 CNN 网络的过滤窗口大小设置为1,3,5并且每个特征窗口带有128个特征映射.前向和后向传播的 LSTM 网络层的维数被设置为128维.6.5 实验结果分析我们首先分析了多任务迭代学习方法中的迭代次数以及网络结构部件对实验结果的影响;然后,将本文所提出的方法与其它论辩挖掘联合模型的实验结果进行对比来验证方法的有效性;最后,与传统的多任务学习模型进行对比,从而说明本文所提出的多任务 迭 代 学 习 模 型 在 解 决 论 文 挖 掘 问 题 上 的优势.6.5.1 迭代次数对实验结果的影响为了验证循环迭代训练方法的有效性,本文在实验中,设置15组不同的迭代次数(分布取1、2、3、4、5、6、7、8、9、10、11、12、13、14、15次),对比记录不同迭代次数下,在学生论文数据集上的三个任务的实验结果,结果如表4所示.表 4 迭代次数对总性能的影响迭代次数 Acc  F1T=1  61.51  46.83T=2  63.41  51.44T=3  63.70  51.65T=4  64.26  52.77T=5  64.31  54.06T=6  64.33  54.70T=7  64.34  55.29T=8  64.35  55.85T=9  64.38  56.18T=10  64.41  56.47T=11  64.36  56.42T=12  64.34  56.12T=13  64.31  55.24T=14  64.27  54.02T=15  64.26  54.00在训练过程中,在相同的参数设置和网络初始权值条件下进行训练.在数据集上,每个迭代次数的设置采用10次实验的平均结果进行综合评价.具体结果如表4所示,可以发现,当 T 小于等于 10 时,迭代模型在论辩挖掘三个任务上的总体准确率 Acc和F1值随着迭代次数的增加不断提高.当迭代次数为10次时,实验结果取得最好性能.当迭代次数大于10次,随着迭代次数的增加,迭代模型的实验性能逐步降低.因此,本文在接下来的实验中选取最优的迭代参数为10次.当迭代次数为1次时,模型转化为传统的多任务学习神经网络模型,此刻的模型无法有效地利用论辩挖掘相关子任务之间关联的信息,Acc和F1值均为最低值.由此可见,模型的迭代的次数对论辩挖掘任务的总体性能有着很大的影响.图 7 迭代次数对论辩挖掘子任务的影响更加进一步的,我们分别考察迭代次数对论辩挖掘三个任务的影响.如图7所示,随着迭代次数的增加,论点类型识别任务的 C-F1(100%)和 C-F17期 廖祥文等:基于多任务迭代学习的论辩挖掘方法3351

[返回]
上一篇:基于动态采样和迁移学习的疾病预测模型
下一篇:Android应用Activity启动环研究