欢迎访问一起赢论文辅导网
SCI期刊论文
当前位置:首页 > SCI期刊论文
基于分类的微博新情感词抽取方法和特征分析
来源:一起赢论文网     日期:2018-04-01     浏览数:2686     【 字体:

 40卷 计算机学报 Vol.402017论文在线出版号No.70 CHINESEJOURNALOFCOMPUTERS OnlinePublishingNo.70———————————————本课题得到国家自然科学基金(61363039,61562032,61363010)、江西省落地计划项目(KJLD14035)、江西省自然科学基金重大项目(20152ACB20003)资助. 刘德喜(通讯作者),男,1975年生,博士,教授,博士生导师,计算机学会(CCF)会员(E200012514S), 主要研究领域为社会媒体处理、信息检索、自然语言处理.E-mail:dexi.liu@163.com. 聂建云,男,1963年生,博士,教授,博士生导师,主要研究领域为信息检索. 万常选,男,1962年生,博士,教授,博士生导师,计算机学会(CCF)会员, 主要研究领域为Web数据管理、数据挖掘. 刘喜平,男,1981年生,博士,副教授,主要研究领域为Web数据管理、数据挖掘. 廖述梅,女,1976年生,博士,副教授,主要研究领域为信息管理与信息系统. 廖国琼,男,1969年生,博士,教授,博士生导师,主要研究领域为社会计算. 钟敏娟,女,1976年生,博士,副教授,主要研究领域为Web数据管理、数据挖掘. 江腾蛟,女,1976年生,博士,讲师,主要研究领域为情感分析.基于分类的微博新情感词抽取方法和特征分析*刘德喜1), 聂建云2), 万常选1), 刘喜平1), 廖述梅1), 廖国琼1), 钟敏娟1), 江腾蛟1)1)(江西财经大学信息管理学院, 南昌330013)2)(DepartmentofComputerScienceandOperationsResearch,UniversityofMontreal,MontrealH3C3J7,Canada)摘要 情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础。人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据。微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源。考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEmcNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性。通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现,六类特征的作用和用法,以及抽取的新情感词对微博情感分类任务的帮助作用。实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时。对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种。关键词 微博;新情感词抽取;cNSEm方法;特征分析中图法分类号TP18论文引用格式:刘德喜,聂建云,万常选,刘喜平,廖述梅, 廖国琼, 钟敏娟, 江腾蛟, 基于分类的微博新情感词抽取方法和特征分析,2017,Vol.40,在线出版号No.70LIUDe-Xi, NIEJian-Yun, WANChang-Xuan, LIUXi-Ping, LIAOShu-Mei, LIAOGuo-Qiong, ZHONGMing-Juan, JIANGTeng-Jiao,AClassificationBased Sentiment Words ExtractingMethod fromMicroblogs and its Feature Engineering, 2017,Vol.40,OnlinePublishingNo.70AClassificationBasedSentimentWordsExtractingMethodfromMicroblogsanditsFeatureEngineeringLIUDe-Xi1),NIEJian-Yun2),WANChang-Xuan1),LIUXi-Ping1),LIAOShu-Mei1),LIAOGuo-Qiong1),ZHONGMing-Juan1),JIANGTeng-Jiao1)1)(SchoolofInformationTechnology, JiangxiUniversityofFinanceandEconomics,Nanchang,330013)2)(DepartmentofComputerScienceandOperationsResearch,UniversityofMontreal,MontrealH3C3J7,Canada)网络出版时间:2017-05-26 19:37:33网络出版地址:http://kns.cnki.net/kcms/detail/11.1826.TP.20170526.1937.008.html2 计算机学报 2017Abstract Textsentimentanalysistriestoget theorientation(attitude, pointofview,oremotion)ofinformationpublishers, whichiswidelyusedinthefieldofpublicopinionsupervision, product reviewsanalysis, et al., andhasbeenbecomeoneofthehottest topicsinnatural languageprocessing, socialmediaprocessing, datamining,etc. Sentiment analysisor emotionanalysisontext isalwaysbasedonasentiment dictionary. Manually-builtsentimentdictionarymayproduceshighaccuracyhoweverwithlimitedcoverageandupdatingdifficulty,whichishardtocopewithsituationunderWeb2.0,wherenewsentimentwordsarecreatedmorefrequentlyandspreadmorequickly. Microblogplatforms, suchasTwitter andSina, allowuserstopublishandtransmit informationfreely, and become important sources of newsentiment words. By using large manually-built sentimentdictionariesandmicroblogdatawithmasssentimentwordsonline, thispaperanalyzesdistributiondifferenceofChineseandEnglishsentimentwords,andcNSEmisproposedtoextractnewsentimentwordsfrommicroblogs,basedonclassificationprinciple. cNSEmautomaticallygeneratescandidatesamples, whichareclassifiedbyatrainedclassifier, andthensortedandextractedaccordingtoavotingstrategy.Theclassificationbasedmethodshave beenusedtoextract newsentiment words insome relatedworks. However, most of themextractedsentimentwordsfromwebpages,Wordnet, orproduct reviews, andcandidatewordsareusuallyconstrainedonadjectives. cNSEmhastodealwithnot onlytheinformal expressionofmicroblogsbut alsotheexpandedPOScandidates, especiallywhennounsareincluded.Basedonsomecarefullydesignedexperiments, weanalyzetheperformanceofcNSEmonbothChineseandEnglishmicroblogs.WealsoanalyzeandcomparetheimpactsofsixcategoriesoffeaturesusedincNSEm, includingcontext,POS, languagemode,modifyrelationship, sentencefeatureandco-occurrencewithothersentimentwords. Experimental resultsshowthat sixcategoriesoffeaturesemployedbycNSEmplaydifferentrolesinsentimentwordsextractionandpolaritysettingindifferentlanguages.Experimental results onChinesemicroblogs alsoshowthat the classical co-occurrence besedmethods areeffectivewhencandidatesareadjectives, but their performancedegradedwhennounsareincluded. However,cNSEmperformsbetterthanco-occurrencebasedmethods, especiallywhennounsareconsideredascandidatesentimentwordsonChinesemicroblogs. ToevaluatecNSEmperformance,wealsotest theimpactsofextractedsentiment wordsonsentiment classificationtasks. Experimental resultsonChinesemicroblogsshowthat theperformanceofmicroblogsubjectivityclassificationandpolarityclassificationhasbeenimprovedsignificantlyafter sentiment dictionaryexpandedbycNSEm, andcNSEmperformsbetter thanbenchmarkmethod. AsforclassifyingsubjectivetermsonEnglishmicroblogs, thebenchmarkmethodandcNSEmperformclosely, whilecNSEmperformbetterthanbenchmarkmethodforpolarityclassificationtask.Surprisingly, thesentimentwordsextractedbycNSEmaremorehelpful forsentiment classificationtasksthanmanual sentiment dictionaries. Inconclusion,boththedirectevaluationresultsbyidealsentimentdictionariesandtheindirectevaluationresultsbysentiment classificationtasks showthat thenewsentiment wordextractedbycNSEmarecompetitivewithmanual sentiment words. Moreover, cNSEmisadaptivetobothChineseandEnglishmicroblogs, whichhavegreatdifferencebetweentwolanguages.Keywords microblogs;newsentimentwordsextraction;cNSEmmethod;featureengineering1引言文本情感分析(以下简称“情感分析”)是利用自然语言处理、机器学习、数据挖掘等技术,通过文本内容分析其作者的观点、态度、情感或情绪,分析的文本对象包括新闻、评论、微博等。情感词典在文本情感分析任务中扮有重要角色,是很多情感分析方法中情感倾向性和情感极性判断的重要依据,情感词典的质量甚至会直接或间接决定着情感分析的效果[1]。因此,包括大连理工大学、清华大学、台湾大学等很多研究机构或团队,花费了巨大代价通过人工方式构建高质量的情感词典。Web2.0的发展和手持终端设备的普及让数以论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 3亿计的用户通过博客、微博、微信、Twitter等平台走进自媒体时代,普通民众的参与使得各种网络用语或网络新词快速更迭并迅速传播,这其中不乏大量带有情感的新词或不规范用词,如中文新情感词“弱爆”、“傻X”、“逆天”等,英文新情感词如“goooood(good的不规范使用)”“dobe(逗比,形容人逗、傻得可爱)”“obamacize(像奥巴马那样努力奋斗)”等。新情感词有2种:一是带有情感极性(又称情感倾向性)的未登录词;二是未被已有情感词典收录的登录词,但在某些特定时期、特定领域或特定上下文中表现出了情感极性。COAE20141的任务3定义新情感词为前者,即新情感词是指那些未在通用词典中出现的且带有情感极性的词。由于本文的实验中部分情感词被随机选择出来用于评测,因此综合考虑这两种新情感词。由于这些新词并未被通用词典收录,也不会被常用的语义词典如WordNet、同义词林、HowNet等词典资源收录,很难用基于词典的方法获取其情感极性。Twitter、新浪微博、人人网等社会网络平台是普通民众参与自媒体的重要平台,包含大量新情感词,同时也是很多基于情感分析的舆情分析、商品评论分析、商品推荐等工作的数据源。因此,基于微博的情感分析或情感词抽取受到学者的普遍关注并取得了大量成果。但由于微博数据主题复杂、语法不规范等特点,使得一些相对成熟的、用于商品评论等特定领域的、或以语法分析为基础的方法无法适应。已有的新情感词抽取方法通常具有以下三个共同假设:假定候选词仅为形容词、动词、副词;假定情感词之间、相同极性情感词之间的共现程度更高;假定已知的种子情感词典规模较小,通常为数十条或上百条,可以在共现的基础上通过极性传播和传递(Propagation)逐步扩展得到新情感词。然而,第3小节的实验分析发现,与英文情感词分布不同的是,在中文微博中,除形容词、动词、副词外,还有大量的情感词以名词词性出现,而名词类情感词与其它情感词之间的共现并不比名词类非情感词与其它情感词之间的共现更频繁,这导致点互信息等共现特征无法有效地区分名词类情感词与非情感词。另外,在出现两个以上情感词的中、英文微博中,有近一半的微博中两个或多个情感词的极性并不完全一致。目前已有的中、英文情感词典非常丰富,例如1 http://www.liip.cn/CCIR2014/pc.html大连理工大学的DUTSD2、清华大学的THUSD3、知网的HNSD4、台湾大学的NTUSD5等中文情感词典,SentiWordNet6MPQA7等英文情感词典,这些情感词典收录了少者数千、多者上万条情感词,可以作为训练样本。此外,类似Twitter、微博等平台每天数以亿计的微博量,可以用作情感词的上下文或特征。因此,基于机器学习的新情感词提取方法是比较适合微博数据的,而特征选择则成为该方法成败的关键。然而,目前还没发现有相关文献系统地讨论什么特征对于微博新情感词抽取是有效的和必要的,也没有文献对从不同语种的微博上抽取新情感词进行对比分析。本文的工作是在参加COAE2014微博新情感词抽取任务基础上的进一步扩展,主要工作包括:(1)充分利用人工情感词典和微博数据,提出基于分类的微博新情感词抽取算法cNSEm(classification based New Sentimental wordsExtractingfrommicroblog)(4)。已有基于分类的情感词抽取方法中,一般限定候选词为形容词,情感词来源也以WordNet语义词典、网页或商品评论数据为主。cNSEm针对微博数据,并且将中、英文中的名词也纳入候选词。cNSEm不需要语义词典(微博中的新词通常没有收录进现有的语义词典中)或带有情感极性标注的数据集(收集困难、不适合微博数据),只需要一些种子情感词、通用词典和大量微博数据,获取方便。(2)通过在中、英文两类微博数据上的大量实验,分析了上下文、词性、语言学模式、修饰关系、句子特征、与情感词的共现等6类特征(5)cNSEm的影响,结果显示,对于不同语种,这6类特征对新情感词的抽取及极性判断作用不尽相同(6)。本文在特征选择时借鉴了已有的研究成果,包括那些并非基于分类方法抽取情感词时用到的线索,但更多地是对这些线索或特征进行抽象,使得特征不再依赖于具体的语言,具有语言无关的特点。(3)在中文微博数据集上的实验结果显示(6),基于共现和极性传播的方法GPC的性能对形容词类型的情感词抽取是有效的,但增加名词等更多候选词后,GPC性能下降严重,cNSEm方法则2 http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx3 http://www.datatang.com/data/445224 http://www.keenage.com/html/c_bulletin_2007.htm5 http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html6 http://sentiwordnet.isti.cnr.it/7 http://mpqa.cs.pitt.edu/4 计算机学报 2017年表现出良好的性能,抽取得到的新情感词词典与理想(人工)情感词典之间的Rprec值与多个人工情感词典之间的Rprec值相当。(4)实验分析了新抽取的情感词对微博情感分类的影响(6),结果显示,对于中文微博,利用cNSEm扩展得到的新情感词能显著提高微博主观性分类和极性分类的效果,且较GPC方法要好;而对于英文微博的主观性分类,GPCcNSEm方法表现相当,但在极性分类方面,cNSEm要显著好于GPC。并且,扩展后的词典在对微博情感分类的帮助上超过实验中选择的人工词典。2相关工作尽管有不少关于新词识别的文献,但本文的焦点是判断新词的情感极性,因此,对于中文采用能够识别新词的分词系统同时完成分词与新词识别工作,对于英文则视不在给定词典中的词为新词。商品评论分析、舆情分析、商品推荐等以文本情感分析为基础的应用具有重大的商业价值和社会意义,吸引着越来越多的企业和科研院所参与研究,在文本情感分析的基础研究和应用上取得了丰硕成果[2-6]。由于情感词典在文本情感分析中的重要作用[7,8],很多研究者,特别是情感分析工作开展较早的研究者,花费大量人力物力通过人工筛选与标注的方式构建人工情感词典,如前文提到的DUTSDTHUSDHNSDNTUSDSentiWordNetMPQA等,这些高质量的人工情感词典为本领域的研究作出了卓越的贡献。然而,这些人工情感词典在情感分析时并不能完全满足需要,有大量相关工作是先扩展人工情感词典或种子情感词,再在此基础上开展情感分析工作。情感词抽取或情感词典扩展方法可以分为两大类,一是基于共现或相似度的方法,二是基于分类的方法。基于共现或相似度的方法通常利用种子情感词、语义词典以及包含情感词的文本等资源,以候选词与种子情感词的共现、相似性等信息为依据,抽取情感词并判断其极性。例如,文献[9]认为,与种子情感词共现且用“and”连接的形容词是情感词,且极性与种子情感词相同,而用“but”连接时极性相反。文献[10-12]则将点互信息PMI(Point-WiseMutual Information)作为考察共现强度的指标:与正向种子情感词共现越强、与负向种子情感词共现越弱,该候选词是正向情感词的可能性越大,反之则其是负向情感词的可能性越大。同理,候选词与种子情感词越“相似”,其是情感词的可能性越大,其极性的判断与基于共现类似,而相似性计算方法不尽相同,包括基于上下文的相似度[13]、基于词在WordNet中的语义距离[14]、基于WordNet中词的释义[15]等等。而文献[16]则基于词干来考察这种相似性。考虑到种子情感词的规模较小,与种子情感词的共现分析或相似性分析不够全面,有学者通过构建词汇图并让情感极性在图中传播的方式,将那些与种子情感词无直接共现或共现较弱的候选词也纳入考察范围[17-20,21],或者采用多次迭代的策略,每次抽取少量情感词,多次迭代,不断扩展[22]。还有一类基于共现和极性传播的方法不仅考虑情感词之间的共现,还考虑情感词与情感对象(例如商品评论中的评论对象)之间的共现,认为在商品评论这类数据中,情感词及评论对象不会孤立地出现,因此当发现评论中有情感词时,附近应该有评论对象,同理,有评论对象的上下文本中应该有情感词。因此,情感词和评论对象互为证据、协同抽取[23-26]。基于分类的方法将情感词抽取和情感极性判断视为分类问题,通过分类模型,将候选词划分到正极性、负极性和无极性三个类别中。特征的选择和训练数据的选择是这类方法之间的主要区别。例如文献[27]WordNet的同义词集为特征、文献[28]WordNet中词的释义(gloss)为特征,它们的训练数据都来WordNet中的种子情感词。文献[29]的训练数据则来自用户在评论中对产品的打分情况,希望抽取的情感词对产品自动打分有帮助。尽管在新情感词抽取上已有大量研究成果,但在针对不同语种的微博数据时,新情感词抽取效果仍有很大的提升空间,有些核心问题还有待探索,具体体现在:(1)候选词词性的限定有局限性。目前大部分新情感词抽取工作都将候选词限定在形容词、副词等词性上[28,30-32],抽取方法的有效性也得到了充分的证明,但实验发现,在中文语种的微博中,这种仅以形容词词性为抽取对象是有局限性的[33]。例如,文献[28]显示,形容词和副词是情感词的概率(0.39660.3570)远大于动词和名词是情感词的概率(0.11040.0998)。在英文微博数据上的统计显示,仅以形容词、副词、动词为候选词时,可以覆盖85%以上的情感词,因此,权衡准确率和召回率,很多经典方法只将形容词和副词等作为候选词。然论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 5而,在中文微博中,形容词和副词仅覆盖了21%的情感词,而仅以名词词性出现在数据集中的情感词就占到已知情感词典的40%。因此,对于中文微博,考虑名词类情感词是必要的,但大量以名词词性出现的词并非情感词,这给新情感词的抽取带来巨大挑战。文献[21]在基于中文微博数据构建情感词典时,将候选词从形容词扩大到成语、习惯用语等,但依然没考虑名词。文献[34]在构建跨领域的中文情感词典时,除了形容词、副词外,考虑了形容词-名词短语,仍没有离开“形容词”。文献[35]分析了以名词词性出现的商品可能蕴含的情感极性,但在构建通用的情感词典时,商品并不能纳入情感词典中。例如,微博中关于“中石油”的评论大都是负向,但“中石油”不是情感词。文献[36]在完成文本情感分类任务时,以400个情感词为种子,从约40亿个Web面页里抽取了近18万条“新”情感词,尽管扩展后得到的情感词有利于文本情感分类任务,但这些词明显不适合都视为新情感词,因为与种子情感词共现的上下文信息对文本情感分类的确能起到帮助作用。对这近18万条“新”情感词的评测结果也证实了这一点:规模上它是WordNetLP(利用LabelPropagation方法在WordNet上构建的情感词典)30余倍,但对WordNetLP的覆盖不到一半。(2)基于分类的方法依赖语义词典或标注数据集。3.3小节以及文献[33]中的实验分析显示,将名词作为候选词后,基于共现的情感词抽取方法已不适合微博数据,而目前基于分类的方法或者依赖于语义词典[27,28],或者需要直接[37]或间接标注的数据集[29],这在利用微博数据集抽取新情感词时是不现实的。一方面微博中的“新”情感词在语义词典中不存在,另一方面对微博进行情感标注工作量太大。(3)特征的选择和使用有待进一步分析。本文提出的基于分类的微博新情感词抽取方法cNSEm是以是前期参加COAE2014评测为基础的[33],由于时间限制,参加评测时所采用的特征仅为种子情感词和候选词上下文中的N-Gram特征,新的特征及用法还有待进一步挖掘。(4)多数经典的方法将新情感词的抽取视为中间过程,并利用扩展后的情感词典对文本情感分类的改善作为评价新情感词质量的标准[36]。实验发现,如果任务本身就是抽取新情感词而不是文本情感分类,这种间接评价的方式存在误导。例如,在COAE2014提供的微博数据中,大量关于“蒙牛”的微博都是负极性的,因此,如果将“蒙牛”视为负极性的情感词是有利于微博情感分类的,但将“蒙牛”纳入到情感词典中不太适合。3数据分析文献[33]统计了情感词在中文微博中的词性分布和情感词之间的共现情况,指出对于中文微博,候选词限定在形容词上、以及基于共现的新情感词抽取方法是不合适的。本节将对中、英两种语言的微博数据中情感词的分布情况和共现情况进行对比分析,旨在进一步明确将名词作为候选词的必要性及所带来的挑战。3.1数据准备中文微博数据集DCCOAE2014任务3提供了约1千万条中文微博,从中随机选择50万条,删除用户名和超级链接等预处理后,用ICTCLAS20138分词并标注词性,用StanfordCoreNLP9进行依存句法分析,得到本文实验用的中文微博数据集DCICTCLAS2013考虑了中文微博的特点,可以发现新词,如“百菜价”、“套现”、“毒舌”、“钜惠”、“帅哥”等。中文情感词词典SC。常用的四部中文情感词典DUTSDTHUSDHNSDNTUSD,去掉极性为“0”或者在词典内部存在极性歧义的情感词条后,各情感词典的词条数如表1所示:表1常用中文情感词典收录的情感词数量DUTSD THUSD HNSD NTUSD正向情感词数量 11174 5566 4431 1810负向情感词数量 10740 4467 4231 6537如果将其中一部情感词典视为理想的情感词典(2中的各列),其它词典(2中的各行)相对该理想情感词典的召回率如表2所示。其中“P±”表示考虑情感极性时的召回率,即要求情感词的极性判断也正确,而“P”表示不考虑极性时的召回率。反之,如果将各行视为理想情感词典,表中的值则表示其它词典(各列)对理想情感词典的准确率。表2常用中文情感词典之间的召回率(以各列为理想情感词典)DUTSD THUSD HNSD NTUSD8 http://ictclas.nlpir.org9 http://nlp.stanford.edu/software/corenlp.shtml6 计算机学报 2017P P± P P± P P± P P±DUTSD .6252 .6196 .4950 .4747 .2293 .2243THUSD .2863 .2837 .3182 .3065 .2476 .2416HNSD .1957 .1876 .2747 .2646 .1918 .1816NTUSD .0873 .0854 .2060 .2010 .1848 .1750相比较而言,DUTSD收录的情感词最丰富,如果将其它情感词典视作理想情感词典,DUTSD对其它词典的召回率也最高。然而,尽管DUTSD的规模分别是THUSDHNSDNTUSD2.22.52.6倍,但其召回率只有0.61960.47470.2243,准确率分别为0.2837,0.1876,0.0854HNSDTHUSD的规模相当,二者之间的召回率和准确率仅为0.310.26。各部词典对共同收录的情感词的极性判断上是比较一致的,平均一致率达96.90%。以上这些值可以作为评测新情感词的参照。情感词典SCDUTSD为基础,并根据中文微博数据的特点和任务需要做了如下补充和过滤:(1)补充微博中带情感极性的表情符;(2)补充COAE2014任务3评测时所用的新情感词;(3)过滤掉DUTSD中有不同极性的词条(部分词条在不同词性时被标注了不同的极性)以及极性标注为“0”的词条;(4)过滤掉没有出现在数据集DC中或者未被ICTCLAS2013正确分词的词条;(5)过滤掉长度超过4个汉字或字符的词条。得到的SC共包含情感词7565条,其中正极性3964条、负极性3601条。尽管SC无法覆盖全部情感词,但包含了大多数常用的且出现在DC中的情感词,其规模也与THUSDHNSDNTUSD相当,因此SC中情感词的分布具有一定代表性。中文非情感词词典OC。人工情感词典通常是在通用词典上筛选得到的,因此那些被多个人工情感词典过滤掉的词可以被视为没有情感极性,如公式(1)所示:O=CommonDictMixedSD,MixedSD=DUTSDHNSDTHSDNTUSDFACIALCOAESD.(1)其中CommonDict是在COAE2014任务3的通用词典基础上,补充了人名、地名等,扩展后的规模为2,836.74KMixedSD是多个情感词典的并集,共含38,906个情感词(其中正极性16272条、负极性18898条、无极性3124条、有极性歧义612)。除前文提到的多个人工情感词典外,补充了FACIALCOAESD两个情感词典,其中FACIAL为标注带有情感极性的表情符,COAESDCOAE2014任务3评测时所用的新情感词词典,并去除未被ICTCLAS2013正确分词的词条。英文微博数据集DEDE来自文献[22]的作者所提供的一百万tweetid号,由于部分tweet在下载时已被删除,DE中的tweet仅有991,248条。用StanfordCoreNLP标注词性并分析依存关系后,得到DE。英文情感词词典SE。选用MPQA中那些在多个相关文献中用作种子情感词典的、主观性强的、且在DE中出现的词,再补充它们的曲折变化形式(inflectionalforms)(对于动词、形容词或副词)或复数形式(对于名词),得到包含正极性2416条、负极性3218条的情感词典SE。英文非情感词词典OCSentiWordNet WordNet中全部词条都计算了其具有正向极性和负向极性的概率,那些正向极性和负向极性概率都为0的词条可视为非情感词。对名词补充其复数形式,对动词、形容词和副词,补充其曲折变化形式,得到包含214,162条非情感词的OC。为表述方便,下本文称中文数据集和词典为RC=(DC,SC,OC),英文为RE=(DE,SE,OE)3.2情感词在微博数据集中的词性分布表3是情感词在RCRE中的词性分布,其中ns表示以相应列中的词性呈现在微博数据集中的情感词数量,nt表示以该词性呈现的全部词数(K为单位)。“n_new”为ICTCLAS2013标注的未登录的名词,单独列出的原因在于它是未登录词,是不在已知词典中的“新”情感词的重要来源。由于情感词在数据集中会以不同的词性多词出现,因此,表3中各词性的情感词占情感词总数的比例ns/|SC|(或者ns/|SE|)之和大于1。给定一个词,特别是英文中的形容词或副词,尽管其词性可以通过规则辅助判断,但本文直接采用词性标注的结果,原因在于,一是词的词性需要放在实际环境中才能确定,二是,规则等辅助手段较难适应新词或不规范的词。表3情感词在数据集中的词性分布中文情感词词性 noun verb adj adv n_new othersns(K) 2.95 2.77 1.46 0.16 0.21 0.37ns/|SC| 0.39 0.37 0.19 0.02 0.03 0.05nt(K) 67.74 16.88 3.33 1.39 22.86 66.83ns/nt 0.04 0.16 0.44 0.11 0.01 0.01英文情感词ns(K) 4.00 3.56 2.95 1.13 1.00ns/|SE| 0.71 0.63 0.52 0.20 0.18nt(K) 205.14 66.93 64.13 14.08 18.43ns/nt 0.02 0.05 0.05 0.08 0.05论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 73显示,从中文微博中抽取新情感词时,有必要将标注为名词词性的词视为候选词。在中、英文微博数据中,大量的情感词以名词形式出现过,名词类情感词在中、英文微博中分别占到42%(nounn_new)71%。由于部分情感词在不同上下文本环境下会呈现不同的词性,进一步统计显示,在RE中,不考虑名词会遗漏15%的情感词,但在RC中遗漏高达40%。此外,在RE中,形容词可覆盖情感词的52%,再考虑动词和副词后,可覆盖84%的情感词;但在RC中,形容词仅覆盖19%,考虑动词和副词后也仅能覆盖56%。因此,英文新情感词抽取时,只考虑形容词、动词和副词是比较恰当的,但中文新情感词抽取时有必要考虑名词。表3还显示,考虑名词会给新情感词的抽取带来大量噪声,特别是对于中文微博新情感词的抽取。在英文微博数据集RE中,标注为形容词、动词和副词的全部词条中,分别有5%5%8%是情感词,高于名词的2%。而在中文微博数据集RC中,标注为名词和未登录名词(n_new)的词条分别有67.74K22.86K个,但其中仅有2.95K(4%)0.21K(1%)是情感词,远低于形容词的44%,动词的16%和副词的11%。本文中标为“n_new”的情感词较少的原因是我们使用的情感词典SC主要源自DUTSD,其中未登录词的数量非常有限,这也是我们在构建SC时补充一些情感词的主要原因。尽管在SC中纳入更多的未登录词可以提高这一比例,但名词给中文新情感词抽取带来的挑战依然非常严峻。3.3情感词之间的共现分析在基于共现的情感词抽取方法中,一个基本的假设是情感词或者同极性的情感词之间有较强的共现。然而,在RERC上的统计显示,几乎所有的情感词都有与其它情感词共现过,情感词在同一微博中的共现现象比较普遍,但共现的情感词之间极性冲突也比较显著,如表4所示。表4情感词在微博中的共现统计中文情感词 英文情感词情感词数量 >=2 有极性冲突 >=2 有极性冲突微博条数(K) 238.15 93.64 228.12 106.21比例(%) 47.63 18.73 25.03 11.664显示,对于中文微博,包含两个以上情感词的微博数占总微博数的47.63%,但其中有近40%(93.64/238.15)的微博中多个情感词的极性并不一致。而对于英文微博,有近一半(106.21/228.12)微博中的多个情感词极性不一致。此外,统计发现,SC7565条情感词中有7534条存在共现,其中,7376条与同极性的词存在共现,7131条与不同极性的词存在共现;SE5634条情感词中有5282条存在共现,其中4804(4776)条与极性相同(相异)的情感词共现过。为了更深入地分析情感词与非情感词共现的统计特性,并考虑到大量相关工作中PMI被用于分析共现强度,本文统计了各种词性的候选词与已知情感词之间的PMI平均值,如表5所示。中文候选词为文档频率大于等于2,词长2-4个汉字;英文候选词为文档频率大于等于5、词长2-30个字符且包含字母。其中,英文候选词文档频率阈值5来自文献[22],而DC的规模只有DE的一半,因此,中文候选词文档频率阈值设置为2。表5中,“±”代表情感词,“+”代表正向情感词,“-”代表负向情感词,“0”代表非情感词,“+,+”表示正向情感词之间的PMI值,以此类推。由于中文非情感词词典OC收录的大都是登录词,因此大量被ICTCLAS2013标注为“n_new”词性的非情感词并未出现在OC中,为了去除“n_new”带来的偏差,表5中“noun”词性指除“n_new”外的其它名词。表5显示,英文微博中,情感词与情感词之间的PMI(“±,±”列)比非情感词与情感词之间的PMI(0,±”列)要高,这一规律适用于形容词、动词、副词类的情感词,特别是形容词类的情感词。这说明,如果以形容词、动词、副词三类词为候选词,选择与已知情感词共现较高的候选词作为新情感词是合适的。加之形容词、动词、副词已能覆盖84%的英文情感词(3所示),因此经典方法只考虑形容词、动词、副词是合适的。但共现分析在形容词等词性上得到的规律并不适用于名词,相比名词类的情感词,名词类的非情感词与已知情感词的共现更强。出现这种情况的主要原因是,在大量以名词词性出现的词条中,情感词所占的比例太少,而名词类的非情感词比例高达96%(中文)98%(英文)(如表3所示),这给共现分析方法带来严重噪声。例如在COAE2014的中文微博数据集中,对“蒙牛”产品较多的负面评论使得“蒙牛”这一名词类非情感词与负极性的情感词共现更频繁。表5还显示,在与已知情感词的共现方面,中文微博中的形容词与英文微博中的形容词有相似的规律。因此,可以推测,如果只以形容词为候选词,基于PMI方法抽取中文新情感词也是比较准确8 计算机学报 2017年的。然而,仅考虑形容词会遗漏81%的情感词。当考虑动词、副词和名词时,共现情况完全相反了,非情感词与已知情感词的PMI更高,高出相应类别的情感词与已知情感词的PMI值,各词类高出的比例分别为:动词14%(290.87vs 256.06)、副词46%(534.96vs366.92)、名词92%(191.16vs99.70)。由于与已知情感词共现更高的名词不再是情感词(当然,共现低的更不可能是情感词),因此传统基于共现的新情感词抽取方法不再适合中文微博数据。通过表5,还可以分析PMI是否适合作为情感词极性判断的依据。在英文微博中,除了正极性的副词外,极性相同的情感词较极性相异的情感词共现更强烈。加上仅以副词词性出现的情感词数量较少,因此,对于英文微博数据,PMI适合作为情感词极性判断的依据。对于中文微博,全部词性都满足“极性相同的情感词较极性相异的情感词共现更强烈”,因此,可以推断PMI也适合用来判断中文微博中情感词的极性。表5不同词性的情感词与已知情感词之间的PMI值词性中文情感词 英文情感词+,0,+ -,+ -,0,- ±,± 0,± +,0,+ -,+ -,0,- ±,± 0,±noun 77.69 126.51 39.95 49.01 82.17 99.70 191.16 48.80 48.21 40.47 59.04 60.97 86.85 101.23verb 192.04 177.99 106.92 130.59 125.78 256.06 290.87 33.66 16.04 33.35 49.01 28.39 66.86 34.79adj 324.17 151.14 161.38 189.10 103.98 424.27 241.38 50.36 10.93 39.41 62.90 19.28 85.55 22.24adv 231.94 294.76 164.09 176.83 259.25 366.92 534.96 16.59 13.25 22.46 32.59 34.16 37.75 32.114基于分类的微博情感词抽取算法cNSEm通过第3小节的分析发现,基于PMI共现的方法显然不适合从中文微博中发现新情感词,需要考察更多的线索。直观上,可以用来判断一个候选词是否是情感词的线索包括:候选词与情感词的共现信息、候选词所在的上下文、上下文中的用词规律、与其它词的修饰关系,甚至是所在句子的情感极性等等。如果将这些线索视为候选词的特征,并给定一部情感词典和一部非情感词典,则通过一个分类器来判断候选词是否有极性以及有何极性则是比较自然的想法。本节以中文微博新情感词抽取为例,介绍基于分类的微博情感词抽取算法cNSEm,而cNSEm中使用的特征将在下一节详细描述。文献[33]介绍了该算法及其参加COAE2014任务3的评测情况,此处只对cNSEm的基本思想作简要描述。cNSEm算法包括六个步骤:S1:构建数据集。采集微博数据并预处理,经过分词(对于中文微博)、词性标注、依存句法分析等过程,得到微博数据集。本文用3.1节中的数据集DCS2: 构建情感词词典和非情感词词典。本文用3.1节中的SC,OCS3:构建用于分类的训练样本。训练样本是微博数据集中的情感词(正、负极性的标签分别为“+1”和“-1)和非情感词(标签为“0),情感词的特征在第5节中详细分析。S4: 选择候选词。未作为训练样本,且词长、文档频率和词性满足设定的要求,则被视为候选词。S5: 训练并分类。利用训练样本训练分类器,并对候选词分类。本文用libleaner1.9410作分类器,参数为“-s4-e0.1”。S6: 候选词排序。由于同一候选词在不同的上下文中会有不同的情感极性,加之分类器分类准确率的限制,在数据集中多次出现的候选词会被帖上不一致的标签。本文考虑候选词在大部分环境下的情感极性,并假设出现分类错误的情况相对较少,因此采用基于投票的策略确定候选词的情感极性,采用候选词被分类为情感词和非情感词次数的比例对候选词排序,如公式(2)所示。0() Sgn( )1t tt ttC Cpolarityt C CCa+ -+ -+= - ×+(2)其中tC+、tC-、0tC表示候选词t被分类为正、负极性情感词和非情感词的次数。参数α用于平衡训练样本不均问题,本文设置α=1,并在第6节讨论α的影响。polarity0t为正极性,polarity0t为负极性,polarity绝对值越大则t作为情感词的可信度越高。在分析第3节的表5时发现,从总体上看,PMI10 http://www.csie.ntu.edu.tw/~cjlin/liblinear/论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 9适合中文微博数据中情感词的极性判断,而在cNSEm算法中,通过公式2的投票机制,也可以对情感极性作出判断。为了对比两种方案,本文设计了cNSEm算法的一个变种,称为cNSEm-PMI。与cNSEm的不同之处在于,cNSEm-PMI的步骤S3中,只将候选词贴上有情感和无情感两类标签;步骤S6polarity的正负由候选词与正向和向负情感词的PMI之差决定,即:0() Sgn( )1tt ttCpolarityt pmi pmiCa±+ -= - ×+(3)其中tpmi+(tpmi-)分别为t与已知正向(或负向)情感词的PMI之和,tC±为t被分类为情感词的次数。由于已有的文献或者针对英语语种,或者针对WordNet、商品评论等数据集,或者仅考虑形容词等个别词性、亦或是将情感词扩展视为情感分类的中间步骤。为了说明cNSEm的效果,本文基于经典的情感词抽取或识别算法,设计了作为参照的GPC算法,该算法基于共现(Co-occurrence),同时考虑了情感极性在图(Graph) 中的传递(Propagation),其主要思想与经典的情感词抽取方法一致。GPC算法包括5个步骤:S1:构建图G。以种子情感词和候选词为结点V,以词间的共现、相似性等关系为边E,构建带权无向图G=(VEP)p+(vt)p-(vt)是结点vt为正向情感词和负向情感词的概率(用于排序的分值,不一定满足概率要求)<p+(vt),p-(vt)>P;边, i je E Î 的权重, i jw 表示结点vivj之间的关系强度。S2:初始化图G中各结点的情感概率P。给定种子情感词词典S=S S+ -U ,其中S+为正极性情感词,S-为负极性情感词,结点vt属于正、负情感词的概率如公式(4)1,( )0,ttv Sp v++ì Î=íî如果其它情况  ,1,( )0,ttv Sp v--ì Î=íî如果其它情况  (4)S3:情感极性传播。根据结点vt到达种子情感词的路径更新vt为情感词的概率 ( ) F( , )t tp v v G+ += ,( ) F( , )t tp v v G- -= 。此处F+和F-是情感极性传播方法的抽象,在不同的文献中情感极性传播方法不尽相同。重复该传播过程直到收敛。S4:抽取新情感词。根据情感概率P抽取δ个或者满足阈值条件ε的结点为新情感词。S5:将新情感词加入情感词典S,重复步骤S2S4,直到没有新情感词产生,或者抽取的新情感词数量达到上限。经典的基于共现和极性传播的方法可以看成是GPC方法的特例。下面给出三个例子予以说明。文献[36]Web页面抽取新情感词,可视为在GPC中,结点V中候选词设定为满足频率高于指定阈值等统计特性的n-gram,边的权重为词或n-gram的上下文之间的余弦相似度,情感极性传播的迭代次数为1,候选词vt的正(或负)向极性强度为vtS+(S-)中各情感词的“相似性”之和,即:,,path( , ), path( , )( ) max( ( ) )t ii j k t it i j kv vv Vi t e v vp v p v w+ +Î ¹ Î= × å Õ ,,,path( , ), path( , )( ) max( ( ) )t ii j k t it i j kv vv Vi t e v vp v p v w- -Î ¹ Î= × å Õ ,polarity() ( ) ( )t tt p v p v+ -= + .(5)其中path(vt,vi)vtvi的路径,ej,k为构成路径的一条边,路径长度不超过设定的阈值。文献[22]tweets中抽取新情感词,以文档频率大于指定阈值的词为候选词,候选词vt的情感极性概率是vt与已知情感词在tweets集合中共现的概率。此时,可将GPC做如下设置:wt,ivtvi共现的概率,候选词vt的极性及概率计算如下:,,,,( ) ( ) ,( ) ( ) ,polarity() ( ) ( ).iit i t iv Vi tt i t iv Vi tt tp v p v wp v p v wt p v p v+ +Î ¹- -Î ¹+ -= ×= ×= -åå (6)抽取|polarity(t)|>ε的δ个词加入情感词集合。如果有新情感词加入,重新初始化图G中的P,并重复上述过程直到没有发现新情感词为止。文献[38]基于候选词与有情感倾向的tweets之间的PMI来计算候选词的情感极性,但通常tweet的情感极性是未知的。如果假设tweet的情感极性是由tweet中包含的已知情感词来决定的,则其基本思路与文献[22]一致,不同的只是文献[38]基于PMI计算 ( )tp v+和 ( )tp v-。本文依据相关文献,选用PMI作为两词的关系强度,并设计有迭代和无迭代两个参照系统:GPC1参照文献[36],种子情感词的极性只传统给距离它最近的候选词,无间接传递,无步骤S5的迭代,新情感词一次返回;GPC2参照文献[22],每轮迭代扩充50个“新”情感词。由于GPC2每轮迭代有新情感词加入,相当于考虑了情感极性的间接传递。候选词的情感概率(仅用于排序,不满足概率要求)及极性判断参照文献[36],如公式(7)所示。按10 计算机学报 2017|polarity(vt)|从大到小选择候选词,polarity符号的正负即是候选词情感极性的正负,β用于平衡种子情感词典中正负极性情感词不平衡、或者数据集中正负极性情感词不平衡的问题。,,polarity() ( ) ( , )( ) ( , )iii i tv Vi ti i tv Vi tt p v PMI v vp v PMI v v b+Î ¹-Î ¹= ×- × ×åå(7), ,( ) ( , )/ ( ) ( , )i ii i t i i tt v Vi t t v Vi tp v PMI v v p v PMI v v b+ -Î ¹ Î ¹= × × åå åå5分类特征有大量关于评论或微博情感分析的文献采用了分类方法,但分类特征却不能直接用于本文的任务。这不难理解,相邻的两个候选词的上下文几乎完全一样,但它们有无情感及情感极性却可能大不相同。尽管如此,其中的部分特征可以借鉴。例如,如果微博中出现了叹号“!”,则其中存在情感词的可能性会增加。本节通过对相关文献中所用的特征或线索进行归纳总结并抽象,提出潜在有用的、与特定语言无关的候选特征集合,并在第6节对候选特征的作用进行实验验证和分析。本文选择的候选特征包括如下6类:F1:共现信息(Co-OCcuranceCOC)。该特征假设正/负向情感词与其它正/负向情感词(或集合)间共现频率更高。点互信息PMI是目前新情感词抽取时最常用的特征[11,39],有些文献甚至将其视为唯一的特征[11,16],它也经常被用作基于图的新情感词抽取方法中边及其权重设置的重要依据。F2:上下文(ConTeXtCTX)。该特征假设不同微博中上下文相似的词具有相似的情感极性。文献[36]提取候选词周围长度为6的窗口内的词作为上下文,计算候选词与已知情感词的相似性,并构建图。该特征还假设,已知极性(priorpolarity)的情感词在与上下文组合在一起时,该词的情感极性或者组合得到的短语(phrase)的情感极性(contextualpolarity)会发生变化[40,41],而文献[42]认为将词组合在一起的二元和三元组更有利于产品品论的情感分类。F3:语言学模式(LinguisticPaTternsLPT)。该特征假设作者在表达多个极性相关的情感词时会使用类似的语言学规则,例如通过“和(and)”联系的两个形容词极性相同,而用“但是(but)”“然而(however)”联系的两个形容词极性相反[9,30]。文献[16]在抽取主观名词如“感觉(feeling)”、“拒绝(repudiation)”时,定义了一组包括候选词的词干、线索词例如代名词、情感词(如“will)等特征。文献[39]在对评论进行情感分类时,认为尽管形容词对情感的判断有重要的指示作用,但还要看它与其它词或者词性是按什么规则组合在一起的。F4:修饰关系(MoDiFicationMDF)。该特征假设情感词在句法树中所扮演的角色,以及与其它词之间的修饰关系具有一定的规律。文献[41]在短语级别上分析一个词是否具有情感倾向性时,所采用的特征除了包括与该词相邻的词是否是形容词、是否是副词、是否是程度词等信息外,还利用依存分析的结果,考察该词是否被主观词通过特定的依存关系(adj,modvmod)修饰。文献[31]在计算形容词之间的相似性时,利用表达修饰关系的三元组(w1;relation;w2)作为特征。F5:文档(微博或句子)特征(DOCumentfeaturesDOC)。该特征假设具有情感倾向性的文档中存在情感词的可能性更大。尽管该类特征不能细粒度地确定具体的情感词,但可以用于指示文档中存在情感词的可能性,以及该情感词的可能极性[41]F6:词性(PartOfSpeechPOS)。该特征的依据是不同词性的词被分类为情感词的概率是不同的[28]。尽管这些概率在不同语种的数据集上存在差别,但它依然是判断情感词的重要特征。另外,词性经常与其它特征结合使用,例如,将上下文中的标记换成相应的词性,从而形成一些语言学模式。除上述6类特征外,基于词典的词义相似度(SemanticSimilarity)假设语义相近的词具有相似的情感极性,而WordNetHowNet等语义资源通常是计算语义相似度的重要依据[14]。然而,由于新情感词大多并未被这类语义资源收录,所以本文不考虑该类特征。此外,在新情感词抽取过程中,通常会将以上一种或多种特征混合使用,以提高分类效果[31,41]。本文依据上述6类特征,设计如表6所示的5大类特征。词性特征并未在表6中显式地列出,它通过两个方面体现,一是利用词性进行候选词的过滤,二是结合上下文形成语言学模式特征。对于语言学模式,尽管人工构建的更精准,但覆盖有限,因此本文采用通配符或者词性替换部分上下文等形式,以模拟实际的语言学模式。表6中,候选词的上下文指该词前后窗口长度各为l的“标记”序列(词或标点符号)。如果没有特殊说明,cNSEm使论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 11用各类特征中标有“*”号的特征,而其它特征将在第6节的实验中用作参照。表7给出部分候选特征取值的一个例子,其中假设已知“脑残”和“游手好闲”的情感极性为负,“富二代”和“才怪”的情感极性未知,其它词为非情感词,上下文窗口长度l=4。表6.cNSEm中的候选特征集类别 特征 说明与情感词共现COC coc_pmi(*) 候选词与正向、负向情感词以及非情感词之间的PMI,用最大值进行归一化,共现窗口为整条微博。coc_dice coc_pmi 中的PMI换为dice系数。上下文CTX ctx_nglr(*) 候选词上下文所形成的n-gramctx_u 候选词上下文中的标记,即unigramctx_ulr 候选词上下文中的标记及该标记与候选词的相对位置(在候选词前或者后)。修饰关系MDF mdf_all(*) 与候选词有修饰关系的词及其修饰类型形成的二元组。修饰关系来自Standfordparser的依存分析。mdf_near 只考虑mdf_all中距离候选词最近的修饰或被修饰关系。语言学模式LPT lpt_ctx_nglr_?p(*) 保留ctx_nglr中距离候选词最远的标记,其余全部用通配符“?”替换,并附上候选词的词性。lpt2_ctx_nglr_?p lpt_ctx_nglr_?p类似,但保留ctx_nglr中距离候选词最远的2个标记。lpt_ctx_nglr_±p lpt_ctx_nglr_?p类似,但不用通配符“?”,而是将其中的已知情感词替换为其情感极性。lpt_ctx_nglr_? lpt_ctx_nglr_?p类似,但不附上候选词的词性。lpt_ctx_nglr_pp lpt_ctx_nglr_?p类似,但不用通配符“?”,而是用相应词所标记的词性。lpt_mdf_all_± 将mdf_all中修饰候选词的情感词替换为其情感极性。文档特征DOC doc(*) 候选词所在微博中正向、负向情感词、叹词(!, 词性被标注为wt,e,o,y的词)及其它标记的个数,并用数据集中最长文档长度归一化。表7.候选特征举例DOC2499139 //@高雷雷:这样的爹脑残!这孩子将来不是游手好闲的富二代才怪!…预处理及分词结果 这样/rzv/ude1/n脑残/n/wt /rzv孩子/n将来/t /d/vshi 游手好闲/vl /ude1富二代/n_new才怪/n/wt依存分析结果 句子1:assmod(-3, 这样-1),assm(这样-1, -2),nsubj(脑残-4, -3),root(ROOT-0, 脑残-4)句子2:det(孩子-2, -1),nsubj(-5, 孩子-2),dep(-5, 将来-3),neg(-5, -4), root(ROOT-0, -5), assmod(才怪-9, 游手好闲-6),assm(游手好闲-6, -7),nummod(才怪-9, 富二代-8),attr(-5, 才怪-9)候选词“富二代”的部分特征值:ctx_nglr {/&, 游手好闲//&, /游手好闲//&, //游手好闲//&,&/才怪,&/才怪/!}ctx_u {, , 游手好闲, , 才怪, }ctx_ulr {/&, /&, 游手好闲/&, /&,&/才怪,&/}lpt_ctx_nglr_?p {/n_new, 游手好闲/?/n_new, /?/?/n_new, /?/?/?/n_new,n_new/才怪,n_new/?/!}lpt2_ctx_nglr_?p {/n_new, 游手好闲//n_new, /游手好闲/?/n_new, //?/?/n_new,n_new/才怪,n_new/才怪/!}lpt_ctx_nglr_±p {/n_new, 游手好闲//n_new, /-//n_new, //-//n_new,n_new/才怪,n_new/才怪/!}lpt_ctx_nglr_? {/&,游手好闲/?/&, /?/?/&, /?/?/?/&,&/才怪,&/?/!}lpt_ctx_nglr_pp {/n_new,游手好闲/ude1/n_new, /vl/ude1/n_new, /vshi/vl/ude1/n_new,n_new/才怪,n_new/n/!}doc {0,2,2,11}(归一化前)候选词“才怪”的部分特征值:mdf_alr {&/ASSMOD/游手好闲,&/NUMMOD/富二代, /ATTR/&}mdf_nlr {&/NUMMOD/富二代, /ATTR/&}lpt_mdf_all_± {&/ASSMOD/-,&/NUMMOD/富二代, /ATTR/&}6实验分析新情感词抽取时,中、英文微博数据集、情感词典和非情感词典分别采用3.1小节中的RCRE。将其中的情感词典S随机均分为两部分StrSts,其中Str用于cNSEm的训练或用作GPC中的种子情感词集合,Sts用于测试。另外,抽取新情感词的数量上限设定为10K条。需要说明的是,由于仅有文档频率高于指定阈值(英文5,中文2)、长度介于[2,4](中文)[2,30](英文)之间的词才可能成为候选词,因此,去掉Sts中不满足该阈值条件的情感词。考虑到英文测试情感词典中词汇数量较少,本实验用Liu的情感词典[43]进行补充。12 计算机学报 20176.1评测方法以Sts为理想结果,选择多组评测指标,包括:(1) Bpref[44](简称Bp):用于评测的新情感词Sts规模有限,未被StsO收录的词也可能是情感词,Bpref将这部分词排除在外。同时,Bpref也考返回结果排序的问题。(2) 平均精确率AP。这是信息检索结果评测的权威方法,适合本文对候选词抽取结果的评测。(3) Rprec(简称Rp):当返回规模与Sts相同时的召回率(或准确率)(4) Rprec2(简称Rp2):当返回规模为Sts两倍时的召回率。如果在评测时要求候选词的极性也正确,则相应的指标为Bp±、AP±和Rp±,Rp2±。6.2实验结果分析(1)cNSEmGPC在不同候选词性上的性能按照第3小节的分析,对于中文微博,名词作为候选词是必要的,但对英文则不然。实验考察了以下不同的候选词词性集合:PosAll:所有词性,也即不考虑候选词词性。PosAVDN:形容词、动词、副词和名词。根据各个词性的词是情感词的概率大小,依次选取词性,直到98%的情感词被覆盖。最终依次选择的中文候选词性为{a, an, al, ad, d, dl, b, bl, vl, v, vn, vi,vd, z, n, nl },英文候选词性为{JJ, JJR, JJS, VB,VBZ,VBG,VBN,VBD,VBP,RB,RBR,RBS}PosAVDN':仅用于中文,在PosAVDN中添加n_new词性。关于词性n_new,我们将在实验中单独讨论。PosAVD:为考察名词作为候选词带来的影响,将PosAVDN候选词性集合中的名词去掉。PosA:大量相关文献中只考虑形容词词性的情感词,作为对比,此处也仅以形容词作为候选词。cNSEmGPC在不同候选词性上的新情感词抽取评测结果如表8所示,图1则展示了它们11点插值的PR曲线,以方便在更细粒度上观察cNSEmGPC在不同候选词性上的表现。该组评测中,cNSEm利用了全部5类特征,特征组合为:coc_pmi +ctx_nglr +mdf_all +lpt_ctx_nglr_?p+doc,本文将该组特征组合作为后续实验中的默认特征组合。表8和图1展示了丰富的信息,对于中、英文微博新情感词抽取的结论和具体分析如下:结论1GPC方法对中文微博中形容词类的新情感词抽取是有效的。表8(a)显示,对于中文微博RC,除Rprec2Rprec2±外,GPC1GPC2在候选词性PosA上的各项指标值都高于在其它候选词性上的指标值。这说明,文献[10,18,29]中采用的基于共现和极性传播的新情感词提取方法中、英两种语言的微博数据都有效,但前提是仅以形容词为候选词。需要说明的是,GPC方法的Rprec2Rprec2±指标在候选词性PosA上偏低的原因并不是因为抽取的准确率低,而是因为形容词的数量非常有限,导致返回的新情感词数量也非常有限,通过对比图1(a)GPC方法在候选词性PosAPosADV上的PR曲线不难发现这一点,在PosA上,各方法在召回率为0.2时准确率已经为0。结论2:对于中文微博RCGPC方法和cNSEm方法在形容词类的新情感词抽取上无显著差别,但更多候选词性加入后,cNSEm方法远好于GPC方法。表8(a)和图1(a)均显示,在PosA上,GPC的两种变形和cNSEm的两种变形在性能上没有显著差别。需要说明的是,cNSEm在召回率为0时的准确率明显高于其它三种方法,其原因是11点准确率的计算采用插值,因此返回结果的第1个或前几个如果正确,就会使召回率为0的点上有较高的准确率。表8(a)和图1(a)还显示,在动词、副词、名词等更多候选词性加入后,单靠共现的GPC方法已无法适应中文微博,并且候选词性越多,各项评测指标越低(结论1中分析了Rprec2Rprec2±在PosADV上较在PosA上更高的原因)。这与第3小节的统计分析结果一致,即中文新情感词抽取时,名词词性的加入会带来大量噪音,给新情感词的识别带来极大挑战,这也是GPC方法在加入名词后表现不佳的主要原因。除PosAll外,cNSEm方法在加入更多候选词性时,各项指标反而呈增长趋势,这表示cNSEm能够应对不同词性的情感词。结论3:对于英文微博REGPC1在各类候选词性上的表现无差异,而cNSEm方法在各类候选词性上的表现都远好于GPC1方法。3.1小节的统计显示,英文微博中形容词性的情感词与已知情感词有较强的共现,动词、副词次之,名词最低,因此,增加动词、副词、名词等候选词性,几乎不会影响GPC1方法对候选词的排序,依然是形容词性的情感词排在最前,而名词性的情感词排在最后。加之形容词、动词对情感词有很高的覆盖率,因此表8(b)显示GPC1方法在各类候选词性上表现几乎论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 13完全一致,这与3.1小节的统计相符。表8(b)和图1(b)还显示,cNSEm方法在各个词性上的表现都较GPC1方法要好,说明cNSEm方法在不同语种上有很强的适应性。另外,增加动词、副词、名词等候选词性后,cNSEm的各项指标稳步上升,一方面因为相同词条以多种词性出现,更多候选词性使得cNSEm最后的投票统计更合理,另一方面极性较强的动词或名词等词性有机会被抽取,从而提高了抽取效果。表8情感词抽取结果评测(a) 中文数据集RC(α=1,l=3) (b) 英文数据集RE(α=1,l=5)Pos Bp Bp± AP AP± Rp Rp± Rp2 Rp2± Bp Bp± AP AP± Rp Rp± Rp2 Rp2±GPC1 A .1833 .1361 .0798 .0512 .1882 .1417 .1882 .1417 .2659 .1878 .1066 .0596 .1931 .1538 .3027 .2303ADV .1647 .1342 .0686 .0451 .1686 .1459 .3146 .2527 .2520 .1861 .0987 .0573 .1864 .1535 .3030 .2370AVDN .1210 .1054 .0442 .0338 .1406 .1248 .2511 .2213 .2391 .1802 .0905 .0538 .1814 .1503 .2986 .2347All .1064 .0913 .0272 .0209 .1155 .1012 .2022 .1784 .2392 .1804 .0905 .0538 .1809 .1500 .2992 .2352GPC2 A .1849 .1373 .0812 .0526 .1901 .1427 .1901 .1427 .2006 .1039 .0831 .0359 .1338 .0826 .2669 .1521ADV .1182 .0918 .0513 .0314 .1277 .1026 .2657 .2030 .1606 .0789 .0693 .0239 .1064 .068 .2416 .1204AVDN .0744 .0626 .0246 .0170 .0923 .0780 .1784 .1393 .1446 .0728 .0602 .0207 .0989 .0654 .2271 .1137All .0561 .0468 .0107 .0073 .0595 .0515 .1200 .0933 .1445 .0731 .0599 .0206 .0983 .0643 .2268 .1140cNSEm A .1864 .1418 .0920 .0595 .1864 .1443 .1864 .1443 .5326 .3500 .1533 .0807 .2626 .1940 .4586 .3292ADV .5109 .3628 .2386 .1432 .4272 .323 .5112 .3854 .7382 .4546 .2035 .1035 .2879 .2099 .4655 .3324AVDN .7109 .4874 .3138 .1846 .4280 .3238 .6868 .5141 .8534 .5211 .3001 .1559 .3719 .2687 .5295 .3766All .5152 .3667 .1707 .1042 .2908 .2239 .4356 .3307 .8555 .522 .3004 .1561 .3734 .2693 .5292 .3760cNSEm-PMI A .1872 .1390 .0923 .0577 .1872 .1417 .1872 .1417 .5472 .327 .1589 .0689 .2448 .1576 .4533 .3030ADV .5159 .3437 .2405 .1323 .4261 .3032 .5165 .3693 .7516 .4321 .2060 .0887 .2931 .1937 .4539 .3053AVDN .7204 .4724 .3165 .1745 .4296 .3087 .6865 .4980 .8662 .4853 .3018 .1306 .3623 .2399 .5254 .3516All .4983 .3326 .1664 .0944 .2982 .2199 .4264 .3056 .8685 .4863 .3025 .1308 .3632 .2408 .5275 .35360.0 0.2 0.4 0.60.00.20.40.60.8 cNSEm;   cNSEm-PMI;   GPC1;  GPC2精确率PosA0.0 0.2 0.4 0.60.00.20.40.60.8PosAVD0.0 0.2 0.4 0.60.00.20.40.60.8PosAVDN0.0 0.2 0.4 0.60.00.20.40.60.8召回率PosAll0.0 0.2 0.4 0.60.00.20.40.60.8 cNSEm;   cNSEm-PMI;   GPC1;  GPC2精确率PosA0.0 0.2 0.4 0.60.00.20.40.60.8PosAVD0.0 0.2 0.4 0.60.00.20.40.60.8PosAVDN0.0 0.2 0.4 0.60.00.20.40.60.8召回率PosAll(a) 中文数据集RC(b) 英文数据集RE1. 不同候选词性上新情感词抽取结果的PR曲线(要求极性判断正确)结论4:基于传递的方法仅适用于抽取准确率较高的情况。表8(a)和图1(a)显示,在中文微博上,对于形容词性的情感词,尽管GPC1GPC2差异不明显,但各项指标显示GPC2略优于GPC1。更多候选词性加入后,GPC2的各项指标显著低于GPC1。表8(b)和图1(b)则显示,在英文微博上,GPC1在各类候选词性上表现稳定,但GPC2随着更多词性的加入,各项评价指标显著下降。这不难理解,当更多候选词性加入后,基于共现的方法抽取性能下降,导致新加入的情感词质量下降,进一步恶化后续的抽取质量。结论5cNSEm能适应不同词性的新情感词。对于中文微博,PosA对新情感词的覆盖率太低,因此返回结果达不到测试集的规模。而在PosADVPosAVDN上的返回结果都能达到测试集的规模,因此,各方法的RprecRprec±指标在这两种候选词性上具有可比性。表8(a)中,cNSEm方法的RprecRprec±指标在PosADVPosAVDN两种候选词14 计算机学报 2017年性上保持稳定,这说明,随着名词性情感词的加入,cNSEm方法抽取新情感词效果并没有降低,说明该方法能很好地适应多种词性的情感词。意料之外的是,当cNSEmPosAVDN词性集合上抽取与理想情感词典规模相同的新情感词时,抽取结果对理想情感词典的召回率达到0.42(不考虑极性),当抽取规模再扩大一倍时,对理想情感词典召回率达到0.6727,这已达到或接近3.1小节中人工情感词典DUTSDTHUSDHNSDNTUSD的召回率及HNSDTHUSD之间的召回率。然而,相比人工方式,cNSEm对情感词正负极性判断的准确性只有77%,与人工之间的平均一致率97%还有较大的距离。对于英文微博,随着动词、副词、名词的加入,cNSEm的各项指标也稳步上升。结论6cNSEm在判断情感词极性上较PMI更有优势。表8(a)和表8(b)均显示,如果不考虑情感词的极性是否划分正确(指标BprefAPRprecRprec2)cNSEm-PMI(优化公式3中参数α后)在候选词性PosAVDN上抽取结果与cNSEm不相上下,在中文微博上大部分指标的分值还较cNSEm略高。但如果考虑情感词的极性,情况刚好相反,cNSEm的表现要明显超过cNSEm-PMI。这说明,情感词极性的判断不能仅依赖于它们与已知情感词的共现,cNSEm中用到的其它特征也有帮助作用。“评测时不考虑极性”是指在评测新情感词时,不判断其极性是否被贴上正确的标签。此时的情感词抽取可视为一个二分类问题,即将候选词分为“有极性”和“无极性”两类。cNSEm是将情感词的抽取视为一个三分类问题,把候选词分为“正极性”、“负极性”和“无极性”三类,然后将“正极性”和“负极性”的情感词合并为“有极性”;而cNSEm-PMI则将情感词的抽取视为一个二分类问题。因此,如果在评测时不考虑新情感词的极性是否正确,在分类方法、特征都相同时,经过优化,cNSEm-PMI的分类性能高于cNSEm是容易理解的,划分为三类带来错误的可能性更大。如果评测时考虑新情感词极性是否被贴上了正确的标签,仅用与正、负情感词共现的PMI方法cNSEm-PMI则不如cNSEm,后者直接在分类时将候选词分为“正极性”、“负极性”和“无极性”三类。尽管如此,将PMI用于极性判断也是比较有效的,cNSEm-PMIBp±、AP±、Rp±和Rp2±评测指标上只比cNSEm分别低3.08%5.47%4.66%3.13%。结论7:根据词性进行候选词过滤是必要的。对于中文微博,四种方法在候选词性PosAll上的各项评测指标显示,如果不对情感词的词性加以约束,而将所有词性都作为候选,会严重影响新情感词的抽取准确率。对于英文微博,要视所选择的方法确定是否有必要通过词性进行过滤:如果采用GPC1方法和cNSEm,则没有必要,但如果采用传递方法,最好只抽取形容词性的情感词。(2) 上下文窗口长度对cNSEm的影响表9显示了不同上下文窗口长度时cNSEm的评测结果。通常认为,上下文窗口长度越大,特征中的信息就越丰富,对新情感词抽取越有利。但表9的结果显示,上下文窗口长度l1增加到3(中文)5(英文)时,cNSEm的各项评测指标也逐渐增加,但l继续增大时,cNSEm的性能反而下降。这说明,词的情感及情感极性更多地反映在其前后3个词(中文)5个词(英文)的用词规律上,而与距离更远的词已没有太大关系,纳入这些词反而会干扰新情感词的抽取。另外,从评测分值上看,英文微博对上下文窗口长度不如中文微博敏感,窗口长度为25时各项评测指标值比较接近。因此如果考虑效率,可以直接将l设置为2。表9窗口长度lcNSEm的影响(a) 中文数据集RC(PosAVDN,α=1)l Bp Bp± AP AP± Rp Rp± Rp2 Rp2±1 .5918 .3919 .2798 .1571 .3955 .2939 .6011 .44012 .7164 .4817 .3143 .1791 .4222 .3114 .6767 .50173 .7109 .4874 .3138 .1846 .4280 .3238 .6868 .51414 .6628 .4512 .2997 .1688 .4348 .3251 .6630 .49255 .6235 .4128 .2813 .1508 .4269 .3085 .6236 .45126 .6000 .3999 .2728 .1455 .4259 .3066 .6001 .4364(b) 英文数据集RE(PosAVDN,α=1)l Bp Bp± AP AP± Rp Rp± Rp2 Rp2±1 .7739 .4764 .2656 .1417 .3359 .2457 .4940 .35482 .8524 .5251 .2834 .1500 .3548 .2594 .5132 .37163 .8815 .5309 .2911 .1502 .3568 .2556 .5263 .37254 .8688 .5281 .2973 .1527 .3681 .2626 .5237 .37375 .8534 .5211 .3001 .1559 .3719 .2687 .5295 .37666 .8454 .5120 .2950 .1491 .3670 .2643 .5190 .36647 .8329 .5026 .2948 .1466 .3696 .2629 .5188 .3641(3) 参数α对正、负向情感词抽取的影响表10中,Bp+AP+(Bp-AP-)为仅考虑正(或负)极性情感词时的Bpref值和AP值。公式2中参数α用于调节正向与负向情感词样本不均衡导致的分类偏差,提高α有助于提高负向情感词的召回率。表10(a)显示,对于中文微博,尽管提高α值对论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 15负向情感词的抽取结果有改善,但这种改善在α大于2以后不再明显,其中AP-在α大于2后反而下降。而对于英文微博,α=1是最佳的选择。本组实验中,中文微博上α设置1.51时在Bpref±和AP±各有优劣,为统一中、英文,本文实验中默认α=1(4)各类特征的作用为了考察各类特征在cNSEm中的作用,本文在cNSEm默认特征组合的基础上,每次去掉其中一种类型的特征,并重新优化上下文窗口长度。相对于默认特征组合,去掉某一特征后cNSEm各项评测指标值增减的百分比如表11所示,其中第二行中cNSEm采用默认特征组合,上下文窗口长度l=3(中文)5(英文),候选词性集合为PosAVDN。“-COC”表示在默认特征组合中去掉“共现特征COC”,窗口长度优化后仍为3,“-CTX(l=4)”表示去掉上下文特征,窗口长度优化后为4。对表11的分析结论如下:表10.参数α对cNSEm的影响(a) 中文数据集RC(PosAVDN,l=3)α Bpref+ Bpref- Bpref± AP+ AP- AP±.5 .5383 .3546 .4561 .2019 .1209 .16261.0 .5187 .4516 .4874 .2101 .1537 .18461.5 .5026 .4645 .4852 .2120 .1542 .18542.0 .4724 .4770 .4765 .2070 .1564 .18252.5 .4620 .4796 .4729 .2055 .1538 .17863.0 .4311 .4726 .4550 .1917 .1480 .1669(b) 英文数据集RE(PosAVDN,l=5)α Bpref+ Bpref- Bpref± AP+ AP- AP±.5 .4535 .5087 .4934 .1156 .1731 .14861.0 .3625 .6057 .5211 .0826 .1984 .15591.5 .3048 .6146 .5103 .0583 .1996 .14812.0 .2521 .6228 .5017 .0482 .1991 .14442.5 .2312 .6252 .4978 .0444 .1989 .14273.0 .1997 .6272 .4914 .0356 .1994 .139711.各类特征对cNSEm的影响(a) 中文数据集RC(PosAVDN,α=1,l=3)Bp Bp± AP AP± Rp Rp± Rp2 Rp2±cNSEm.7109 .4874 .3138 .1846.4280 .3238 .6868 .5141-COC -8.37 -14.20 -8.57-21.13 0.37 -5.87 -4.97 -9.96-CTX 0.17 -3.90 1.21 -4.71 -1.50 -4.82 -1.70 -4.01-CTX(l=4) 3.64 0.16 4.43 -0.76 -2.73 -4.82 -0.66 -2.57-MDF -2.11 -3.28 -1.37 -2.98 -1.05 -2.29 -1.35 -2.41-LPT -5.36 -3.49-11.57-10.46 -5.70 -4.57 -4.89 -3.54-DOC 1.36 -4.64 1.82 -6.99 -0.63 -5.87 -0.47 -4.77(b) 英文数据集RE(PosAVDN,α=1,l=5)Bp Bp± AP AP± Rp Rp± Rp2 Rp2±cNSEm0.85340.52110.30010.15590.37190.26870.52950.3766-COC -2.48 -6.33 -4.40 -9.49 -0.94 -2.83 -2.42 -5.79-CTX 2.03 3.38 -7.70 -5.71 -7.34 -5.95 -2.47 -0.48-MDF -0.02 0.79 -2.50 -0.58 -1.96 -1.41 -1.32 0.13-LPT 2.05 2.46 -14.73 -15.33 -8.52 -8.34 -5.93 -4.41-DOC 4.07 2.69 4.03 2.63 -0.46 -1.75 1.38 0.37-DOC(l=3) 4.39 5.66 5.33 6.29 0.00 -0.11 3.74 4.01结论8:共现特征对情感词抽取及情感词的极性判断是非常重要的。表11显示,去掉COC特征后,除Rprec基本不变外,各项评测指标下降显著,特别是AP±指标,下降了21.13%(中文)9.49%(英文)。这说明,尽管仅用PMI对于微博中新情感词抽取是不够的,但基于PMI等共现的经典方法是合理的,共现信息在情感词的识别和情感极性的判断上有重要的指示作用。对比考虑极性和不考虑极性时的各项指标,发现去掉COC特征后,考虑极性的各项指标下降更严重。这说明,COC是判断情感词极性的重要特征之一,原因是,尽管一条微博中可能会使用多个有倾向性冲突的情感词,但多数情况下一条微博表达的情感是单一的,因此所用的多个情感词的倾向性也是一致的。这与文献[11,16,39]中“正/负向情感词与其它正/负向情感词(或集合)间共现频率更高”的假设是一致的,也符合3.3小节中的观察结果,即“极性相同的情感词比极性相异的情感词共现更强烈”。再者,去掉COC后,Rprec指标基本不变,但Rprec2指标明显下降,这说明仅使用COC以外的其它特征,情感倾向性比较明显的词(排名靠前)已经能够较好地被cNSEm识别出来。但对于情感倾向不明显的词(排名靠后)COC能起到辅助作用。结论9:中文微博中语言学模式特征可以弥补上下文特征的缺失。表11(a)中,对于中文微博,在去掉上下文词汇特征CTX后,如果上下文窗口仍然为3(注意到语言学模式特征LPT也与上下文窗口有关),则cNSEmBpref±、AP±和Rprec±指标明显下降。但优化(增大)窗口后,去掉CTXBpref±、AP±两项指标并无明显影响,反而使得BbrefAP指标略有上升。造成这种结果的主要原因是,在cNSEm默认的LPT特征lpt_ctx_nglr_?p中,保留了CTX特征ctx_nglr中距离候选词最远的词,从而保留了部分上下文特征。因此,当CTX特征缺失后,增大窗口的长度,使得LPT成了CTX的一个补充,减少了CTX缺失的影响。然而,在英文微博上我们却不能下同样的结论。表11(b)中,优化上下文窗口后(仍为5),去掉CTX特征仍然导致除BprefBpref±以外的各项评测指标明显下16 计算机学报 2017年降,说明对于英文微博,上下文特征和语言学模式特征起到了不同的作用。另外,对于中、英文微博,去掉语言学模式特征LPT会严重影响情感词抽取的质量,这说明中、英文情感词的使用都有一些隐式的规律,因此LPT特征对中、英两种语言的微博数据中情感词抽取都至关重要。相比中文,LPT特征对从英文微博中抽取情感词的影响更大,这也反映出英文情感词的用词模式更突出或者更容易被刻画,对新情感词的抽取更有帮助,因此文献[9,30]等直接采用一些显示模式来抽取英文情感词。结论10:修饰特征对新情感词的抽取影响较小,但依然有帮助。表11显示,去掉修饰特征MDF后,中、英文微博上的各项评测指标都会下降,但降幅不大。降幅不大有两个可能的原因,一是句法分析不够准确,导致长距离依赖分析不准确;二是长距离依赖相对较少,而短距离依赖又可以由上下文特征或语言模式特征来弥补。而去掉MDF特征后性能下降的原因是,尽管上下文中包含了大部分与候选词形成修饰关系的词,但却没有修饰类型,因此可以认为修饰类型对情感词及其极性的判断有帮助。结论11:文档特征对中英、文微博情感词抽取的影响差别很大。对于中文微博,文档特征有利于情感词的极性判断。表11(a)中,去掉DOC特征对新情感词的抽取影响不大,但会显著降低情感极性判断的正确率,使得各项考虑极性的评测指标显著下降。这说明,尽管文档特征对新情感词的抽取没有帮助,但文档包含的正负情感词的数量对文档中新情感词的极性判断是有帮助的,这类似于COC特征的作用。然而,表11(b)却显示,从英文微博中抽取新情感词时,增加DOC特征反而严重损害了cNSEm的性能。更仔细的观察发现,这是由于中、英文不同语种的微博中情感词和非情感词的分布差异导致的。相比中文微博140个汉字,英文tweet140个字符包含的词条要少很多,因此,出现情感词共现的可能性也小很多。表4显示,RC中含两条以上情感词的微博占48%,而RE中只有25%。也就是说,英文微博中已知情感词和新情感词大都是独立出现的。对于已知情感词,它们的DOC特征中已知的“正(或负)情感词个数”通常是1,而由于新情感词通常也是独立出现的,所以它们的DOC特征中已知的“正(或负)情感词个数”通常是0,这对cNSEm中的分类是非常不利的。(5) 各类特征的用法表11显示了第5节定义的各类特征对cNSEm的影响,而表12则展示了各类特征的不同用法对cNSEm的影响。表12的第二行cNSEm采用默认特征,其它各行则表示替换默认特征并优化上下文窗口长度后各评测指标增减的百分比。例如,第三行中dice表示将默认特征组合中共现特征COC由点互信息pmi替换为dice系数。分析表12可得出以下结论:结论12:对于中文微博,共现特征选择Dice系数较PMI更好。已有文献中通常用PMI作为主要特征抽取新情感词,但对于中文微博数据,尽管二者的表现差距不大,但总体上Dice系数表现更佳。将pmi替换为dice后,除了RprecRprec±两项指标外,其它指标都略有提升。我们做了类似于表5的统计分析,发现在中文微博上,Dice系数较PMI对情感词有更好的区分能力。表12.各类候选特征的不同用法对cNSEm的影响(a) 中文数据集RC(PosAVDN,α=1,l=3)类 候选特征 Bp Bp± AP AP± Rp Rp± Rp2Rp2±cNSEm.7109.4874.3138.1846.428.3238.6868.5141COC dice 3.25 2.93 2.36 2.60-1.54-0.65 1.03 1.03CTX ctx_u -0.52 -3.02 -0.29 -4.01-2.59-5.37-1.89-3.23ctx_u(l=4) 3.11 0.57 3.03 -2.00-2.17-4.42-0.47-1.38ctx_ulr 0.28 -2.75 0.38 -4.77-1.87-3.92-1.89-3.33ctx_ulr(l=4) 3.87 -0.45 4.11 -3.20-1.99-5.81-0.66-2.92-CTX(l=4) 3.64 0.16 4.43 -0.76-2.73-4.82-0.66-2.57MDF mdf_nlr -0.48 -0.90 -0.41 -0.65-1.05-1.20-0.77-1.28LPTlpt2_ctx_nglr_?p-11.87-12.02-10.01-15.28-0.33-1.45-8.71-9.04lpt_ctx_nglr_±p -5.28 -5.01 -4.56 -6.120.91 0.65-2.78-2.76lpt_ctx_nglr_? -2.98 -2.81 -9.05 -9.70-4.70-3.83-3.86-3.29lpt_ctx_nglr_pp -2.45 -2.71 -2.10 -3.200.05-0.80-1.54-1.48lpt_mdf_all_±0.11 -1.46 0.67 -1.14-0.14-0.99-0.09-1.32(b) 英文数据集RE(PosAVDN,α=1,l=5)类 候选特征 Bp Bp± AP AP± Rp Rp± Rp2Rp2±cNSEm.8534.5211.3001.1559.3719.2687.5295.3766COC dice 2.043.63 -3.67-1.99 -1.56 0.41 0.382.68CTX ctx_u 0.47-1.44-11.53-13.86 -9.30-10.27-5.93-7.20ctx_u(l=2)-4.53-2.38-10.43-5.84 -9.68-6.81-5.44-3.56ctx_ulr 0.501.38-10.50-8.72-10.54-8.22-5.59-3.40-CTX2.033.38 -7.70-5.71 -7.34-5.95-2.47-0.48MDF mdf_nlr 0.270.58 -0.97 0.96 -1.80-0.33-0.660.77LPT lpt2_ctx_nglr_?p-1.39-1.40 -4.53-4.75 -1.56-0.67-3.46-3.88lpt_ctx_nglr_±p-0.47-1.65 -5.36-8.40 -3.98-4.32-2.36-2.42lpt_ctx_nglr_±p(l=2) 0.682.71 -5.80-1.99 -4.92-2.49-1.590.45lpt_ctx_nglr_?-0.41-0.13-13.73-16.10 -5.46-7.26-4.06-4.25lpt_ctx_nglr_?(l=4) 2.301.29-13.53-15.78 -6.48-7.48-4.06-3.80lpt_ctx_nglr_pp 0.050.48 -2.80-3.34 -2.42-2.05-0.490.45lpt_ctx_nglr_pp(l=3) 3.013.32 -2.80-1.99 -3.60-2.05-0.381.30lpt_mdf_all_±-0.57-0.02 -1.57-0.90 -0.24 0.52-1.53-0.40结论13:上下文特征中的unigram特征不利于论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 17新情感词的抽取。为了便于对比,表12中将去掉CTX特征后(-CTX)各项指标值再次罗列出来。对于英文微博,采用CTX特征的ungram形式(ctx_uctx_ulr)还不如去掉CTX特征(-CTX),这在全部评测指标上都有不同程度的体现。而对于中文微博,这一评测结果尽管不如英文微博上明显,但使用unigram要么在部分指标上与去掉CTX相当,要么更差。上下文的unigram形式不利于新情感词抽取的原因可以通过一个简单的示例来说明:设微博<t1,t2,s,t4,t5>s为情感词,其它为非情感词,相邻的情感词s和非情感词t4ctx_u特征分别为{t1,t2,t4,t5}{t1,t2,s,t5},二者有3/4是相同的,区别非常小,不利于分类。而st4ctx_nglr特征分别为{t2/&,t1/t2/&,&/t4,&/t4/t5}{s/&, t2/s/&,t1/t2/s/&,&/t5},没有重复特征,因此有较好的区分能力。这也同时也说明,在文本或微博情感分类上有效的上下文特征不能直接用于新情感词的抽取。结论14:远距离的修饰特征对中文微博新情感词的抽取有帮助。与考虑全部修饰关系的mdf_all相比,只考虑距离候选词最近的修饰关系(mdf_nlr)时,cNSEm的各项指标在中文微博上均有下降。但与结论10中不考虑修饰特征相比,这种下降幅度非常小。这说明,对于中文微博,远距离的修饰关系有用,但作用非常有限,这与结论10中的分析是一致的。对于英文微博,mdf_allmdf_nlr各有千秋,没有显著性的差异。一个可能的原因是,在英文微博上,上下文窗口设置为5,更长距离的依赖关系已经比较少或者不准确了。结论15lpt_ctx_nglr_?p特征能较好地刻画情感词的用词模式。表12中,语言学模式的5种替换特征中,除给cNSEm的极少数指标带来3%左右的提高外,大部分指标在替换后都明显下降,这在中、英文微博上是相似的。特征lpt_ctx_nglr_±p不用通配符而采用情感词的极性,用以模拟文献[9,36,42]中的模式,例如通过“和(and)”联系的两个形容词极性相同等。实验结果显示,用特征lpt_ctx_nglr_±p替换掉默认特征lpt_ctx_nglr_?p后,除中文微博上RprecRprec±基本不变外,各项评测指标均下降,其中AP±指标下降高达6.12%(中文)8.40%(英文)。这说明中、英文微博中两个情感词之间的语言学模式不明显或者不易描述。此外,当观察各替换特征在RprecRprec±(英文的Rprec2Rprec2±)指标上的表现时,发现lpt_ctx_nglr_±plpt_ctx_nglr_pp特征的表现与lpt_ctx_nglr_?p特征相当。由于RprecRprec±(Rprec2Rprec2±)指标是返回规模与测试词典相同(2)时的召回率,可以看作是对排名靠前或情感倾向比较明显的情感词的评测。结合表11中去掉LPT特征导致cNSEmRprecRprec±(Rprec2Rprec2±)指标下降5%左右,我们可以大胆地做出结论:包含了上下文词汇和候选词词性的语言学模式对微博中情感倾向比较明显的情感词的用词规律有较好的刻画能力。再者,lpt2_ctx_nglr_?p试图在lpt_ctx_nglr_?p的基础上通过增加一个词(或者减少一个通配符)来增强准确率,但实验显示这种调整是失败的,优化窗口长度后,各项评测指标依然有大幅下降,其中AP±指标下降高达15%(中文)5%(英文)左右。结论16:候选词的词性有助于刻画情感词的语言学模式。除了将词性用于候选词的过滤外,本文还将词性引入语言学模式特征LPT中。表12中,特征lpt_ctx_nglr_?中不包含候选词的词性,用该特征替换lpt_ctx_nglr_?p后,全部指标都大幅下降,其中APAP±下降约10%(中文)15%(英文),说明词性不仅在过滤候选词时非常重要,而且在描述情感词的用词模式中也扮演着重要的角色,这与我们的常识是一致的。此外,当我们试图将LPT中除候情感词以外的通配符“?”全部替换为相应词的词性时(特征lpt_ctx_nglr_pp),结果也变糟了,各项评测指标均有不同程度的下降。由此可见,情感词自身的词性有助于描述情感词的用词规律,但这个用词规律与上下文中其它词的词性关系不大。(6) 未登录名词的影响在中文微博数据上,在通用词典中不存在但被ICTCLAS2013分词及词性标注系统识别出来并且标注为“n_new”的词,即未登录的名词。尽管本文在构建情感词典时考虑到该问题,增加了部分未登录的情感词,但与被标注为n_new的总词数22.86K相比,情感词典中包含的n_new类型的情感词仍然非常有限,仅有0.21K。从表13的评测结果来看,在候选词性集合中加入了n_new(PosAVDN'),各项评测指标都显著下降,说明n_new这一类词依然是cNSEm的一大挑战。解决该问题至少存在两种途径,一是扩大用于训练的情感词典中未登录词的比例,这可以在cNSEm方法的帮助下,通过人工筛选来完成;二是专门针对n_new这一类词选择特征组合、训练分类器,以及增加更为老练的过滤规则,我们将在未来工作中继续探讨。18 计算机学报 2017年表13.候选词性n_newcNSEm的影响(α=1,l=3)POS Bp Bp± AP AP± Rp Rp± Rp2 Rp2±PosAVDN.7109 .4874 .3138 .1846 .4280 .3238 .6868 .5141PosAVDN' .5856 .4358 .2146 .1289 .3360 .2564 .5102 .3849(7) 参加COAE2014评测结果cNSEm参加了COAE2014的中文微博新情感词抽取任务。该任务要求从1000万条中文微博中抽取不超过1万条新情感词。由于参加比赛时间紧迫,待处理的数据量大,因此没有对cNSEm方法进行参数优化,并且在用词性进行过滤后,只选择了语言学模式LPT一个特征。尽管只用了一个特征,cNSEm仍在26支参赛系统中取得了排名第二的成绩。表14列出了排名前5的参赛系统,其中UdeM-t3-2是基于cNSEm的。表14cNSEmCOAE2014上的评测结果参赛系统 P R F1 P± R± F1±SXU .20420 .20961.207 .16400 .16834 .166141662UdeM-t3-2 .16590 .17029.168 .14850 .15243 .150439338KMUST_LIIP .20492 .17460.189 .16167 .13775 .148754542ICT_WDSE .17700 .17142.174 .14630 .15017 .148209741iip-2 .26177 .12441.169 .21793 .10357 .140410638(8) 新情感词对微博情感分类的帮助(间接评测)为进一步评估cNSEm方法的性能,本文用cNSEm抽取的新情感词扩展情感词典,利用扩展前后的情感词典对微博进行情感分类,考察所抽取的新情感词对微博情感分类是否有帮助。考虑到情感词典之间的差异性(3.1节表2所示),为充分考察cNSEm对不同情感词典的适应性,对中文微博,本组实验除采用基于DUTSDSC外,还选择了与DUTSD差异最大的NTUSD作为cNSEm的训练词典;对于英文,除采用SE外,另外选择SentiWordNet(SWN)中情感倾向较强的情感词(简称SWNHQ)用作训练。作为参照,实验中还评测了中文情感词典MixedSD(多个人工情感词典的并集)和英文情感词典MPQA(SE只是MPQA中极性强度较高的情感词),它们可以认为是情感词的理想或人工扩展结果。各情感词典的规模如表15所示。表15情感分类中使用的情感词典情感词典 词条数 正向词条数 负向词条数中文 MixedSD 35170 16272 18898SC7565 3964 3601NTUSD 8347 1810 6537英文 MPQA 12296 4183 8113SE5634 2416 3218SWNHQ 11806 3786 8020SWN 65994 30017 35977用于扩展新情感词的中文微博数据集是从COAE2014微博集合中随机抽取的100万条微博,英文微博数据集为RE中的DE。根据前面的实验结果,本组实验中,对中文微博,cNSEm的特征为默认特征组合,上下文窗口长度l3,候选词性集合为PosAVDN¢,即包含n_new词性(真实环境下需要抽取未登录的新情感词);对于英文微博,cNSEm的特征不包含DOC特征,其它类型的特征仍为默认特征,候选词性集合为PosAVDN,上下文窗口长度l5。为考察cNSEm所抽取的情感词的通用性,中文微博情感分类任务选用两个数据集,分别来自COAE2014的情感分类子任务(COAE2014测试集)和来自CC&NLP2013的情绪分类子任务(CC&NLP2013测试集)COAE2014情感分类子任务提供了5000条微博,其中2656条被标注正向,2344条被标注为负向。CC&NLP2013情绪分类子任务中提供了1万条微博,其中2674条被标注为“高兴”、“喜好”,2453被标注为“厌恶”、“恐惧”、“悲伤”、“愤怒”、“惊讶”等情绪,4873条被标注为“无情绪”。本实验将“高兴”和“喜好”情绪视为正向,其它情绪视为负向。英文测试数据集为文献[22]作者提供的英文tweets测试集(原文2K),下载得到1766条,其中“正”、“负”和“无极性”的tweets数量分别为531条、298条和764条,另有173条正负极性兼有。情感词扩展的数量为测试数据中原始(扩展前)情感词数量的λ倍。本实验中,λ分别取值0.11,前者考察少量扩展时的影响,后者考察情感词典规模扩大到原始情感词典2倍时的影响。由于本任务主要考察新情感词的抽取质量,因此微博情感分类方法采用基于情感词典的Naive情感分类方法[22]。该方法通过微博中包含的情感词的数量来判断其情感倾向性,即,如果有k条及以上情感词出现在微博中,则该微博有情感倾向,其情感极性为微博中正、负情感词的数量中的多者;如果微博中正、负情感词的数量相同,则只认为该微博有情感,不对其极性作判断。尽管有文献在实验中尝试不同的k值,但本文在多个情感词典和多个测试集上的结果都显示,对于中文微博,k=1是最佳的。对于英文微博,k=2在降低召回率的代价下,提高了精确率,但扩展情感词前后所表现出来的特点和规律与k=1是一致的。因此,本文呈现的实验结果都是k=1时的评测结果。论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 1916和表17是微博情感分类的评测结果,其中PRF1表示微博主观性(只考虑微博是否有情感,而不考虑其情感极性是否判断正确)分类的准确率、召回率和二者的调和平均值;而P±、R±、F1±表示微博极性分类的准确率、召回率及二者的调和平均值,极性分类的评测只在测试集中正、负两种极性的微博上进行。由于COAE2014测试集中只有带情感的微博,没有无情感的微博,因此不对其主观性分类进行评测,只在该数据集上作极性分类的评测。观察表16中文微博的主观性分类结果,可以看出,即使选择SC这种情感倾向性较高的(或者称高质量的)情感词典,如果采用基于情感词典的Naive主观性分类方法,分类的召回率高达85%以上,而准确率却只有54%,如果采用人工词典NTUSD,召回率超过92%,而准确率只有52%,相当于几乎将测试集中全部的微博都贴上“有情感”的标签,这显然是没有意义的。尽管如此,与GPC方法相比,用cNSEm方法扩展的情感词典在微博主观性分类上还是获得了较高的准确率。表16基于中文微博情感分类任务的间接评测结果CC&NLP2013测试集 COAE2014测试集情感词典 扩展方法 λ P R F1 P± R± F1± P± R± F1±MixedSD .5133 .9980 .6779 .5988 .5976 .5982 .6760 .6738 .6749SC0 .5488 .8578 .6694 .6598 .5660 .6093 .8229 .6516 .7273GPC1 0.1 .5213 .9817 .6810 .6126 .6013 .6069 .7322 .6848 .70771 .5134 .9957 .6775 .5773 .5748 .5760 .7590 .7552 .7571cNSEm 0.1 .5458 .8902 .6767 .6661 .5929 .6274 .8225 .6736 .74061 .5225 .9729 .6799 .6628 .6448 .6537 .8059 .7550 .7796NTUSD 0 .5208 .9214 .6655 .6556 .6041 .6288 .7946 .6508 .7155GPC1 0.1 .5179 .9834 .6785 .5732 .5637 .5684 .6990 .6474 .67221 .5135 .9957 .6776 .5318 .5295 .5306 .6567 .6420 .6493cNSEm 0.1 .5210 .9308 .6681 .6614 .6156 .6377 .8019 .6816 .73691 .5204 .9739 .6783 .6565 .6394 .6478 .8000 .7542 .776417基于英文微博情感分类任务的间接评测结果PosAVDN PosA情感词典 扩展方法 λ P R F1 P± R± F1± P R F1 P± R± F1±MPQA 0 .6356 .8723 .7354 .6267 .5489 .5852 .6356 .8723 .7354 .6267 .5489 .5852SE0 .6806 .7146 .6972 .6684 .4789 .5580 .6806 .7146 .6972 .6684 .4789 .5580GPC1 0.1 .6491 .8343 .7301 .5690 .4777 .5194 .6661 .8184 .7344 .5962 .4934 .54001 .5964 .9571 .7349 .4540 .4343 .4439 .6106 .9391 .7400 .5058 .4765 .4907cNSEm 0.1 .6706 .7435 .7052 .6742 .5018 .5754 .6769 .7695 .7202 .6421 .4934 .55801 .6286 .9002 .7403 .6148 .5525 .5820 .6432 .8922 .7475 .6201 .5573 .5870SWNHQ 0 .6839 .6068 .6430 .6647 .4017 .5008 .6839 .6068 .6430 .6647 .4017 .5008GPC1 0.1 .6724 .7046 .6881 .5873 .4138 .4855 .6737 .7046 .6888 .5955 .4174 .49081 .6043 .8962 .7219 .4257 .3800 .4016 .6220 .8673 .7244 .4651 .4017 .4311cNSEm 0.1 .6840 .6417 .6622 .6829 .4391 .5345 .6837 .6427 .6626 .6779 .4367 .53121 .6434 .8174 .7200 .6696 .5452 .6010 .6634 .8084 .7288 .6667 .5428 .5984SWN 0 .5764 .9860 .7275 .5655 .5573 .5614 .5764 .9860 .7275 .5655 .5573 .5614GPC1 0.1 .5727 .9910 .7259 .5189 .5139 .5164 .5745 .9930 .7279 .5188 .5151 .51691 .5685 .9980 .7244 .5036 .5030 .5033 .5692 .9980 .7249 .5036 .5030 .5033cNSEm 0.1 .5756 .9920 .7285 .5645 .5597 .5621 .5751 .9940 .7286 .5728 .5694 .57111 .5682 .9980 .7241 .5894 .5887 .5890 .5714 .9980 .7267 .5749 .5742 .574516和表17显示,当情感词典的规模仅增加10%时,相比cNSEmGPC方法扩展的情感词大幅度地提高了主观性分类的召回率,但同时使其准确率严重下降。此时,单从F1值上看,GPC方法扩展的情感词典对微博主观性分类的帮助要比cNSEm方法更大。但进一步观察扩展词典中排名靠前的“新情感词”发现,GPC方法扩展的新情感词中,有大量文档频率较高的非情感词,从而使得主观性分类的召回率大大提升,但准确率却严重受损。当情感词典规模扩大1倍时,cNSEmGPC两种方法扩展的情感词典在微博主观性分类上获得了相近的F1值,但在准确率方面,cNSEm方法20 计算机学报 2017年扩展的情感词典明显更好。对于情感极性分类问题,表16和表17显示,GPC方法扩展的新情感词导致微博的极性分类准确率和F1值大幅度下降,这与文献[22]的结果一致。而用cNSEm方法将情感词典扩大1倍时,显著提升了极性分类的召回率和F1值。意料之外的,对于中、英文上的多部情感词典,用cNSEm方法扩展的情感词典不仅没使微博极性分类的准确率下降,反而略有提升。例如,对中文情感词典SCNTUSD的扩展,使CC&NLP2013测试集上微博极性分类的准确率分别从0.65980.6556提升到0.66280.6565;对英文情感词典SWNHQSWN的扩展,使得tweets上极性分类的准确率分别从0.66470.5655提升到0.66960.5894。另外,利用cNSEmSCNTUSD扩展一倍时,得到的情感词典在微博主观性分类的准确率和F1值上、在极性分类的准确率、召回率和F1值上均超过混合人工情感词典MixedSD,特别是在极性分类的准确率上,高出10%(CC&NLP2013测试集)19%(COAE2014测试集)cNSEm对英文情感词典SWNHQ的扩展有类似的结论,将SWNHQ扩展一倍时,微博情感极性的召回率达到MPQA的效果,但准确率却较MPQA高出近7%。从这组数据可以看出,用cNSEm扩展出的新情感词在质量上几乎可以与已知(或人工)的情感词典竞争。表16和表17还显示出cNSEm方法对种子情感词典(用于训练)、扩展情感词用的微博数据集、语种等均有较强的适应能力,通过cNSEm方法扩展的新情感词也具有通用性。首先,在cNSEm对种子情感词典的适应性方面,中文种子情感典选择了词条及词典规模相差较大的SCNTUSD作为对照,英文种子情感词典选择了SESWNHQ作为对照。实验结果显示,用cNSEm方法扩展后,对微博主观性分类和情感极性分类都有改善,而对情感极性分类的改善幅度更大。其次,在cNSEm对扩展情感词用的微博数据集的适应性方面,我们在评估候选特征、上下文窗口长度等因素时所选用的微博数据集是从COAE2014中随机采样的0.5M条微博,而在本小节扩展情感词时,重新采样了1M条微博,情感分类结果显示,用0.5M条微博上分析得到的cNSEm特征及参数,在1M条微博数据集上抽取得到的新情感词仍然有较高的质量。第三,语种适应性方面,我们选择了中、英文两种语种的微博,尽管各类特征(如文档特征DOC)或参数(如上下文窗口长度)在不同语种的微博上表现稍有差异,但cNSEm仍能很好地适用于中、英两种语言的微博数据集。最后,在扩展得到的情感词的通用性方面,COAE2014测试集与用于新情感词扩展的1M条微博都来自COAE2014评测任务,是同源的,但CC&NLP2013测试集用于情绪分类任务,与新情感词扩展所用的数据集差异较大。表16显示,基于SC训练的cNSEm并在COAE2014测试集上所抽取的新情感词对两个测试集上微博情感极性分类效果都有显著的改善:对于CC&NLP2013测试集,当扩展规模到100%时,F1±从0.6093提高到0.6537,提高了7.29%;在COAE2014测试集上的表现类似,情感词典扩展后,微博情感极性分类的F1±从0.7273提高到0.7796,提高了7.19%。这说明,cNSEm方法扩展的新情感词具有通用性。表17中还列出了将候选词限定在形容词上扩展得到的新情感词对情感分类任务的影响。结果显示,在SESWNHQ两个种子情感词典及多项评测指标上看,对于英文微博情感分类任务,如果选择GPC方法扩展情感词,将候选词限定在形容词上更好。而对于cNSEm方法,在候选词性PosA或候选词性PosAVDN上扩展的新情感词对英文微博情感分类任务并未表现出明显差别。结合新情感词抽取的其它评测方法及表18中的新情感词示例,我们一方面更加确信了cNSEm方法可以适应不同的候选词性,同时也更加质疑通过情感分类的任务是否足以说明或对比不同方法所抽取的新情感词的质量。下面通过一个例子来说明这一质疑:设微博<t1,t2,s,t4,se>s为种子情感词,se为扩展得到的新情感词。情感词扩展前,对该微博的分类仅依据s,而扩展后,对该微博的分类依据sse,相当于利用了微博中的更多信息。在这种情况下,即便se不是情感词,也可能对情感分类起到有益的作用。关于表18中新情感词样例的进一步说明:为了能够评测cNSEm的效果并且不增加主观性,实验设计时并没有通过人工来评测抽取到的“新情感词”,而是利用被普遍使用的人工情感词典进行评测(主要基于大连理工大学的人工情感词典)。具体而言,非情感词是指那些在通用词典中出现但没在任何人工情感词典中出现过的词(本文的人工情感词典包括六部分,分别是来自大连理工大学、知网、清华大学、台湾大学的情感词典、标注带有情感的新浪微博表情符号、以及COAE2014提供的新情感论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 21词典,如公式(1)所示),而用于训练的情感词典和用于测试的情感词典都基于大连理工大学的人工情感词典,训练和测试各用一半。这样,评测实验中的候选词包括三部分:(1)没被通用情感词典收录的情感词;(2)用作测试的情感词;(3)包含在其它人工情感词典中的词。例如:表18中“不正确”不在通用词典中,“悲哀”来自大连理工大学的情感词典,而“水灵”则包含在其它情感词典中。因此,就出现了表18中新情感词看上去不“新”的现象。在实际提交到COAE2013的参赛系统中,训练用的情感词典是基于大连理工大学的情感词典并进行了适当扩展,而候选词也只是那些不在通用词典中的词。例如,UdeM-t3-2参赛系统提交的前20个词是:很好、给力、白皙、尼玛、达人、伤不起、吃货、和美、佳品、高端、发飙、大礼、坑爹、柔润、你妹、的真、无语、柔滑、淡定、傻逼。这些词都未在给定的通用词典中出现。表18新情感词样例(+”、“-”分别表示该新情感词极性为“正”或“负”)中文微博 英文tweetsRank cNSEm GPC cNSEm GPC1 水灵/- 自己/- elixer/- people/-2 频繁/- 没有/- able/+ feel/-3 深沉/- 觉得/- guilty/- tcot/-4 可悲/- 结果/- unheard/- obama/-5 矛盾/- 不要/- painful/- even/-6 矿泉喷雾/- 事情/- sensitive/- stop/-7 不正确/- 人家/- optimistic/- think/-8 悲哀/- 东西/- good-looking/+ shit/-9 邪说/- 不知道/- unable/- poor/-10 吃力/+ 政府/- feel/- ca/-11 甜香/+ 事件/- unaware/- bit/-12 恍恍惚惚/- 还是/- needless/- still/-13 陷入/- 知道/- victorious/- left/-14 苍白/- 司机/- liable/- away/-15 阳刚/+ 可能/- analytical/+ get/-16 别扭/- 其实/- productive/+ never/-17 合适/+ 就是/- indicative/- someone/-18 惭愧/+ 行为/- loveeee/+ really/-19 残忍/- 时候/- carpal/- trying/-20 可怕/- 社会/- unfocused/- way/-7结论与展望情感词典对文本情感分析任务具有重要意义。人工情感词典虽然准确但构建的代价很大,难以适应微博这类新情感词快速更迭的数据集。本文针对中英文微博数据中情感词的词性分布、情感词共现等特点,提出了基于分类的微博新情感词抽取方法cNSEm,并且将名词等形容词外的其它词性纳入候选词集合中。cNSEm利用人工情感词典和微博数据集构建训练数据,训练分类器并对候选词进行极性分类。实验结果显示,与基于共现和极性传播的GPC方法相比,仅考虑形容词类型的情感词时,cNSEmGPC性能相当,但扩大候选词的词性集合后,cNSEm在多项评测指标上都远好于GPC,其Rprec指标达到了人工情感词典的性能。实验还发现,在情感词的极性判断方面,尽管从统计上看,通过与已知正、负极性情感词的共现可以有效地判别候选词的极性,但其准确率仍然明显低于cNSEm中的极性判断方法。本文还通过大量的实验来分析上下文、词性、语言学模式、修饰关系、文档特征、与情感词的共现等各类特征,以及上下文窗口长度等参数对cNSEm的影响,发现文档特征不利于cNSEm从英文微博中抽取新情感词,其它各类特征对cNSEm性能的提高都有帮助,特别是语言学模式和与情感词的共现特征。尽管各类特征对情感词的抽取和极性判断有不同程度的帮助,但不同的使用方法会带来不同的效果,例如:用n-gram表示的上下文特征要比unigram更好,在语言学模式中引入候选情感的词性能提高cNSEm的性能。除了利用理想情感词典对cNSEm进行评测之外,本文还通过考察扩展的新情感词对微博情感分类的影响对cNSEm进行间接评测。评测结果显示,cNSEm方法对种子情感词典、扩展情感词用的微博数据集、语种等均有较强的适应能力,通过cNSEm方法扩展的新情感也具有良好的通用性。cNSEm方法还参加了COAE2014的微博新情感词抽取子任务,尽管当时只用到了词性和语言学模式两类特征,并且未进行参数优化,cNSEm仍在26支参赛系统中排名第二,显示了较强的竞争力。下一步的主要工作:(1) 在确定新情感词及其极性时,cNSEm是对出现在不同场景下候选词的分类结果进行了简单的投票统计,因此,得到的新情感词只能说明在大部分情况下该词可能是情感词,以及其可能的情感极性。然而,在不同的上下文中,词的情感极性可能会发生变化,因此,有必要在cNSEm的基础上,分析带有极性歧义的情感词,挖掘这些情感词在不同极性时的用词规律,以增强情感分析的准确性。(2) 由于cNSEm方法中用到的特征利用了句22 计算机学报 2017年法分析的结果,如词性、依存关系等,而句法分析的效率将成为cNSEm效率的瓶颈,因此,如果要进行新情感词的在线抽取,还需要探索可替代句法分析结果的其它特征。(3) 在从微博中抽取新情感词时,发现很多分词系统对微博的分词效果较差,这也是有待克服的一大障碍。(4) 如何利用cNSEm方法在抽取新情感词的同时,抽取情感或评论的对象,也是我们感兴趣的工作。(5)cNSEm方法的成败很大程度上依赖于特征选择,把特征选择问题交给深度学习来完成,将是我们未来的工作之一。也相信本文所进行的特征分析工作对用深度学习的方法抽取新情感词是有帮助的,例如,在确定是否要对微博进行句法分析、是否将词性等作为深度学习的输入、如何更恰当地选择上下文等方面。致 谢 感谢加拿大蒙特利尔大学刘晓华博士对本文工作的建议和帮助,感谢审稿专家提出的宝贵意见。参考文献[1]LIUDe-Xi. Effect ofsentimentalwordexpansionontheperformanceofmicroblogsentimentalclassificationtask. JournalofChineseComputerSystems,2016,37(5):957-965(inChinese)(刘德喜. 情感词扩展对微博情感分类性能影响的实验分析. 小型微型计算机系统, 2016,37(5):957-965)[2]PangB, LeeL. Opinionminingandsentimentanalysis. FoundationsandTrendsinInformationRetrieval,2008,2(1-2):1-135[3]ZhaoYY, QinB, LiuT. Sentiment analysis. Journal ofSoftware, 2010,21(8):1834-1848(inChinese)(赵妍妍, 秦兵, 刘挺, 文本情感分析.软件学报,2010,21(8):1834-1848)[4] Liu B. Sentiment analysis and opinion mining. USA: Morgan &Claypool.2012:1-165[5] HeYan-Xiang, SunSong-Tao, NiuFei-Fei, Li Fei. Adeeplearningmodel enhanced with emotion semantics for microblog sentimentanalysis. Chinese Journal of Computers, 2017, 40(4):773-790 (inChinese)(何炎祥, 孙松涛, 牛菲菲, 李飞. 用于微博情感分析的一种情感语义增强的深度学习模型. 计算机学报, 2017,40(4):773-790)[6] Huang Fa-Ling, Feng Shi, Wang Da-Ling, Yu Ge. Mining topicsentiment in microblogging based on multi-feature fusion. ChineseJournal ofComputers, 2017, 40(4):872-888(inChinese)(黄发良, 冯时, 王大玲, 于戈. 基于多特征融合的微博主题情感挖掘, 计算机学报,2017,40(4):872-888)[7] Jiang L, YuM, Zhou M, et al. Target-dependent Twitter sentimentclassification.//ProceedingofACL2011,Oregon,USA,2011:151-160[8] Bravo-Marquez F, Mendoza M, Poblete B. Combining strengths,emotions and polarities for boosting Twitter sentiment analysis.//ProceedingsofWISDOM2013,Chicago,USA,2013:1-9[9]HatzivassiloglouV, McKeownKR. Predictingthesemanticorientationof adjectives. //Proceedings of ACL 1997, Madrid, Spain, 1997:174-181[10]TurneyPD, LittmanML. Measuringpraiseandcriticism: inferenceofsemantic orientation from association. ACM Transactions onInformationSystems,2003,21(4):315-346[11]Kaji N, KitsuregawaM. Buildinglexiconfor sentiment analysis frommassive collection of HTML documents, //Proceedings ofEMNLP-CoNLL2007,Prague,CzechRepublic,2007:1075-1083[12]FengS, ZhangL, Li B, et al. IsTwitter abetter corpusfor measuringsentiment similarity? //Proceedings of EMNLP2013, Washington,USA,2013:897-902[13]Yu H, Deng Z H, Li S. Identifying sentiment words using anoptimization-basedmodel without seedwords. //Proceedings of ACL2013,Sofia,Bulgaria,2013:855-859[14]Kamps J, Marx M, Mokken R, et al. Using WordNet to measuresemantic orientations of adjectives. //Proceedings of LREC2004,Lisbon,Portugal,2004:1115-1118[15]AndreevskaiaA, Bergler S. MiningWordNet for a fuzzysentiment:sentimenttagextractionfromWordNetglosses. //ProceedingsofEACL2006,Trento, Italy,2006:209-215[16]RiloffE,WiebeJ,WilsonT.Learningsubjectivenounsusingextractionpatternbootstrapping. //ProceedingsofHLT-NAACL2003-Volume4,Edmonton,Canada,2003:25-32[17]RaoD, RavichandranD. Semi-supervisedpolaritylexiconinduction.//ProceedingsofEACL2009,Athens, Greece,2009:675-682[18]Esuli A, Sebastiani F. PagerankingWordNet synsets: anapplicationtoopinionmining. //ProceedingsofACL2007, Prague, CzechRepublic,2007:442-431[19]AwadallahA, RadevD. Identifyingtext polarityusingrandomwalks.//ProceedingsofACL2010,Uppsala,Sweden,2010:395-403[20]AwadallahA, Abu-Jbara A, Jha R, et al. Identifying the semanticorientation of foreign words. //Proceedings of ACL2011, Oregon,USA,2011:592-597[21]XuG, MengX, WangH. Build Chinese emotionlexicons using agraph-based algorithm and multiple resources. //Proceedings ofCOLING2010,Beijing,China.2010:1209-1217[22]VolkovaS,WilsonT,YarowskyD. Exploringsentimentinsocialmedia:bootstrapping subjectivity clues frommultilingual twitter streams.//ProceedingsofACL2013,Sofia,Bulgaria,2013:505-510[23]QiuG, LiuB, BuJ,et al. Expandingdomainsentiment lexiconthroughdouble propagation. //Proceedings of IJCAI 2009, California, USA,2009:1199-1204[24]ZhaoWX, JiangJ,YanH, et al. Jointlymodelingaspectsandopinionswith a MaxEnt-LDA hybrid. //Proceedings of EMNLP 2010,Massachusetts,USA,2010:56-65[25]Lazaridou A, Titov I, Sporleder C. Abayesian model for jointunsupervised induction of sentiment, aspect and discourserepresentations. //Proceedings of ACL2013, Sofia, Bulgaria, 2013:1630-1639论文在线出版号No.70 刘德喜等:基于分类的微博情感词抽取方法和特征分析 23[26]XuL, LiuK, Lai S, et al. Walkandlearn: atwo-stageapproachforopinion words and opinion targets co-extraction. //Proceedings ofWWW2013,RiodeJaneiro,Brazil,2013:95-96[27]Kim S M, Hovy E. Determining the sentiment of opinions.//Proceedings of COLING 2004, Geneva, Switzerland, 2004:1367-1373[28]Esuli A, Sebastiani F. Sentiwordnet: a publicly available lexicalresource for opinionmining. //Proceedings of LREC2006, Genoa,Italy,2006:417-422[29]MohtaramiM, LanM, TanCL. Probabilisticsensesentiment similaritythroughhiddenemotions. //ProceedingsofACL2013, Sofia, Bulgaria,2013:983-992[30]PengW, ParkDH. Generateadjectivesentiment dictionaryfor socialmedia sentiment analysis using constrained nonnegative matrixfactorization, //Proceedingsof ICWSM2011, Barcelona, Spain, 2011:273-280[31]WiebeJ. Learningsubjectiveadjectivesfromcorpora. //ProceedingsofinAAAI/IAAI2000,Texas,USA,2000:735-740[32]Hatzivassiloglou V, Wiebe J. Effects of adjective orientation andgradabilityonsentencesubjectivity. //Proceedings of COLING2000,Saarbrucken,Germany,2000:299-305[33]LIU De-Xi, Nie Jian-Yun, Zhang Jing, Liu Xiao-Huang, WanChang-Xuan, LiaoGuo-Qiong. Extractingsentimental lexicons fromChinese microblog: a classification method using n-gramfeature.Journal ofChineseInformationProcessing, (inChinese) (刘德喜, 聂建云, 张晶, 刘晓华, 万常选, 廖国琼. 中文微博情感词提取:N-Gram为特征的分类方法. 中文信息学报,2016,30(4):193-205)[34]DuW, TanS, ChengX, et al.Adaptinginformationbottleneckmethodfor automatic construction of domain-oriented sentiment lexicon.//ProceedingsofWSDM2010,NewYork,USA,2010:111-120[35]ZhangL, LiuB. Identifyingnounproduct featuresthat implyopinions.//ProceedingsofACL-HLT2011,Portland,USA,2011:575-580[36]VelikovichL, Blair-GoldensohnS, HannanK, et al. Theviabilityofweb-derived polarity lexicons, //Proceedings of HLT-NAACL2010,LosAngeles,USA,2010:777-785[37]RaoYH, Lei J S, LiuWY, et al. Buildingemotional dictionaryforsentiment analysis of online news. WorldWide Web, 2014, 17(4):723-742[38]Becker L, Erhart G, Skiba D, et al. AVAYA: sentiment analysis onTwitterwithself-trainingandpolaritylexiconexpansion. //ProceedingsofSemEval2013,Atlanta,USA,2013:333-340[39]TurneyPD. Thumbsuporthumbsdown?semanticorientationappliedtounsupervisedclassificationof reviews. //ProceedingsofACL2002,Philadelphia,USA,2002:417-424[40]DingX, LiuB, YuPS. Aholisticlexicon-basedapproachtoopinionmining. //Proceedings of WSDM2008, California, USA, 2008:231-240[41]WilsonT, Wiebe J, HoffmannP. Recognizingcontextual polarityinphrase-level sentiment analysis. //Proceedings of HLT/EMNLP2005,Vancouver,Canada,2005:347-354[42]DaveK, LawrenceS, PennockDM.Miningthepeanutgallery:opinionextraction and semantic classification of product reviews.//ProceedingsofWWW2003,Budapest,Hungary,2003:519-528[43]HuM, LiuB.Miningandsummarizingcustomerreviews. //ProceedingsofSIGKDD2004,Washington,USA,2004:168-177[44]Buckley C, Voorhees E M. Retrieval evaluation with incompleteinformation.//ProceedingsofSIGIR2004,Sheffield,UK,2004:25-32LiuDe-Xi, bornin1975, Ph.D., professor,Ph. D. supervisor. His research interestsinclude social media processing,informationretrieval, andnatural languageprocessing.NIE Jian-Yun, born in 1963, Ph.D., professor, Ph. D.supervisor.Hisresearchinterestisinformationretrieval.WANChang-Xuan, bornin1962, Ph.D., professor, Ph. D.supervisor. His research interests include Web datamanagementanddatamining.LIUXi-Ping, bornin1981, Ph.D., associate professor. Hisresearch interests include Web data management and datamining.LIAOShu-Mei, bornin1976, Ph.D., associateprofessor. Herresearch interests include information management andinformationsystem.LIAOGuo-Qiong, born in 1969, Ph.D., professor, Ph. D.supervisor.Hisresearchinterestissocialcomputing.ZHONGMing-Juan, bornin1976,Ph.D.,associateprofessor.Her researchinterestsincludeWebdatamanagement anddatamining.JIANGTeng-Jiao, bornin1976, Ph.D., lecturer. Herresearchinterestissentimentanalysis.BackgroundSentimentanalysishaswideandimportantapplicationsinthe field of public opinion analysis and product reviewsanalysis,whichhasattractedwideattentionfromacademicandenterpriseinrecent years. As animportant resourcefor textsentiment analysis, thesentiment dictionaryshouldhavefullcoverage, be updated frequently and labelled precisely. Asentiment dictionarycollectedandlabeledmanuallyis moreaccuratethananauto-generatedone, but itsdisadvantagesoflimitedcoverageandupdatingdifficultyaremagnifiedinWeb2.0 era, where the newsentiment emerged frequently andspread rapidly. Therefore, the automatic or semi-automaticmethodsshouldbeexploredtoextractednewsentimentwordsfromwebdata,especiallyfrommicroblogswhereusersexpresstheirsentimentsconveniently.24 计算机学报 2017Inthispaper,weanalyzedandcomparedsentimentwordsdistributioninChinese andEnglishmicroblogs respectively,including the distribution of POSes and co-occurrence ofsentimentwords. ComparedwithEnglishmicroblogs, therearemorechallenges whenextractingnewsentiment words fromChinese microblogs, especiallywhen nouns are taking intoconsideration. Basingonanalysis, weproposedaclassificationbased sentiment words extraction method cNSEm. cNSEmmakesfullyuseofexistingresourcessuchasmanualsentimentdictionaries andhuge amount of microblogs, and generatestrainingdataautomatically.Experimental resultsshowthat cNSEmperformsasgoodasclassicalmethodGPCafterthecandidatesareconstrainedtothe adjectives. Additionally, cNSEmperformsignificantlybetter thanGPCif morePOSes aretakenintoconsideration,and Rprec score shows that sentiment words extracted bycNSEmare competitivelycomparedwithmanual sentimentdictionary. cNSEmisrobust ondifferent sentiment seeds(fortraining), different microblogdatasets (where newsentimentwordsextractedfrom), anddifferent languages. Moreover, theimpactsofdifferentcategoriesoffeaturesemployedbycNSEmareanalyzedbycarefullydesignedexperiments.Thisteamhasdonesomeworksabout sentiment analysisonfinancial text, whichwerepublisthedonChineseJournal ofComputers.ThisworkissupportedbytheNaturalScienceFoundationof China(Nos. 61363039) andtheTransformationProject ofScientificandTechnological Achievements fromUniversitiesin Jiangxi Province (No. KJLD12022). The former projectfocuses summarizingmulti-microblogs, includingsummarizethesentimetsinmicroblogs, whilethelatteroneonextractingthe opinions of products andtheir attributes inmicroblogs.Sentimentwordsarethekeyresourceforbothprojects.

[返回]
上一篇:基于方程求解与相位估计攻击RSA的量子算法
下一篇:一种车联网环境下的城市车辆协同选路方法