欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

博士论文
当前位置:首页 > 博士论文
面向搜索引擎的实体推荐综述
来源:一起赢论文网     日期:2020-05-09     浏览数:29     【 字体:

 e first is entity linking in queries,which aims to disambiguate the entitymentioned in a query and link it to the corresponding entity in a knowledge base.To improve theentity linking accuracy,an entity linking system should consider additional information such asthe query context and a user’s search history.The second is entity recommendation,which aimsto find a set of related entities to a query,and then rank these entities.Specifically,an entityrecommendation model typically consists of two components:related entity finding and entityranking.The former extracts a set of candidate entities related to a query that a user is searchingfor,while the latter ranks the candidate entities according to how well they meet the user’sinformation need.To better understand a user’s information needs and capture a user’s preferences,an entity recommendation model should exploit additional information such as a user’s searchhistory.There are two kinds of search history:short-term search history in a single session andlong-term search history across all sessions.The short-term search history,which consists ofin-session preceding queries and clickthrough data,can be exploited to help understand a user’sinformation needs and capture a user’s interests on entity preference in the current session.Thelong-term search history includes query history and clickthrough data across all sessions for aperiod of time,which reflects a user’s interests accumulated over time and could be used to capturethe user’s intrinsic interests on entity preference.Therefore,in order to generate more relevantentity recommendations w.r.t.the user’s information needs and preferences,it is important foran entity recommendation model to exploit as many search histories as possible.The third isrecommendation captioning,which aims to explain why two entities are related and why agroupof entities is recommended to a user.Presenting related entities with plausible explanations canhelp users quickly figure out the connections between the query and the recommended entities aswell as the key facts of these entities,which in turn increases the understandability of therecommendations and user engagement.In this paper,the research background and the challengesof this task are presented first,and then the related studies and methods are introduced.Finally,problems are discussed,and several future research directions are suggested.Keywords search engine;entity recommendation;entity linking;recommendation captioning1 引 言搜索引擎是用户获取信息的重要工具.近年来,为了更好地满足用户的信息获取需求,搜索引擎从最初只能被动地根据用户输入的搜索查询(searchquery)返回相关网页,逐步改进到能够主动为用户提供直接答案[1-2]和推荐相关信息[3-6].用户对实体的信 息 需 求 较 大,例如超过 70%的搜索查询包含命名实体(named entity)[7],在所有搜索查询中大约40%的搜索查询其主要搜索需求为其中出现的一个 实 体[8].大 规 模 知 识 库 (knowledge base)如Freebase[9]、DBpedia[10]的出现使得搜索引擎可以为搜索查询中的核心实体推荐相关的实体.面向搜索引擎的实体推荐(为简便起见,后续统一简称为实体推荐)不仅能够帮助用户探索和发现感兴趣的相关实体,而且对于提升用户参与度(user engagement)具有至关重要的作用.实体推荐已经成为现代搜索引擎必不可少的功能之一.实体推荐系统的目标是根据用户输入的查询,在搜索结果中提供相关实体建议,以帮助用户发现更多与其搜索需求相关的信息.图1显示了百度搜索引擎为查询“奥巴马”所提供的搜索结果.在搜索结果页中,左侧区域展现的是与该查询相关的网页,而与该查询相关的实体推荐,则展现在右侧区域的“相关人物”中,每一个被推荐的实体还附有一条恰当且合理的推荐理由以便让用户迅速了解被推荐的实体.这些由系统推荐的实体,能够帮助用户便捷地找到与其搜索需求相关的其他实体,让用户多了一种探索更多信息的方式,能够有效提升用户的信息发现体验.8641 计  算  机  学  报 2019年所对应的百度搜索结果与传统推荐任务相比,面向搜索引擎的实体推荐任务主要存在以下挑战:(1)在传统推荐任务中,用户感兴趣的物品(item)是显式的和具体的,例如某一个商品或电影,而在搜索引擎的实体推荐任务中,用户所感兴趣的实体并没有被显式地给出.查询中的实体指称(mention)通常具有歧义,例如“奥巴马”在百度百科中有7个不同的义项,因此需要对实体指称进行消歧以获取用户的搜索需求;(2)传统推荐任务中候选推荐物品的规模远小于搜索引擎实体推荐任务中所需处理的查询与实体的规模;(3)传统推荐任务中对用户推荐的物品通常限定于同一个领域如商品或电影,而搜索引擎实体推荐则没有限 定推荐实体的领域,它可能来自知识库中任何一个领域;(4)在传统推荐任务中,用户对于物品的偏好信息通常能够显式地获取到,例如用户购买过某物品或观看过某电影的行为可以较为确定地表明用户对该物品或电影的喜爱,而在搜索引擎中用户对于实体的偏好信息则较难显式地获取到;(5)在 传统推荐任 务 中,由 于 被 推 荐 的 物 品 属 于 同 一 领 域通常不需 要 给 出 具 体 的 推 荐 理 由,而 搜 索 引 擎 中的实体推荐则需要给出具体的推荐理由以帮助 用户更好地理解实体推荐结果.面向搜索引擎的实体推荐存在的主要挑战及其对应研究任务如图2所示.为了能更好地理解用户的搜索需求并准确地为用户推荐感兴 趣的相关 实体,一个完备的实体推荐系统需要包含三个子任务,分别为实体链接(entity linking)、实体推荐以及推荐理由生成.其中实体链接旨在消除查询中实体指称的歧义并链接到知识库中无歧义的实体上,以获得与搜索查询对应的查询实体.实体推荐旨在为查询实体寻找相关实体并排序生成推荐实体.推荐理由生成则旨在为被推荐的实体集合以及单个实体生成推荐理由.上述三个任务对应的技术挑战、研究现状以及解决方法将分别在第2、3、4节中进行详细介绍.为更直观地进行说明,图3以搜索查询“美国总统奥巴马”为例,描述了实体推荐系统中不同模块的关系及工作流程.图 2 面向搜索引擎的实体推荐存在的主要挑战及其对应研究任务实体链接的引入主要是针对以上所提的第一个挑战,其作用是将搜索查询中的实体指称消除歧义并链接到知识库中一个无歧义的实体上[11].实体链接不仅是实体推荐系统中必不可少的一部分[6,12],也是知识库构建(knowledge base population)的重要环节[13].实体链接任务已经成为近年来的研究热点,国 内 外 均 有 相 关 的 实 体 链 接 评 测 如 TACKBP[14]、ERD 2014[15]、NLPCC 2015[16].根据文本的形式,实体链接任务可以分为长文本实体链接与短文本(如twitter[17-18]、搜索查询[12,19])实体链接.  从语言的角度,实体链接任务又可分为单语言实体链接与跨语言实体链接[20].实体链接任务通常包含三个子模块,分别是实体识别、候选实体获取与候选实体排序.由于候选实体排序需要对实体指称及候选实体进行更深层的语义理解以计算它们的语义相似度,因而目前大部分对实体链接的研究都集中在候选实体排序阶段.随着深度学习在自然语言处理领域不断取得进展[21],实体链接的方法也不断发展,从依赖于人工构建特征[22]到利用神经网络从知识库和文本中自动学习特征[23-24],实现对候选实体排序.  7期 黄际洲等:面向搜索引擎的实体推荐综述9641图 3 实体推荐系统示意图  实体推荐旨在为查询实体给出一系列推荐实体,它具有相关实体发现和相关实体排序两部分.由于搜索查询与知识库的规模都很庞大,因此无法通过遍历的方式计算知识库中所有实体与查询实体的相关度来进行召回.为了提高效率,相关实体发现模块为查询实体从知识库中召回一小部分最相关的候选实体.由于实体推荐的领域无关性,在相关实体排序中需要尽可能引入更多领域无关的特征.为了获取用户对实体的偏好信息,可以利用搜索日志中的用户点击信息.按照是否利用当前查询的历史来搜索信息,目前的实体推荐方法可以被划分为上下文相关的方法[25-26]以及上下文无关[5-6,27-28]的方法.其中上下文相关的方法由于考虑了用户的历史搜索,因而能够更好地对当前查询进行理解,使得给出的推荐结果与用户的信息需求更相关.此外,按照是否考虑用户偏好信息,目前的实体推荐方法又可以被划分为个性化的方法[6,27-28]和非个性化的方法[5,25-26].推荐理由生成旨在为被推荐实体集合以及单个被推荐实体生成推荐理由,分别为集合推荐理由和实体推荐理由.集合推荐理由需要反映出被推荐实体集合与用户查询实体之间的关系,如图1中的集合推荐理由“相关人物”说明对应的被推荐实体均为与查询实体“奥巴马”相关的人物.集合推荐理由的生成方法主要有基于标签的方法和 基 于模板的方法.实体推荐理由通常可以分为两种:一种是关系型推荐理由,主要用来说明被推荐实体与查询实体的关系;另一种是亮点型推荐理由,旨在用简短的自然语言表达介绍被推荐实体的特点或独到之处.例如在图1给出的推荐结果示例中,“第42任美国总统”主要介绍被推荐实体“威廉·杰斐逊·克林顿”,属于亮点型推荐理由.而“92年结婚并育有俩女儿”给出了被推荐实体“米歇尔·奥巴马”与查询实体之间的关系,则属于关系型推荐理由.由于搜索引擎为了更好地展示实体推荐理由而对其字数进行了限制,因此实体推荐理由的生成需要分两步:(1)为被推荐实体生成实体推荐理由,即一小段无字数限制的自然语言描述文本;(2)对上述实体推荐理由进行压缩以使其符合搜索引擎要求的字数限制.关系型实0741 计  算  机  学  报 2019年出版日期:2019-03-22.本课题得到国家“九七三”重点基础研究发展计划项目基金(2014CB340505)资 助.黄际洲,博士研究生,主要研究方向为自然语言处理、推荐系统、人工智能.E-mail:huangjizhou01@baidu.com.孙雅铭,博士,工程师,主要研究方向为实体消歧、自然语言处理.王海峰,博士,教授级高工,博士生导师,主要研究领域为自然语言处理、机器翻译、人工智能.刘 挺,博士,教授,博士生导师,主要研究领域为人工智能、自然语言处理、社会计算.面向搜索引擎的实体推荐综述黄际洲1),2) 孙雅铭2) 王海峰2) 刘 挺1)1)(哈尔滨工业大学计算机学院社会计算与信息检索研究中心 哈尔滨 150001)2)(百度公司 北京 100085)摘 要 面向搜索引擎的实体推荐任务旨在为用户输入的搜索查询推荐出相关实体,从而帮助用户发现感兴趣的实体,提升用户的搜索体验.此外,为了帮助用户更好地理解实体推荐结果,还需要为被推荐的实体集合以及每一个被推荐实体生成恰当且合理的推荐理由.实体推荐能够帮助用户便捷地获得与其搜索需求相关的信息,有助于提升用户的信息发现体验,因此已成为现代搜索引擎中必不可少的功能之一.与传统领域的推荐任务相比较,面向搜索引擎的实体推荐面临更多的挑战,例如搜索查询中实体指称的歧义性以及实体推荐的领域无关性等.针对搜索引擎实体推荐任务的特点与存在的挑战,我们认为构建一个完备的实体推荐系统需要解决如下三个子研究任务:实体链接、实体推荐与推荐理由生成.实体链接任务的目标是将搜索查询中的实体指称消除歧义并链接到知识库中无歧义的实体上,以获得与搜索查询对应的查询实体.实体推荐任务的目标是获取与查询实体相关的实体集合并对其进行排序.为了提供更准确的推荐结果,往往还需要进一步利用历史搜索信息获取用户对实体的偏好并对当前查询进行更好地理解.推荐理由生成任务的目标是为被推荐的实体集合以及每一个被推荐实体生成推荐理由,其中集合推荐理由解释的是该集合中的被推荐实体与查询实体的关系,实体推荐理由则是单个实体被推荐的理由.本文首先介绍面向搜索引擎的实体推荐任务的研究背景与意义、存在的挑战以及各子任务,然后详细介绍每一个子任务存在的技术挑战、研究现状以及解决方法,最后对未来研究方向进行展望并对本文进行总结.关键词 搜索引擎;实体推荐;实体链接;推荐理由中图法分类号 TP18   DOI号 10.11897/SP.J.1016.2019.01467A Survey of Entity Recommendation in Web SearchHUANG Ji-Zhou1),2) SUN Ya-Ming2) WANG Hai-Feng2) LIU Ting1)1)(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin 150001)2)(Baidu Inc.,Beijing 100085)Abstract  Entity recommendation aims to provide search users with entity suggestions relevantto their information needs,which can help them to explore and discover entities of interest.Forthis reason,over the past few years,major commercial Web search engines have proactivelyrecommended related entities for a query along with the regular Web search results to enrich andimprove the user experience of information retrieval and discovery.To help users better understandwhy the entities are recommended to them,it is also important to provide explanations forrecommendations.The task of building an entity recommendation system presents more challengesthan the task of building a traditional item-based recommender system because of the ambiguity ofthe entities mentioned in queries,the domain-agnostic recommendation methods for Web-scalequeries,and the cross-domain recommendation scenarios.To address these challenges,thefollowing three sub-tasks should be studied on building an entity recommendation system in Web体推荐 理由的生成方法不同.目前关系型实体推荐理由的生成方法主要有基于模板的方法[29-30]和基于句子检索的方法[31-32],而亮点型实体推荐理由的生成方法主要是基于序列到序列学习的方法[33].对实体推荐理由进行压缩,既可以采用现有的句子压缩方法,也可以构建基于统计机器翻译的方法[34].本文第2节介绍实体链接任务的定义、主要挑战、公开评测及数据集、任务划分以及各个子任务的研究现状;第3节首先介绍相关实体发现,然后介绍当前主流的实体推荐系统并分析其优点与不足;第4节介绍推荐理由生成任务的挑战及研究现状;第5节对实体推荐系统未来的研究方向进行展望;第6节为本文小结.2 实体链接查询中的实体指称通常具有歧义性,它可能指代知识库中的多个实体.例如实体指称“芝加哥”既可能指“芝加哥(城市)”也可能指“芝加哥(电影)”.对于实体 推 荐 任 务 而 言,只 有 确 定 了 查 询 中 的 实体指称在知识库中指代的实体才能够对其进行实体推荐.因 此 需 要 利 用 实 体 链 接 技 术 将 查 询 中 的实体指称消除歧义并链接到知识库中无歧义的实体上.实体链接任务通常定义为给定一个知识库以及一段文本,识别出文本中的实体指称并将实体指称消除歧义链接到知识库中的对应实体上,如果该实体指称在知识库中没有对应的实体,则将其标记为NIL[11].常 用 的 外 部 知 识 库 有 Wikipedia(维 基 百科 )①[22,35]、DBpedia[10,36]、YAGO[37-38]、Freebase[9]等.实体链接任务的主要挑战在于处理名字的歧义性,歧义主要有以下两种[39]:(1)一个实体指称通常可以指代知识库中的多个实体,例如“苹果”既可以指“苹果(水果)”也可以指“苹果(公司)”、“苹果(电影)”等;(2)知识库中的实体通常具有多个名称如别名、简称等,例如美国歌手“泰勒·斯威夫特”常用的别名有“霉霉”、“TT”等.根据文本类型可以将实体链接任务分为面向长文本(例如新闻、博客)的实体链接和面向短文本(微博、搜索查询)的实体链接.面向搜索查询的实体链接任务与面向长文本的实体链接任务相比更具挑战性,主要原因在于:(1)搜索查询通常较短,噪声大,且拼写错误和简写较多,缺乏充足的上下文;(2)面向搜索查询的实体链接要求更高的效率以及更低的空间占用.因此,直接将在长文本上表现较好的实体链接算法应用于搜索查询通常不能取得理想的效果.面向长 文 本 的 实 体 链 接 评 测 有 ERD(EntityRecognition and Disambiguation Challenge)2014[15]和TAC KBP(Text Analysis Conference KnowledgeBase Population)2009-2018.ERD 2014发布了长文本的实体链接任务,要求识别出网页中所有能够链接到知识库的实体指称.TAC KBP 2009和2010的实体链接评测提供了一个由维基百科构建的知识库、待消歧的实体指称以及其所在的文档,若一个实体指称在知识库中存在对应实体则返回该实体,否则返回 NIL.TAC KBP 2011-2013的实体链接评测包括了单语言实体链接和跨语言实体链接,另外要求 将 链 接 到 NIL 的 实 体 指 称 进 行 聚 类.TACKBP 2014-2017将实体链接任务定义为从文本中抽取实体 指 称 并 将 实 体 指 称 链 接 到 知 识 库,对 链接到 NIL的实体指称进行聚类.TAC KBP 2018将实体链接任务的实体类型由 5 个扩充到 7309 个.Cucerzan[40]构建了一个用于实体链接的测试集合,其中包含100个不同主题的新闻故事,实体指称被链接到了维基百科中.Hoffart等人[38]基于 CoNLL2003数据集人工构建了 AIDA② 数据集用于实体链接.AIDA 中包含1393篇新闻文章,文章中的每个实体指称都被人工标注出了在知识库 YAGO2中对应的实体.其他常用的数据集还有 ACE[22]等.面向短文本中搜索查询的实体链接评测主要有 ERD 2014[15]的短文本实体链接任务和 NLPCC(自然语言处理及中文计算会议)2015发布的中文搜索 查 询 中 的 实 体 识 别 和 链 接 任 务③,数 据 集 有YSQLE④(Yahoo Search Query Log To Entities).ERD 2014的短文本任务中,给定一个搜索查询,要求利用所有可用的上下文给出所有合理的实体链接解释(entity linking interpretation).例如查询“totalrecall movie”存在两个合理的实体链接解释,“totalrecall”可 能 链 接 到 知 识 库 中 的 电 影 “total recall(2012)”或“total recall(1990)”.NLPCC 2015的实7期 黄际洲等:面向搜索引擎的实体推荐综述1741①②③④https://www.wikipedia.org/https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/aida/downloads/http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.htmlhttps://webscope.sandbox.yahoo.com/catalog.php?data-type=l对于给定的中文搜索查询,识别出其中的实体并给出所有 可能的实体链接解释.YSQLE是专门针对搜索查询实体链接的数据集,其中包含了人工标注的搜索会话中对应到维基百科实体的链接,并提供了训练集 合和 测试集合.YSQLE数据 集 中 共 包 含 了 2635 个 查 询,其 中 有2583个都标注了到维基百科实体的链接[19].实体链接任务通常包含3个子任务[11],分别是实体指称抽取(mention detection)、候选实体获取、候选实体排序.由于知识库对实体的覆盖率有限且新实体不断出现,导致并非所有实体指称都能在知识库中找到对应的实体,因此还需要 NIL判别,即判断一个实体指称是否在知识库中存在对应的实体.实体指称抽取旨在从文本中抽取出所有可能被链接到知识库的实体指称.实体指称抽取可以采用已有的命名实体识别的 方法[7,41-42],或者利用公开的命名实体识别工具如 Stanford NER Tagger[43].在抽取出实体指称之后,为提高效率需要从知识库中为每个实体指称生成可能的候选实体集合,之后可以通过计算集合中每个候选实体与实体指称的语义相似度等策略来确定实体链接的结果.候选实体获取侧重于召回率,而候选实体排序更侧重于准确率.相比于候选实体获取,候选实体排序更需要机器学习算法,因此当前大部分实体链接的研究工作侧重于候选实体排序的算法设计.接下来本文将详细介绍候选实体获取、候选实体排序以及 NIL 判别.由于实体指称抽取可以采用命名实体识别的方法,因此在本文中不再单独对其做详细介绍.2.1 候选实体获取知识库中通常包含千万级的实体,如果遍历整个知识库来计算每个实体与实体指称的语义相似度会非常耗时.为了提高效率,需要为实体指称从知识库中找到最可能对应的实体集合.有多种方式可以获取候选实体,常用的有以下三类:利用实体指称的上下文信息、利用维基百科构建词典以及利用搜索引擎.(1)利用实体指称的上下文信息.实体指称的上下文包含了较丰富的信息,可以用来对实体指称进行扩展.对缩写形式的实体指称进行扩展可以有效地降低实体指称的歧义性.Han等人[44]通过人工制定启发式模板的方式从上下文中为缩写形式的实体指称找到候选实体,例如为实体指称 BBC 从上下文“The British Broadcasting Corporation(BBC)isa British public service broadcaster.”中抽取出候选实体“British Broadcasting Corporation”.为了更好地从上下文中发现缩写形式实体指称的扩展形式,Zhang等人[45]提出了一种基于有监督学习的方法.Gottipati等人[39]利用命名实体识别工具从实体指称所在的上下文中识别出命名实体,制定规则并利用识别出的命名实体对实体指称进行扩展.(2)利用维基百科构建词典.维基百科中的实体页面、重定向页面、消歧页面可以用来抽取实体名称与实体之间的映射关系[40].实体页面是对一个实体进行描述的页面,通常包含结构化的信息盒子(infobox)以及描述文本.从信息盒子中可以提取实体的别名,例如从图4所示的信息中可以直接提取出实体“凯蒂·佩里”的别名“水果姐”等.在实体页面的首段描述文本,实体名称通常会以黑体表示,可以抽取出来作为该实体可能的实体名称.实体页面中的超链接将一个实体指称链接到了一个实体上,因此可以用来提取实体名称与实体的对应关系.通过对整个维基百科包含的实体页面中超链接的分析,还可以统计出实体名称链接到每一个目标实体的次数.4 凯蒂·佩里的中文维基百科信息盒子重定向页面通常只包含对一个实体页面的引用,别名可以被定向至实体页面,例如图5中“霉霉”被重定向到实体“泰勒·斯威夫特”.5 维基百科的重定向页面示例消歧页给出了某个实体名称可能对应的实体列表,例 如 图 6 给 出 了 实 体 名 称 “苹 果”对 应 的 消 歧页①,从中我 们 可 以 看 到 苹 果 可 能 链 接 到 “苹 果 公司”等.2741 计  算  机  学  报 2019年① https://zh.wikipedia.org/wiki/苹果_(消歧义)科消歧页示例对于其他在线百科全书资源如百度百科①等也可以采用以上方法构建实体指称与实体的对应关系词典.(3)利用搜索引擎.利用现有的搜索引擎如百度、Google等 也 可 以 获 取 实 体 指 称 的 候 选 实 体.Han等人[44]将实体指称及其上下文送入 Google搜索引擎,从搜索结果页中提取维基百科页面描述的实体作为候选实体.召回率对于候选实体获取阶段很重要,因为正确的目标实体一旦没有被召回,则在后续的候选实体排序阶段也不能把实体指称 链接到正确的实体上.然而候选实体的数量也会影响最终实体链接的效果,过多的候选实体不仅会使候选实体排序阶段耗费更多时间,而且大量的可能完全不相关的候选实体也会给消歧带来挑战[46].提高消歧效率的一种方式是降低必须考虑的候选实体的数量[11].已有的大部分以召回率为驱动的候选实体获取策略都会增大候选实体的数量[47],因此如何在降低候选实体数量的同时保证较高的召回率也很值得研究.Tan等人[46]提出了一种候选实体获取方法,可以根据查询中的词过滤掉不相关的候选实体从而显著降低了候选实体的数量,其核心思想是从维基百科的文章中搜索与查询相似的句子,并且直接使用获取到的维基百科句子中人工标记的实体作为查询的候选实体.与传统的候选实体获取方法相比,Tan等人提出的基于句子搜索的候选实体获取方法产生的候选实体数量更少,且最终的消歧效果更好,这也说明了 高 质 量 的 候 选 集 合 对 于 实 体 链 接 而 言 很重要.2.2 候选实体排序将实体指称链接到知识库中一个对应的实体通常可以视为对候选实体的排序问题.已有的候选实体排序方 法 大 致 可 以 分 为 两 种[20],分别是非联合(non-collective)的方法与联合(collective)的方法.上下文中可能存在多个实体指称,非联合的方法每次只对一个实体指称进行消歧,而联合的方法还利用了上下文中实体指称相互之间的依赖关系对所有实体指称联合进行消歧.非联合的候选实体排序方法主要考虑的信息有实体指称、实体指称的上下文、候选实体的名称、描述文档、热度等信息.已有的非联合的候选实体排序方法设计了大量的丰富的特征集合,根据是否考虑实体指称所在的上下文,特征集合可以分为上下文无关的特征(如实体的热度以及实体名与实体指称的相似度等)与上下文相关的特征(如实体指称是否出现在候选实体的描述文档以及实体指称所在上下文与候选实体文档的语义相似度等).例如 Dredze等人[48]提出了五类特征,分别是名字变量有关的特征、维基百科特征、热度特征、文档特征以及特征组合.其中名字变量有关的特征主要衡量的是实体指称与实体名的字面相似度、实体指称是否是实体的缩写或别名等,维基百科特征则是知识库属性方面的特征,热度特征为实体热度,文档特征主要是利用实体指称所在文档以及实体的描述文 本抽取的 特征.Zheng 等 人[49]提 出 了 三 类 特 征,分 别 是 表 面(surface)特征、上下文 (context)特征以 及 特 殊 特征.其中表面特征衡量的是实体指称与实体名之间的字面相似度,上下文特征衡量的是实体指称与候选实体的上下文的相关性,特殊特征考虑了城市名以及实体指称和候选实体的类别.同样的实体指称在不同的上下文下可能会链接到不同的实体,如何有效地利用实体指称的上下文信息对于实体链接任务非常关键[50].为了更好地学习到实体指称的上下文与候选实体之间的相关性,He等 人[23]提 出 了 一 种 基 于 DNN(Deep NeuralNetwork)的方法利用 DA(Denoising Auto-Encoder)将实体指称与候选实体对应的文档映射到向量空间并计算它们的语义相似度,其网络结构如图7所示.Sun等人[51]提出了一种用于实体链接的神经网络模型,并利用 CNN(Convolutional Neural Network)学习实体 指 称 所 在 的 上 下 文 句 子 的 语 义 向 量 表 示.Fang等人[52]提出了一种联合学习框架将知识库与文本联合映射到同一向量空间中以学习实体和词的7期 黄际洲等:面向搜索引擎的实体推荐综述3741① https://baike.baidu.com/于实体消歧的神经网络结构低维连续的向量表示.Francis-Landau等人[50]利用CNN 学习实体指称的上下文与候选实体之间的语义对应关系(如图8所示).Yamada等人[24]利用知识库的链接结构以及知识库的锚文本与上下文词对经典词向量学习模型skip-gram[53-54]进行扩展,联合学习实体和词的向量表示.Gupta等人[55]提出了一种实体链接的神经网络方法,利用实体的类型、无结构的描述文本与对应实体指称的上下文信息,通过组合的训练目标来学习实体的向量表示.图 8 Francis-Landau等人[50]提出的利用 CNN 构建特征搜索引擎查询中的实体链接面临两个主要挑战:(1)搜索查询通常很短且包含噪声,没有足够的上下文来辅助实体指称的消歧;(2)搜索查询的实体链接通常需要在线处理,因此对速度的要求更高.因此,在长文本中非常有效的实体链接方法不一定适用于搜索引擎的实体链接.Hasibi等人[56]研究了查询中的实体链接,给定查询q,要识别出一个实体链接解释集合I={E1,…,Em},每一个解释Ei是一个“实体指称 -实体”的对应关系集合.他们将该任务划分为候选实体排序和消歧两个子任务,候选实体排序的目的是从q中生成一系列“实体指称 -实体”的排序列 表,消 歧 的 目 的 是 将 该 排 序 列 表 作 为 输入并生成最终的实体链接解释集合I.通过在这两个子任务 中 分 别 应 用 有 监 督 和 无 监 督 的 方 法,最终发现 在 候 选 实 体 排 序 阶 段 应 用 有 监 督 学 习 方法,在消歧 阶 段 应 用 无 监 督 学 习 方 法 取 得 的 效 果最好.Blanco等人[12]提 出 了 一 种 非 常 快 速 并 且 空间效率高的概率模型来将查询链接到知识库的实体上去.为了使算法快速并且空间效率高,该方法忽略了不 同 候 选 实 体 之 间 的 依 赖 关 系,并 采 用 哈希和压缩的方法来减少内存占用.此外,为了有效地利用查 询 中 的 上 下 文 信 息,该 方 法 基 于 分 布 式语义表示 计 算 查 询 和 候 选 实 体 之 间 的 相 似 度.为了在 候 选 实 体 发 现 阶 段 减 少 无 关 实 体,Tan 等人[46]提出了一种非常简单且有效的搜索查询实体链接的方 法,首 先 从 维 基 百 科 中 搜 索 与 查 询 最 相关的句子并直接将其中的标记实体作为该查询 的候选实体,之 后 基 于 回 归 的 框 架 采 用 丰 富 特 征 集合对候选实体进行排序.在包含噪声较多的短文本中,依赖于attention(注意力)的神经网络模型也不能总是找到正确的上下文线索,即便这些线索与目标实体的标题存在明显的字面重叠,而这种字面重叠的特征也难以用字符(character)级别的 CNN 学习到.为了解决 这一问题,Mueller等人[57]构建了一个特征集合来表示实体指称的上下文与候选实体标题之间的字面重叠信息,并将这个特征集合融入到一个具有attention机制的神经网络实体链接模型中,模型的结构图如图9所示.实验结果表明该特征的加入有效提升了神经网络模型的实体消歧效果.4741 计  算  机  学  报 2019年称的概率更高,则将实体 指 称 链 接 到 NIL.Dredze等人[48]将 NIL作为一个特殊的候选实体和其他候选实体一起进行排序,并且为排序模型专门设计了一些与 NIL相关的特征,例如是否存在候选集合中的一个实体其名称与实体指称相匹配.将 NIL 看作一个特殊候选实体的优点是既避免了人工设置阈值又可以将与 NIL 判别相关的信息作为特征引入到排序模型中.(3)将 NIL判别看作二分类任务,利用分类器判断候选实体排序阶段给出的排序第一的候选实体是否合理,若合理则将该候选实体作为最终实体链接的结果,否则该实体指称将被链接至 NIL.Zheng等人[49]和Zhang等人[45]用 SVM 分类器判断排序第一的候选实体是否为真正的目标实体,在分类器中采用的特征大部分与候选实体排序阶段所用的特征相同.除了简单地判断实体指称是否指向 NIL,TACKBP的实体链接评测任务自2011年起要求将所有指向 NIL的查询(实体指称及其上下文)进行聚类.将指向 NIL 的查询聚类对知识库的扩充非常有帮助,被聚到同一类别的实体指称及其上下文代表了一个新实体相关的信息.对 NIL 型查询进行聚类可以借助已有的聚类算法.Taylor等人[62]基于简单的子串匹配的方法进行 NIL聚类.Graus等人[63]将查询对应的源文档表示为 TF×IDF向量,然后采用层次聚类的方法基于这些向量表示进行聚类.由于对NIL型查询的聚类与实体推荐任务的相关度并不是很高,因此在本文中不做更详细的介绍.2.4 面向实体推荐任务的实体链接对于当前大部分实体推荐系统而言,其输入为一个仅包含实体指称的搜索查询q.仅通过q本身,无法获取任何对q的消歧有帮助的上下文信息,因此目前大部分实体推荐系统[5,27]基于热度p(e|q)对q进行实体链接,这样的结果导致q只能够被链接到最热的实体上.实际上,q所在的搜索会话中的历史查询及其点击信息可以看作q的上下文信息[6,26].例如,一个用户在搜索了“香蕉牛奶”后再搜索“苹果”,那么当前的查询“苹果”很大概率应该被链接到知识库的实体“苹果(水果)”上.若用户在搜索了“华为 P20”之后再搜索“苹果”,那么当前查询“苹果”更大概率应该被链接到“苹果(公司)”.将q所在的搜索会话中的历史查询及其点击信息看作上下文,可以利用已有的实体链接方法[12]将q链接到实体.在对q的候选实体排序时,既可以采用非联合的候选实体排序方法[49]只对q进行消歧,也可以利用联合的候选实体排序方法[52]对q所在搜索会话中所有的实体指称进行消歧.q的上下文不同于传统实体链接任务中实体指称的上下文.传统实体链接任务中实体指称的上下文通常为无结构的短文本或长文本,而q的上下文是有层次结构的,由历史查询及其点击信息构成.历史查询的点击信息对查询中的实体指称消歧具有非常重要的作用[26].例如,如果用户搜索了“苹果”并点击了标题为“Apple(中国)-官方网站”的网页,则该“苹 果”很 大 概 率 指 的 是 知 识 库 中 的 “苹 果 (公司)”.如果用户搜索“苹果”并点击了标题为“苹果的家常做法”的网页,则该“苹果”很大概率指的是知识库中的“苹果(水果)”.在人工设计特征或者利用神经网络自动学习特征时应当考虑到q的上下文的这一特点.2.5 实体链接方法总结综上,我们认为目前的实体链接算法具有很强的表示能力,尤其在深度神经网络的框架基础上,配以充足有指导信息便可以训练获得较高性能的实体链接系统.然而,在很多新的应用场景中没有足够的有指导数据供模型训练,如何在这种资源匮乏的情景下训练模型是一个在实用中遇到的挑战.此外,当前的实体链接算法大多假设训练和测试数据的分布相同或相似,这样的系统很难应付对抗样本,即数据分布不同于训练数据的样例,如何增强系统的鲁棒性也是一个非常值得研究的方向.再次,当前实体推荐系统所处理的搜索查询只包含一个实体指称而没有其他任何上下文信息,单纯从这个实体指称本身无法推断用户究竟想搜索的是哪一个实体.而用户在同一个搜索会话中的搜索查询之间具有一定的任务相关性,因此可以借助于本次搜索会话中的历史查询及其点击信息对当前查询进行实体链接[26].历史查询中的实体指称本身也是有歧义的,因此可以采用联合的方法同时对历史查询中的实体指称和当前查询的实体指称进行实体链接.3 实体推荐在搜索引擎中,实体推荐系统的目标是为给定用户u推荐与其输入的查询q 相关 的一系 列实体Euq,即R(u,q) Euq.实体推荐主要由相关实体发现与相关实体排序两部分构成.具体地,给定一个用6741 计  算  机  学  报 2019年图 9 Mueller等人[57]提出的实体消歧神经网络结构神经网络模型既可以学习实体指称与候选实体的向量表示,也可以计算它们的语义相似度.在训练阶段,神经网络模型的训练目标通常为使目标实体与实体指称的相似度得分高于错误的候选实体与实体指称的相似度得分[23,51].在预测阶段,给定实体指称以及一系列候选实体,可以根据模型计算出的相似度得分对候选实体进行排序.与非联合的候选实体排序方法相比,联合的排序方法需要消歧上下文以及全局特征.具体地,联合的候选实体排序方法不仅需要考虑单个实体指称与候选实体之间的语义相关性,还需要考虑出现在同一上下文中所有实体指称的预测实体 之间的相关性.He等人[58]提出了一种基于stacking的联合的候选实体排序方法,该方法由两层预测模型构成,底层是一个局部的预测模型g0,用于产生候选实体的初始排序结果,顶层是一个全局的预测模型g1,用于预测全局的排序结果.g0和g1均为 LTR 模型,其中局部预测模型g0的训练使用的是局部的特征,全局预测模型g1的训练使用的是原始特征加上基于g0的预测结果产生的全局特征.消歧上下文为g0对实体指称预测的top k 的候选实体.考虑到在长文档中不主要的实体可能只与文档中一小部分其他实体有 关 系,Globerson 等 人[59]提 出 了 一 种 基 于 at-tention的联合的实体链接方法.2.3 NIL判别知识库通常无法覆盖出现在互联网文本中的所有实体尤其是新出现的实体,因此并非所有实体指称都可以被链接到知识库的实体上.不能被链接到知识库的实体指称被返回一个特殊实体 NIL[11].目前对实体指称是否链接到 NIL 的判别方法可以分为以下几种:(1)最简单的方式是设置阈值判断候选实体排序阶段排序第一的候选实体是否为最终目标实体.Gottipati等人[39]利用 NER 工具识别出实体指称的实体类别,然后从候选实体集合中找出经过候选实体排序阶段排序最靠前且与实体指称属于同一类别的候选实体,若该候选实体在候选实体排序阶段的得分高于某个预设的阈值则将其作 为实体链接 结果,否则将实体指称链接到 NIL.Han等人[44]设置了一个阈值来判断实体指称是否需要链接到 NIL,若所有候选实体与实体指称计算出的相似度均小于该阈值,则将实体指称链接到 NIL.相似地,Nie等人[60]根据开发集合设置了一个 NIL阈值.虽然通过设定阈值的方式来判断 NIL 很简单也不需要引入模型和特征,然而人工设定阈值比较困难,并且为所有样本应用同一个阈值也并不是特别合理.(2)把 NIL作为一个特殊实体加入候选实体集合,若在候选实体排序阶段 NIL排序最靠前则判定该实体指称应当被链接到 NIL.Han等人[61]将 NIL看作一个虚拟实体加入到知识库中并将 NIL 实体与其余实体一同对待,若计算得出的由 NIL 实体生成实体指称的概率比知识库中其他实体生成实体指7期 黄际洲等:面向搜索引擎的实体推荐综述5741

[返回]

下一篇:面向卫星遥测数据流的最小稀有模式挖掘方法