欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

博士论文
当前位置:首页 > 博士论文
公共服务热线中基于地域自适应的突发事件实时检测方法_麦丞程
来源:一起赢论文网     日期:2021-07-08     浏览数:387     【 字体:

 第4 卷第1 2 0 2 0 年1 2 月计算机学报CH I N ESEJ O UR N ALO FCOM P UT ERSVol .43N o. 1 2De c. 2 0 2 0公共服务热线中基于地域自适应的突发事件实时检测方法麦丞程陈玉婷仇学明刘健赵博袁春风黄宜华( 南京大学计算机软件新技术国家重点实验室南京2 1 0 0 2 3 )( 南京大学计算机科学与技术系南京2 1 0 0 2 3 )摘要随着信息技术的普及应用, 城市公共服务热线平台累积了大量亟待分析的民生诉求数据. 传统事件检测方法缺少对于地域模式的考虑, 同时, 其所依赖的GP S 地理信息也不易获得. 因此, 难以直接运用现有的突发事件检测方法挖掘公共服务热线中潜在的民生突发事件. 为此, 本文提出了一种基于地域自适应的突发事件实时检测方法( RAED e t ect ion ) . 首先, 提出一种基于增量式Kle i nb e rg 模型的突发词识别算法, 克服了现有批处理式Kl ei n be r g模型的局限性, 可从流式增量数据中实时识别突发词汇; 然后, 提出一种基于分层语义分析的候选突发事件识别算法, 以突发词为线索, 先根据突发词的主题层语义信息确定突发主题事件, 再根据诉求记录的事件层语义信息将每个突发主题事件进一步细分为多个候选突发事件; 最后, 提出一种基于事件地域树的地域模式自适应识别算法, 通过构建包含市级、区级、街道级三层结构的事件地域树, 并通过基于K L 距离的事件地域分布检验与优化, 自适应地识别不同事件发生的地域模式, 过滤候选突发事件中的噪声数据, 得到最终的突发事件. 在城市公共服务真实数据集以及Twi t t e i■ 数据集上的实验结果表明, 与目前最新的方法对比, 本文方法具有更高的检测准确率和更快的计算性能, 能够有效地检测出数据流中的突发事件, 算法具备良好的数据和系统可扩展性. 本文方法已经成功落地应用于江苏省公共服务热线平台, 提供高效的自动化和智能化突发事件检测服务.关键词事件检测; 突发性分析; 地域自适应; 公共服务热线; 数据挖掘中图法分类号T P3 9 1DO丨号1 0 . 1 1 8 9 7 / SP. J . 1 0 1 6 .  2 0 2 0 . 0 2 2 5 9AR egion-Ad ap t i veMe tho dforR e al-TimeBur st yE v entDe t ec t i onin Publ i cSer vi ce Hot l in eM AICh en g-Ch e n gCH ENY u- Ti n gQ I UX ue - Mi n gLI UJ i a nZ HAO BoY UANCh u n-Fe n gH UANG Y i-H u a( St a t eKey La b o ra t ory fo r No v el So ftwa r eTech n ol o gy , Na n j in g Un i vers i ty , Na n ji ng2 1 0 0 2 3 )( D epa rt me n to fCo m pu ter S ci enc e a nd Tech n o lo gy , Na nji ng Uni vers i ty , Na njin g 2 1 0 0 23 )Abs t rac tWi t h t h epop u l ar i z a t i on __________of i n fo rma t io nte c hn olo gy ,t h eci vi cp ub l i cs e rvi c ep l a tf ormh as a c c u mu l a te da l a rg en um be r o fp u bl i c  l i ve l i hoo dc om pl a i nt da t at h a t ne e dt obe a nal y ze d.T h etr a d i t io na l ev en t de t ec ti o nm et h od sdo n o t t ak e t h e r eg io na lp a t t ern s  of ev en t s i n t o c on s i d er a t io n .M ea nw h il e ,t h eGPS g e ogr aph i c in f orm at i o n u s e dby t he s em e t ho dsi sa l son ote a syt oo bt a i n.T he r ef or e ,m an y s t u di e s ar el o ok in gf or  ef fi c ie n ta n da cc ur at e me t ho dst ode a lw it h th ep ro b l emo f r eco gn iz i ng t he r eg io n pa t te rn so fe ve n ts .Ho weve r , it i s no te ff i ci e nt t ou se  th e e xi s ti n geve n t收稿日期: 2 0 1 9-0 9-1 0; 在线发布日期: 2 0 2 0-0 2-1 6 . 本课题得到国家自然科学基金项目( 6 1 5 7 2 2 5 0 , U 1 8 1 1 4 6 1 ) 、江苏省科技支撑计划项目( BE2 0 1 7 1 5 5 〉、江苏省软件新技术与产业化协同创新中心资助. 麦丞程, 博士研究生, 中国计算机学会( CCF) 学生会员, 主要研究方向为大规模文本分析与事件检测等. E- ma i l : rn aiC C@ Sma U . nju. e d u. cn . 陈玉婷, 硕士研究生, 主要研究方向为并行计算与事件检测等. 仇学明,硕士研究生, 主要研究方向为社会计算与大数据. 刘健, 硕士研究生, 主要研究方向为机器学习、数据挖掘. 赵博, 博士研究生, 主要研究方向为主题模型与深度学习等. 袁春风, 博士, 教授, 中国计算机学会( CCF ) 会员, 主要研究领域为体系结构与并行计算、操作系统.黄宜华( 通信作者) , 博士, 教授, 中国计算机学会( C CF) 会员, 主要研究领域为大数据、云计算、并行计算. E- ma il:y hu a ng@ nju . e d u . c n .2 2 6 0 计算机学报 2 0 2 0 年det e c t i o n m e th o ds t oc a pt u r et he p ot e n ti a le ve nt si nt he c iv i cp u bl i cse r vi c e.I nt h i spa p er ,wep rop ose a r eal-t im e r e gi on-adap t iv eme t hod f orbu r st y eve n td et e ct io n ,ca l l e dRAED et ec t i on .F i r s t , t he r ec ogn i t io nof b u r s t yw ord s f romda t as tr eami st h eba si s ofdi s c ov er i n gt h eb ur s t ye ve nt s .T h e t ra di t i ona l K l e i n be rgmod e lca n onl yf i nd t he se b ur s t yw or ds fro mt h e s t a ti cda t a .T he re fo r e , w epro pos ea ni m pro ve din c r em en t a lK l e i n be rgmo del t oi de n ti f yth e b ur s tywor dsf rom t h er ea l-ti m ed a ta s t r ea m.T h e n ,af t er o bt a i ni n gt h eb u r s t ywor ds ,w ep rop os e a na lg or i t h mb a s e d onh i e r a r ch i ca l s e ma nt i c a na ly s i s f or r e co gn iz i ngt h ec a nd i da te b ur s t yev en t s .W it h b ur s tyword s  a s cl ue s ? t h i s a l go r i th mf i nd s th e to pi c b ur s t ye ve nt s w i t h s em a nt i ci n for ma ti o nf r omt op i c sa n dt h e nd i v i de s th e s ee ve nt si nt o mor e fi ne -g r a i ne dc a nd id a t e bu r s t ye ve nt sw i t ht h es e ma n t i ci n fo rm a ti o nf ro mt he c om pl a i nt r ec ord s .F in a l l y ,i no r de r tof i l te ro ut th eno i s er e c or d si nt h eca n di da t ee v e n t s ,t h ee ve n tr eg i ont r ee i s c on s t ru c t ed to r e cog ni z et h e re g io na lp at t er n s of ev en t s .T he e ven tr e gi o nt r e e ha sa  th r e e -l e ve lst ru ct u r ec or r e sp on di n g t ot h ea dd re s se si nt he ci t y ?d i s t r i c t a n ds t r e e tl ev el r e sp ec t i v el y.A cc or d i ngt ot h ema x im ume n t ro pypr in c ip l e ,w e a s su met h at t he a d dr es s di s t r i b ut i ono f on ece rt a i ne ve n tobe y st h e di s c r e te un i form di s t r i bu t io n.Weu s eK Ld i s t a nc e t oc omp a r e th e d is t an c e be t we e nt h es t a t i s t i ca d dr e s sdi s t r i bu ti on a n dt h e a s s um eda dd r es s d is t r i bu t i on.We c ho o s e t h en um be r of a dd r es s e s wh i ch  ca nmi ni mi z et h e va l u eo ft h eK Ldi s ta n ce t o i nd i ca t et h eg eog ra p hi c a l r eg i on s of t ha te ve n t ,s o______a st o re a l i ze th ea d a pt iv er ec o gn i t io nofr eg i ona l p a tt e r n s .T h ee x pe r i me n t al r es ul t s from t wor e al- w o r l d da t a s et s f ro mc i vi cp ub li cs ervi c e an d on es oci a l m ed ia da t a s et f romT wi t t e r sh ow t h ato ur m et h odo u t p er f orm s t h e s ta t e - o f-t he - a r t me t h ods fo r bo th d et e ct i o n a cc u r ac ya ndco mp ut i ng pe r f orma n c e ,wi t hg ood da t a an dsy s t em s ca l a bi l i t y.I n t h er ea l a pp l i ca t i o n s c en a r i o s , comp a r e dw i t ha l go r i t hmTr io Vec Eve nt ,G eoB u r s t , a ndT op ic S k et ch , t hep s e udo FI va l u es o fo ur a l go r i t hmR AED e te c ti on a r ei n c r e a s e db y5 4 . 8 5 % , 2 2 1 .  1 3 % , an d 8 4 . 2 6 %on  av er ag e ,r e sp e c t i ve l y .Tof u r t he r e xp l or et he in f l ue n c e sof t he s i zeof t he sl id in gwind ow an dt he th r esh ol dva l ueof sem an t i cs i mi l ar i ty o nour m et ho d ,w ecarr ie doutt he r el evan tex perimen ts a ndfi ndth at theour RAEDete c ti on ach ieves  t hebe st perfo rma ncewh en th e s lid i ngw i ndo w s i ze i s  s e tto 4 0m in u t es a nd th e t hr es ho l dva l u e of s e ma nt i c s i m i l a r i t yi ss e t to0 . 5 a nd0 . 6 on t h eN a nji ng a n dS uz ho uda ta s et r e s pe c ti ve l y , wh i ch ha sa nim por t a n tg ui di ng rol e f or t h e pr a c t ic al  ap p l i ca t io n o fo ura l g or i t hm .Fi na l l y ,t he pr o po s e dm et h od ha s b ee nsu c c e s s f u l l yad op t eda n d va li d a t edb y th ec iv i cpu bl i cs er vic e p l a tf o rmof  J ia n gs upro vi n ce .Keyword sev en t de t e c t i o n ; bu r s ti n e s s  an a l ys i s ;r e gi on a d ap ta t io n ; pu bl ic ser vi ce s h o tl i n es ;d at ami ni n gi 引言随着大数据相关治理理念、技术与支撑平台在各个垂_______直行业的落地与逐步成熟, 城市公共服务热线平台作为政府部门及其各级成员单位的重要组成部分, 已经累积了大量民生相关, 覆盖教育、医疗、就业等多个领域的诉求记录. 以江苏省为例, 据统计,公共热线服务平台全年累计访问量超过3 .  3 亿次,每年诉求工单记录增量超过1 5 0 0 万条, 是聆听民意、解决民生问题的基础大数据平台?. 因此, 从海量诉求记录中实时、准确地检测突发事件是发现民生突发问题、助力政务服务的必要环节, 具有重要的社会价值.信息传播媒介的演进使得事件检测方法的发展日新月异. 早期事件检测方法的数据来源主要是新闻报道. 例如, 文献[ 1] 将新闻文档映射到向量空间模型中, 并将相似度超过给定阈值的文档汇总为一个事件. 若某个事件出现的频率超过其历史均值, 则认为该事件是一个突发事件. 文献[2] 利用二项分布对新闻报道中各个词汇出现的频率进行建模, 并将其中呈突发性増长趋势的词汇作为突发特征, 然后①h t tp : / / www. gov . cn/ xi nwen/ 2 0 1 9- 0 1 / 27/ co nt ent一53 6 1 50 7 .Ktm麦丞程等: 公共服务热线中基于地域自适1 2 期 应的 突发 事件实 时检测方法 2 26 1将使得这些突发词汇出现概率最大化的新闻报道集合作为突发事件. 文献[ 3 ] 则将新闻事件细分为周期事件与非周期事件, 同时, 采用傅里叶变换识别文档中词汇的突发周期.受限于数据来源, 这类事件检测方法的局限性在于: ( 1 ) 新闻报道较长的时延导致事件检测的实时性不足; ( 2 ) 对于文本长度更短、内容书写更加不规范的社交媒体中的突发事件检测效果有待提升.2 0 1 0 年以后, 社交媒体的兴起对突发事件检测提出了新的挑战. 为了提高事件检测的实时性, 文献[4] 对Tw i t t er 数据流进行时间窗口的划分, 并且假设每个时间窗口内T w ee t 中词汇的产生服从高斯分布. 如果某个词汇出现的概率超过其期望值2 倍标准差, 则将该词汇识别为突发词特征, 从而快速捕获潜在突发事件. 类似地, 文献[5] 利用z 分数来衡量T w ee t 记录中词汇的突发性, 定位突发事件发生的时间窗口.由于微博、T wi t t er 等自媒体的文本长度更短,内容书写也更加随意, 基于传统文本聚类的事件检测方法面临挑战. 文献[4] 利用W ik i pe di a 作为外部语料, 对T wit t e r 文本内容进行规范化与短语重组处理, 提升文本质量. Zh a ng 等人发现微博文本流中情感符号也存在突发现象, 提出一种基于情感符号的在线突发事件检测算法, 扩展了短文本的语义信息M.此外, 移动智能设备提供的G PS 定位数据对提高突发事件检测的准确率具有重要作用. 文献[7] 根据T w i tt e r 的G PS 地理定位对事件发生的地址空间进行网格划分, 将某个空间网格中呈爆发性增长趋势且语义相似的Tw e e t 集合检测为一个事件. 文献[8]则利用Ep ane ch n i kov 核函数[9] 将地理位置相近且语义相似的Tw ee t 记录进行聚合, 过滤掉语义上相似却发生在不同地方的噪声数据.近年来, 社会信息化程度的日益提升促使公共服务热线平台亟需从海量诉求记录中发掘民生相关的突发事件. 但是现有面向社交媒体的突发事件检测方法与之相比存在较大差异性, 难以直接复用, 相关的研究也很少. 表1 给出了公共服务热线平台中诉求记录样例. 这两类突发事件检测对象的区别总结如下:( 1 ) 在数据来源上, 面向社交媒体的突发事件检测方法依赖微博、T w it t e r 等社交媒体提供的GPS 坐标信息. 文献[ 1 0-1 1 ] 统计发现T wi tt e r 上大约只有2 % 的T we et 数据带有G PS 地理标签, 更多无G PS 坐标定位的数据还有待开发利用, 例如公共服务热线平台上的海量民生诉求数据;( 2 ) 在数据采集上, 由于GP S 坐标信息采集难度大, 现有突发事件检测方法难以直接应用在缺少精确G PS 定位信息的公共热线、政务服务等多个汇集大量民生诉求的垂直行业中;( 3 ) 在数据构成上, 社交媒体数据中的地址信息为GP S 坐标, 而公共服务热线平台中地址信息则以文本地址为主. 由于G PS 坐标缺乏语义信息, 对于某些发生在同一个地区或行政区划内的事件, 其包含的各个数据记录的GP S 坐标可能相距较远, 这将导致发生范围涉及多个地域的广域事件被错误地拆分成多个局部事件, 增高事件检测重复率, 同时,也难以过滤掉局部事件中的噪声数据.表1 真实诉求工单记录样例记录编号 9 9 xxxx 〇2 5 7 1时间 2 0 1 8 /0 3/0 11 9 :1 3 :1 5诉求内容“江宁区东山街道金盛路美食烧烤店,此处油烟直排主干道, 油烟扰民.”区域代码 0 2 5为了解决上述问题, 扩展突发事件检测研究的对象, 弥补现有应用场景的空白, 本文围绕突发词实时检测、候选突发事件聚类与突发事件地域模式自适应识别这三个核心内容, 提出一种基于地域自适应的突发事件实时检测方法( RA ED et e c t i on ) . 首次在公共服务领域, 在诉求记录缺失GPS 坐标`??的情况下, 充分利用诉求记录中的文本地址进行事件地域分布模式的自适应识别, 实现对于突发事件实时、准确的识别.本文的主要创新点与贡献如下:( 1 ) 提出一种基于增量式K l e in b e rg 模型的突发词实时检测算法, 克服了现有批处理式K l e i n be rg模型的局限性, 实现对于流式增量数据的高效突发词实时检测分析;( 2 ) 提出一种基于分层语义分析的候选突发事件识别算法. 先根据突发词的主题层语义生成突发主题事件, 再根据诉求记录的事件层语义对每个突发主题事件进行更细粒度的划分, 形成候选突发事件, 提高候选突发事件识别的精度;( 3 ) 首次提出一种基于事件地域树的地域模式自适应识别算法, 根据地域范围对候选突发事件进行拆分与噪声数据过滤, 减低事件检测的重复率;( 4 ) 应用城市公共服务热线真实数据集的实验结果, 验证了本文提出方法的有效性;2 2 6 2 计算机学报 2 0 2 0年( 5 ) 相关研究成果已经成功落地应用于江苏省公共服务热线平台.本文第2 节介绍相关工作; 第3 节给出RA E -De t e c t i o n 方法的整体框架; 第4 节介绍基于增量式Kl e i n b e r g 模型的突发词实时识别算法; 第5 节阐述候选突发事件识别算法; 第6 节给出突发事件地域模式自适应识别算法; 第7 节进行了实验与分析;第8 节对本文进行了总结与展望.2 相关工作根据突发事件发生的地域范围不同, 现有的突发事件检测方法可以分为基于广域模式与基于局部模式的突发事件检测方法.呈局部模式爆发的事件主要集中在某一个局部地域范围中, 例如某社区发生停水、某社区存在违建乱搭现象、某地因道路施工而发生拥堵等事件. 文献[8] 针对T w i t t er 数据流, 提出了一种基于G PS 坐标的局部事件实时检测算法. 文献[1 2] 提出了一种基于多模态的嵌入模型T r i o V e c Ev e nt ? 该模型将T w i t t e r 数据的地理信息、时间信息与语义信息映射到同一个隐式向量空间中, 然后采用基于混合贝叶斯模型的聚类算法, 从T wi t t er 数据流中检测突发事件. 文献[1 3] 通过统计某个地域范围内微博热词出现的频率、关联用户数量以及转发、阅读、评论等社交行为发生次数, 进行突发词汇检测, 并在突发词关联网络中采用层次聚类方法生成突发事件. 文献[ 1 4 ] 提出了一种可定制化的时空事件检测方法.用户可以根据自身关注的不同领域进行特定事件检测. 先从数据中发现该事件, 然后再确定其发生的地域范围. 文献[1 5] 则提出了一种地理时序模式挖掘算法, 先利用聚类算法对微博进行聚类, 然后, 如果某个地域内某类微博的数量显著增加, 则认为该地域发生突发事件.这类方法的优势在于, 能够提高某个局部地域范围内事件检测的准确率, 减少噪声数据的引人. 但是其局限性在于, 会错误地把发生范围涉及多个不同局部地域的广域事件拆分为多个局部事件. 增高事件检测的重复率, 导致准确率下降.呈广域模式爆发的事件大多涉及多个局部地域范围, 例如台风、地震等灾害事件. 文献[ 1 6] 提出了一种基于Tw i tt e r 数据的地震事件实时检测方法.利用粒子滤波器判断某条T we e t 是否与地震事件相关, 如果与地震相关的T we e t 数量激增则触发系统报警. 文献[1 7] 则通过计算Tw e e t 中单词出现频率加速比的方式, 快速识别突发词汇, 并提出一种基于单一主题模型的突发词汇聚类算法T o pi cS k e t c h.该算法将语义相似的突发词汇检测为同一个事件.由于未对地址信息进行细分处理, 该算法存在将语义相似但实则发生在不同局部地域的不同事件误判为同一个广域事件的局限性. 文献[ 1 8] 应用小波变换与自相关系数来度量数据流中词汇的突发性, 然后根据互相关系数将突发词汇构建为一种图结构,再通过子图划分确定突发事件. 文献[ 1 9] 以不同国家为地域单位, 提出一种基于位置感知的事件检测模型. 首先从T w e et 文本内容中获取地域信息, 然后将事件表示为其所涉及的国家范围与参与讨论用户数量的向量, 最后基于向量间欧氏距离进行事件识别与检测.这类方法都是为广域突发事件检测而设计的,如果直接将这些方法应用到公共服务领域, 会引人更多的噪声数据, 降低事件检测的准确率.上述工作对突发事件检测做了许多有益的探索, 也取得了一些研究成果. 然而, 目前还缺少一种能够根据事件性质的不同, 自适应地确定其地域突发模式的事件检测方法. 对此, 本文提出了一种基于地域自适应的突发事件实时检测方法, 该方法能够:( 1 ) 对流式增量数据进行实时突发事件检测;( 2 ) 通过基于分层语义分析的候选突发事件识别算法提高候选突发事件检测的准确性;( 3 ) 自适应地识别事件发生的地域模式, 将分布在各个局部地区的广域突发事件, 聚合为一个完整的突发事件, 同时, 能够过滤局部突发事件中存在的噪声数据? 降低事件检测的重复率, 提高事件检测准确性.3R A E De te c t i on方法框架基于地域自适应的突发事件实时检测方法RA E De t e c t i o n 的整体框架如图1 所示.输入图1RA E De t ec t i on 方法框架麦丞程等: 公共服务热线中基于地域自适1 2 期 应 的 突 发事 件实 时检测 方法 22 63该方法由3 个主要部分组成:( 1 ) 增量式突发词实时识别. 提出一种增量式K l e in b er g 模型, 对诉求记录数据流中词汇的突发状态进行实时识别;( 2 ) 基于分层语义分析的候选突发事件识别.采用主题模型实现对于描述相同主题事件的突发词聚类, 再利用文本聚类算法, 如K - M e a ns 聚类算法[2 ° ], 生成候选突发事件;( 3 ) 突发事件地域模式自适应识别. 通过构建包含市级、区级、街道级地址的事件地域树, 自适应识别不同事件发生的地域模式. 在此基础上, 对候选突发事件进行噪声数据过滤, 并根据缓存的历史事件信息, 实时获得最终的突发事件.各部分工作将分别在第4 、5 、6 节中给出.4 增量式突发词实时识别算法突发词识别对于突发事件检测具有良好的线索作用, 其主要思想是判断某个时间窗口内某个词汇出现的频率是否激增. 如果是, 则有可能存在突发事件: 13].现有基于K l e i n b er g[2 1 ] 模型的突发词识别算法只能以批处理的方式对给定时间窗口内的全量数据进行突发词识别. 但是, 其无法对流式增量数据场景下的突发词实时识别.考虑到公共服务热线中的诉求记录天然包含有序的时序信息, 是一种典型的时序数据流. 因此, 我们对现有的批处理式K l ei n be r g 模型进行改进, 提出一种适用于流式数据的增量式K l e i n be r g 模型,克服了现有批处理式K l ei n be r g 模型的局限性, 实现突发词汇的实时识别. 该模型结构如图2 所示.突发状态时间剛观i i值00图2 增量式K l e i n b er g 模型在增量式Kl e i nb er g 模型中, 单词w 的突发行为被描述为一段时间窗口内突发状态与非突发状态的相互转换过程. 状态变量s, 表示单词w 在第/ 时刻的突发程度. 若\=1 , 则该单词处于突发状态, 即为突发词; 若\= 〇, 则该单词处于非突发状态. 观测变量工, 表示单词w 在时刻f 时与上次该单词出现时刻i 一1 之间的时间间隔.假设单词w 以一定概率随机出现, 单词te; 前后两次出现的时间间隔x 服从的概率分布记为B( j, + i, s, + i)=u°',.丨.一丨>0 “,+i=〇,l( 1 )其中, B + i | ) 表不输出观测值x , + 1 的概率,表示z + 1 时刻单词W 在突发状态s , + 1 的条件下的产生速率, 记为a, + l=( NJ T )?g^,g > l( 2 ). 表示给定时间窗口内单词w 出现的总次数, T 表示时间窗口〈Wf ? ,, 乂〉的跨度.从状态6, 转移到状态\ + 1 的总体代价函数为A ( s,  ? x, -h , 5, + 1) =r ( 5,  , 5, + 1)—l n jB ( j c/ + i  , s, + i )( 3 )状态i',+ 1 取值为〇或1. r U ,.s+ 1 ) 表示从状态\ 转移到s, + 1 的转移代价, 表示为f( s,  +i—5,)y l nN?. , s,= 0^5 , + i = 1r ( s,  ,5, + 1 )=^,?( 4 )[0 ,s, = 1= 0规定从突发状态&=1 转移到非突发状态s, + ,= 0 的代价为〇, 超参数y 取值在实验部分给出.为了对实时诉求记录数据流进行增量式突发词识别, 本文给出增量式K l e i n b er g 模型中第f + 1 时刻单词扣状态的计算公式:s,  + i= ar g mi n A C s, , x , + t  ? 5, +i )( 5 )<, +,=i 〇- n求得使代价函数A 最小化的.v, 值, 即为单词w 在t + 1 时刻的状态. 若& + 1 =1 使得A 最小, 则该单词在《+  1 时刻为突发词.5 基于分层语义分析的候选突发事件识别算法根据观察, 我们发现突发事件的发生通常伴随着多个相关突发词的出现. 为了根据突发词挖掘出相对应的突发事件, 同时为了避免因直接针对大量短文本诉求记录进行聚类而造成的数据稀疏性问题, 本文提出一种基于分层语义分析的候选突发事件识别算法, 其设计思想如下:( 1 ) 主题层语义分析. 本文通过引人主题模型捕获突发词的隐层主题语义相似度信息, 将隶属于同一个主题的突发词进行聚类? 指明包含这些突发词的诉求记录与突发主题事件聚类结果间的关系.文献[2 2] 曾指出将现有的主题模型直接应用于短文本诉求记录上效果不佳, 为此, 本文给出了一种将短文本诉求记录聚合为长文本数据的方法:首先, 假设在时间窗口〈Wh , , 内存在N个突发词, 根据第4 节突发词识别结果, 将所有包含突发词的诉求记录聚合为一个长文档, 记为A,. 对所有突发词执行相同操作, 得到长2 2 6 4计算机学报2 0 2 0 年文档集合c = {D?.,,…, D?v,…, L??,v} .然后, 运用主题模型在长文档集合C 上训练得到“ 文档- 主题”分布0 与“ 主题- 词”分布私对于诉求记录/?, 根据G i b bs 采样公式:p { zk .= k\z ^ ki, w) , l <i < K( 6 )计算该记录r 中的主题分布f 其中K 表示C 中所有的主题数量, w 表示r 中的所有词汇向量, '表示r 中的第t 个主题.最后, 选择r? 中出现概率最髙的主题Ama x 作为该记录的隶属主题, 并将隶属于相同主题々的记录识别为突发主题事件T£t .( 2 ) 事件层语义分析. 在获得突发主题事件的基础上, 我们发现属于同一个突发主题事件的诉求记录集合中时常混杂较多的噪声数据. 例如, 诉求记录1:“ 广州路社区因道路施工发生停水, 请尽快恢复”; 诉求记录2:“ 广州路社区发生停水, 有施工队在附近施工”, 诉求记录3 :“上海路水管破裂, 道路无法通行” 都会被识别为与“停水” 相关的突发主题事件. 但实际上, 诉求记录3 显然不是某个特定社区的停水问题, 而是由水管破裂引起的交通问题.为了将突发主题事件进一步细分为多个具体的候选突发事件, 过滤其中的噪声数据, 本文进一步采用文本聚类算法对每个突发主题事件T私中的诉求记录集合再次进行事件层级上的语义聚类, 最终得到了更细粒度的事件聚类结果, 并将每个聚类结果识别为候选突发事件艮, 同时将由所有候选事件组成的候选突发事件集合记为, S 艮={ 瓦,,…, £%} .通过上述基于分层语义分析的候选突发事件识别算法, 可以在突发事件检测过程中充分利用突发词及其对应诉求记录的隐层主题语义信息与事件层语义信息, 实现对于候选突发事件识别结果的不断细分取精.6 地域模式自适应识别算法在获得候选突发事件之后, 为了进一步确定事件发生涉及的地域范围, 提升突发事件检测的准确性, 本文提出了一种基于事件地域树的地域模式自适应识别算法.首先, 判断事件的发生是否与地域相关; 若相关, 则构建事件地域树, 自适应识别该事件发生的地域模式; 若不相关, 则直接根据事件的语义信息进行事件聚类. 然后再根据识别的地域模式对第5 节中得到的候选突发事件进行噪声数据过滤, 得到最终的突发事件.6. 1 地域相关性判别给定候选突发事件艮, 其包含的每条记录记为r,j E^ ={ n ,…, n ,…, } , 其中,| & |表tt c 候选事件艮中的记录数量. 本文采用N LTK ? 提供的命名实体抽取工具对每条记录r 进行地域信息抽取, 并保存在其地域集合中? 设指示函数:fl ,R egi nS et Cr) ^ 0J ( r )=一( 7 )1〇,R egi nS et C r )=0给出地域相关性阈值r , 根据算式( 8 ) , 若中包含地域信息的记录r, 的比例超过^ 则认为该候选事件艮的发生与地域相关.IEI( 8 >6 . 2 事件地域树的定义与构建6 . 2 . 1 事件地域树的概念及定义以南京市诉求记录为例, 候选事件艮中记录r的扣( r ) 一般呈现为{ 南京市, 鼓楼区, 宁海路街道},{ n u ll, 玄武区, 新街口街道} , { mi l l, mi l l, 夫子庙街道} 等多层级结构. 本文结合国家统计局全国行政区划信息?, 补全r ) 中缺失的各层级地域信息( 标识为n ul l ) , 将所有记录r 的地域信息规范化为( XX 市, X X 区, xx 街道} 的形式, 记为{L S LS L3} , 形成一种三层事件地域树的结构. 先给出事件地域树的基本符号解释与定义.定义1. 事件地域树( E TVa ) . ______事件地域树是一种层数为3 且满足3 个条件的多叉树结构:( 1 ) 第1 层( 市级) 中, 存在唯一一个地域节点,也是该事件地域树的根节点, 记为L1. 其数值IL 1|表示候选事件中包含地址L 1 的记录数量.( 2 ) 第2 层( 区级) 中, 对L1 细分为H 个地域节点, 其中第i 个节点记为L? , £6 [ 1, H] . 其数值| L? 丨表示候选事件中包含地址U 的记录数量.( 3 ) 第3 层( 街道级) 中对每个L? 节点再细分为叫个子节点, L丨节点下第j 个子节点记为Lj6[ 1 , 叫] . 其数值|L i, | 表示候选事件中包含地址L i,的记录数量.6 . 2 .  2 事件地域树的构建首先, 将艮中所有记录共有的第1 层( 市级) 地域信息作为根节点, 记为; 然后, 将各个记录中的第2 层( 区级) 地址信息作为L1 的子节点, 记为L? ,表示地址为L1 市的第£个市辖区; 最后将记录中第① ht t p : / / www. nl t k .o rg/② htt p : / / www. s t a t s, go v. c n/ tjsj/ tj bz / tj yq h dmhc xh f dm/麦丞程等: 公共服务热线中基于地域自适1 2 期 应 的突 发 事件 实时检 测 方法 22 653 层( 街道) 地址信息作为U 的子节点, 记为L) . ,, 表示地址为L 丨区的第;_ 个街道. 构建的事件地域树如图3 所示.6 . 3 地域模式自适应识别相关统计研究表明:7 ], 局部模式事件主要集中发生在某一地域范围内; 广域模式事件发生范围则通常涉及多个地域.基于此, 我们将一个空间划分为H 个地域, 每个地域表示为对于第6 .  1 节中确定的与地址相关的事件E,, 其地域模式fs5可能涉及其中的/ ^ 个地域根据最大熵原理M, 假设某个事件E 的真实地域分布服从参数为A 的离散型均匀分布乙UU U ) , 将其记为事件的地域假设分布P ( L ,) , 概率分布函数为J°( L;)=丄, i=l , 2 ,一, /i( 9 )h其中, P ( L ,) 的数值表示事件£; 发生在地域L , 中的概率.通过统计候选事件£:, 中的地址信息, 可以得到候选突发事件E, 实际发生的地域分布概率函数, 将其记为事件的地域频率分布Q ( L ) :N,Q ( L , )= -^ , z=l , 2 ,-, K( 1 0 )其中,JV , 表示候选事件£:, 发生在地域L , 中的记录数量, N 表示该候选事件中的记录总数.考虑到总有因此. 取Q ( L, ) 中概率值最大的前A 个值: 0 ( 、),…, Q ( L,) ,…, Q Ow,),( Q ( L , ) 之Q ( L,+ 1 ) ) , 并按照概率值降序排序, 得到突发事件To p-/ ; 地域集合T o p_A ? 同时, 对这些地址出现的概率进行归一化处理, 得到:N .- / NQ,a, )= -( 1 1 )T,N, / N为了确定A 的最佳取值, 识别该突发事件的地域模式, 本文采用K L 距离来衡量统计获得的候选事件E, 的地域频率分布与其对应的地域假设分布之间的差异性, 目标函数如算式( 1 2 ) 所示.通过网格搜索的方式. 确定使得A 最小的△ 值, 即最小化p a,) 与q '( l,) 之间的偏差, 如算式( 1 3 ) 所示./ i=a rg mi n { _ 7 i ,…, J ,,,…, _/ H }( 1 3 )最终确定该事件£: 的地域分布模式:( 1 ) 若/ j =l , 则事件E 呈现局部模式, 其发生的地域范围只集中在突发事件地域集合中出现概率最高的地址范围内;( 2 ) 若/ i > l , 则事件£: 呈现广域模式, 其发生地域范围涉及突发事件地域集合中的前A 个地址, 其余地域L ,,+ 1 ,…, L K 则可作为噪声数据进行过滤.需要指出的是, 对于事件地域树而言,位于第2 层( 区级) 地址集合{L ? ,…, L2H } 的地域突发模式由V 表示, 其数值含义为该事件发生的地域范围涉及A2 个区级地域, 相对应的突发事件地域范围集合表示为T〇/>j2.类似地, 位于第3 层( 街道级) 的某个节点下子节点集合L L,,,丨的地域突发模式由W 表示, 其数值含义为该事件发生的地域范围涉及V 个街道级地域, 相对应的突发事件地域范围集合表示为T〇/ >Jr、如图3 中黑色虚线框中所示.6 . 4 突发事件生成根据第6 . 3 节中地域模式自适应识别的结果,我们给出从候选事件移除噪声数据的过滤策略:过滤策略. 如果候选事件E, 中记录r 的地址不在其对应层级的突发事件地域集合中, 则将该记录作为噪声数据移除.结合第6 . 2 节定义的事件地域树, 算法1 给出基于地域自适应的突发事件检测算法.算法1 . 基于地域自适应的突发事件检测算法.输人: 候选突发事件, 事件地域树£; 7>?^ , 地域相关性阈值r输出: 突发事件E1.l F j^I ( r,) / \ E \ < t1= 12 .将E. 标识为£:; / * 该事件与地域无关*/3 .E LS E4 .计算E Tr伙中,…, L 2? } 的最优V 取值? 获得Topjr9; / * 根据算式( 1 3 )计算区级地域模式*/5.FO Re a c h r GE,do6./* 执行过滤策略*/2 2 6 6 计算机学报 2 0 2 0年7 .备= n L2 在{ 以,…, L 2H } 中对应次序的下标.8.将记录r 放入临时记录集合& 中;9.ENDIF1 0 .END FO R1 1.FO R2= 1t oH1 2 .IFS ,^ 01 3 .计算E 7>從中{ L^ ,…, } 的最优W 取值, 获得/ * 根据算式( 1 3 ) 计算街道级地域模式*/1 4 .FORe a c h r6S , do1 5 .IF r. L 3 £ Tofiji; /*执行过滤策略*/1 6.将记录r 放人事件£: 中;1 7 .E N DI F1 8 .EN DFO R1 9 .E NDIF2 0.E ND FO R2 1. E NDE LSE对于候选事件集合S£f 中的每个候选事件艮执行算法1 , 得到最终的突发事件集合S£={ E i6. S 基于滑动时间窗口的突发事件实时检测为了实现对于突发事件的实时检测, 本文提出了一种基于滑动时间窗口的突发事件实时检测策略, 如图4 所;- - Re cord, Reco rd2… Reco rd^&QW 存储 ̄ £2 ̄ Re co rd, Rec o rd2R ecor d^滑动n事件缓存- K- Re co rd tRecord 2… Reco rd? mQW’合并Re cord x Record 2 Recor d^f图4 增量突发事件检测策略首先, 我们对时间窗口Q W 内所有诉求记录执行R AEDe te c ti o n 方法进行突发事uc2A件检

[返回]
上一篇:基于Polygon_Refine_省略_et的违禁品X线图像自动标注方法_马博文
下一篇:基于多模体边度的科学家合作关系预测_柳娟