欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

博士论文
当前位置:首页 > 博士论文
基于多模体边度的科学家合作关系预测_柳娟
来源:一起赢论文网     日期:2021-06-29     浏览数:560     【 字体:

 第43 卷第1 2 0 2 0 年1 2 月计算机学报CH I N ESEJ OU RN A LOFCOMPU TERSVol . 4 3No.1 2De c .2 0 2 0基于多模体边度的科学家合作关系预测柳娟刘亚芳许爽许小可( 大连民族大学信息与通信工裎学院辽宁大连1 1 66 0 0 )摘要科学家合作关系预测近年来成为科学领域的热点研究方向, 对于理解科学家之间的合作机制和科研网络的演化机理具有重要意义. 但现有方法中对科学家合作关系的预测研究较少, 且都是基于无向合作网络的预测. 因此, 本文构建了科学家合作有向网络, 并在此基础上提出利用模体边度特征预测科学家合作关系. 首先, 针对传统方法中四节点模体无法使用朴素贝叶斯模型的难题, 提出了一种单模体和双模体边度链路预测方法, 为模体边度模型可进行链路预测的原因提供了理论解释. 然后, 提出了一种基于机器学习框架的多模体边度链路预测方法, 并与现有预测方法的结果进行比较, 该方法的预测性能提升了5 % ?1 9 % . 最后, 研究了1 2 种模体边度特征之间的相关性, 揭示了结构越相似的模体之间的预测结果相关性越强的规律. 本文研究拓展了模体理论的应用场景, 有助于进一步理解科学家有向合作网络的演化机制.关键词科学家合作关系; 有向网络; 模体边度; 朴素贝叶斯; 链路预测中图法分类号 TP3 9 9DOI 号1 0 . 1 1 8 9 7 /SP. J . 1 0 1 6.2 0 2 0 . 0 2 3 7 2P redi ct in g Sci ent i fi cCol labor at ion byEdgeD e gre eo fMul ti pl eMot i fsLI U J ua nL I UYa- Fa n gXUS h ua n gXUX i a o- Ke( Co ll ege o f info rma t i on a nd Co mmu n ic a t io nEn gi n eer ing , Da l i a n Min zu Un ive rs it y , Da li an , L ia o n ing1 1 6 6 0 0 )A bs tr a ctI n r e c e n t ye ar s ,t h e pr ed i ct i on of s ci en t if i cc ol l a b ora t i on r e la t i o n sh i ph a sb eco me a h otr es ea r ch t op i ci n th e fi e l do f s c ie n ce ?b e c a u s e i t iss ig ni f i can tfor un de r s ta n di n gt h e coo pe ra t i onm ec ha ni smam ongs c i en t is ts  an d th ee vol ut ion me ch an ism of sc ien ti fi c r es e arch n et w or k s. How eve r ,th e re a r ef ew r es ea r c h esont h epr ed ic t io no fs c i en t if i ccol l ab o ra t i o nre l a ti on sh i pu si ng t h em e th od s ba s ed o n com p l e x ne tw o rk s ?a n dt he ya re a l mo s t b as ed ont h e s t ru ct ur es of un di r e ct e dn e tw o rk s .I n a nun di re ct e dcoo pe ra t iv en et w ork ?th e d i r ec t i on of s c i e nt i fi cco l l a bo r a t io ni s no tc on s i de r e d ,a n dt hi s wa ya s su me s t ha t e a cha u t ho r^s con tr i b u ti on t oap a pe r is  t hes amea n dt hes t at u sof e a ch a u t ho r i se qu a l.Howe ve r , t h e co ll ab or a t i onof s c i en ti s t s i sof t e nn otmu t ua l an di n di vi d ua l st a t us  i s no te qu al i nt h ea c t u a l co l l a bor a t i on , an d th i su nb a l a nc edr el a t io n sh i pca n bee x pr e s s ed by t h edi r e ct i onof a n edg e .I nth ep r e di ct i onof  sc i en t if i c co l la bor a t i on re l a t io ns hi p ,i ti si mp os s i b l et od i s t i ng ui sh s ci e nt i s ts a s t h e fi rs t a ut ho r ,c orr es pon di n ga u th or  or ord i n ar ya ut h o rbyt he t op ol og yof u nd i r ec t edne tw ork s ,wh i ch w i l ll os eke yi n form a ti o ns uch a ss ci e n ti f i ci n f l ue nc eand f u tu r ep ot e nt i a l,a nd ca u se t he de vi a t io nt os ci e nt i f ic r a nk i ng a nd an a l ys i sof t he i ri n fl u en c ei ns ci e nt i f ic fi e l ds .I n ad di t i on ,st u dyi n gu ne qu al coo pe rati on in u nd i r ect edn e two r kswi l l ha ve ac e rt a i n i mpa c to n t he un de r s t an di n gof s ci e n t if i cre s e a r ch coo pe ra t io n.I n th i s s t udy>we co ns tru c tdi r e ct e dcol la b or a t i o nne t work scon s i d er in gt hedi r ec ti o no ft h eed ge b et w e ens ci e nt i s t s ,a n dt he n wetry t op r e di c tt h eco l l a bor a t i o n r e l a t i ons hi pi nt he s e d i r ec t e dn e twork s .收稿日期:2 0 1 9 -l l- 0 8 ; 在线发布日期: 2 0 2 0 -0 5- 0 2. 本课题得到国家自然科学基金( 6 1 7 7 3 0 9 1,6 1 6 0 3 0 7 3 ) 、辽宁省重点研发计划指导计划项目( 2 0 1 8 1 0 4 0 1 6 ) 、辽宁省“ 兴辽英才” 计划项目( X LYC1 8 0 7 1 0 6 ) 、辽宁省髙等学校创新人才支持计划( LR2 0 1 6 0 70 ) 资助. 柳娟, 硕士研究生, 主要研究方向为社交网络分析和链路预测. E-ma i l : 2 4 2 6 8 5 2 88 6 @ q q . com. 刘亚芳, 硕士, 主要研究方向为社交网络分析和数据可视化. 许爽, 博士, 副教授, 主要研究方向为大数据分析与处理. 许小可( 通信作者) , 博士, 教授, 中国计算机学会( C CF) 会员, 主要研究领域为复杂网络社团检测、链路预测和数据挖掘. E-ma il: xu xi a 〇ke @ fo xm ail . c om.1 2 期柳娟等: 基于多模体边度的科学家合作关系预测2 3 7 3T he p r e di ct i onof  s c i e n ti f ic c o l l a bo ra ti o nr el a t i on s hi pca n b ea b s t r a ct e din t oali nk pr ed i ct i onp ro b l emof di r e ct e dn et w ork s i n t he fi e l do fn et wo r ks c i e n ce .Li nkp r e di ct i on ba s e don n e two rks t ruc t ur e in f orm a ti on c a n b ed iv i de di n to  tw oki n ds of me t ho ds:gl o ba l i n fo rma t io n a ndl o ca ls t r uct ur e s i m i la r it y .A tp r e s e nt , t h em os t w i de l yus e d lo ca l s tr uc t ur ea l go r i th mi s  t he mo t if- ba s e dme t ho d for  l i n kp r e di c t io n i nd i r e c t e dne t w or k s . H ow ev er ,som ee xi s t in gm et h od s on l yc on s i d ert h e in f l u en ce o f on eor  twosp e ci f ic m o t i fs onl i n kp r ed i ct i on i n s te a dofu s i n ga l ot of i n fo rma t i ono f m ul t i p l em ot i fsfo rl i n kpre di c ti on .A tt h es a me t i me ,f e wr e s e ar ch er sdoc o ns i de rt h eco nt ri b ut i ond if f er en c e of no de s.A ct u al l y , th eco nt ri b ut i on o fe a ch n od ei sof t e ndi f fe r e n ti nar e a l-l i fe soc i a ln et wo rk.I n vi e w of t h el i mi ta t i on soft h eex i s ti n gm et h od so fl i nk p r ed i c t i oni ndi r e ct e d n et work s ,w ea t t em ptt op r e di c ts c i en t i fi ccol la b or at i onr el a t i on sh i pba se do ne dg ede gr ee s ofm ot i fi ndi r e c te ds c i e nt i f icc ol l a bo r a ti o nn et work s ,a n dt h ea imi st op r e di c tt h epo s s ib i l i ty o fc oo pe r a ti o nb et w e en s c i e nt i s t s . Fi r s t l y ,a li n k pr ed i c ti o nm et h odba s e do ne dg ede gr e e s o fs in g l ea n dd ua l mo ti f s i sp ro p os edi n ord e rt o sol v et h e pr ob l e mt h a t t h eN a i ve B a ye s i a nmod el ca nn ot be u s e di n t he t rad i ti o na lfo ur- n ode mo ti f.Me a nw h i le ,t h i ss t ud yu n co ve r st h ei nt r i n s i cme c ha n i smu s i ng edge - d ep e nd en tm ot if fo r l in k pre d i ct i on .T h e n , t h el in k pr ed i ct i onme t hodof m u l t ip l emo ti f su s i nga ma ch in el e a r n in gf r am ew or ki spro po s e d.Com pa r edw i t hex i s t i ng p r e di ct i onm et h ods ,t h ep r ed i ct i o np er f orm a nc eoft h ep ropo s e dme t ho d i sim p rove d5 % ? 1 9 % .Fi na l ly *t h ecor re la t ion be tw e ent he t w el v ek i nds of mo t i fs h as  be en s t u di ed ,u nco ver i ngt h at th emore s i mi la r th es t ruc tu r e , th es tr ong er t he cor r e la t ionbe t wee nmo ti f s .T h i ss t ud ye xpa n dst he a p p li c at i on s ce n ar io so fmo t i ft h eor yan dc a nh e l pu st of ur t h e ru n de r s t a ndt h eev ol u ti o n m e ch a ni s mo fdi r e c t e d co l l a bor a t i onn et w o r ks o f s ci e n t i s t s .Keyword ss ci e nt i f ic col la b or a t io nr e l a t io ns hi p ;di r e ct e dne t w o r k ; mo t if- e dg ed eg re e ;N a i veBa ye s ;l i n kp r e di c t i oni 引言近年来, 随着科学研究的迅速发展以及数据分析技术的广泛应用, 基于数据分析的“科学学”研究成为国内外的重要研究方向D 2 ]. 由于科学家合作网络是科研活动组织与科学信息传播的结构基础, 对知识的创造和传播具有重要意义, 因此受到学者们的广泛关注M, 分析和预测科学家社交网络中的合作关系也成为一项颇具价值的研究课题.科学家合作网络是一种特殊的社交网络, 在网络中将科学家视作网络的节点, 科学家之间的合作关系视作连边[4 5]. 如果两位科学家至少合作过一次, 则认为这两位科学家之间存在连边. 目前对科学家合作网的研究几乎都是基于无向网络的. 然而, 在无向网络中, 无法区分科学家谁是第一作者、通讯作者或普通作者, 这样就会损失掉科学家的影响力和未来潜力等关键信息, 对科学家的排名和分析其学科影响力造成偏差. 此外, 构建无向网络的方式是假设每个作者对文章的贡献是相同的, 而每篇文章中作者所起的作用往往是不平等的, 这种不平等的关系会对理解科研合作方式产生一定的影响.针对构建科学家合作无向网络存在的上述问题, 曾安等假设第一作者是文章的主要贡献者, 并在此基础上构建了有向科学家合作网络, 基于节点重要性理论分析了科学家在该类型网络中所起的作用?. 鉴于该方法取得了很好的效果且受到网络科学领域学者的关注, 本研究中假设第一作者是文章的主要贡献者, 通过对6 种世界著名期刊近2 0 年的合作数据构建了有向科学家合作网络, 并提出了利用模体边度特征进行科学家合作关系预测, 旨在预测科学家之间合作的可能性.对科学家合作关系的预测研究可以抽象为网络科学领域中的链路预测问题. 链路预测作为复杂网络的一个重要研究方向, 近年来受到较多关注, 可应用于网络重构、网络演化模型评价、推荐系统、社团发现等实际场景[7]. 链路预测是指通过已知的部分网络结构信息, 预测网络中任意两个节点之间存在2 3 7 4 计算机学报 2 02 0 年连接的可能性. 这种预测既包含了对静态链接的预测, 即网络中存在但尚未被发现的链接的预测; 也包含了对未来链接的预测, 即目前网络中不存在但未来可能存在链接的预测[ &9].近年来, 学者们提出了很多种链路预测方法.L i be n-N o we ll 和K l ei n be rg 发现基于节点共同邻居相似性是预测性能最好的局域结构方法之一, 并分析了其在若干社交网络中链路预测的效果[ 1 °]. 周涛等使用9 种基于局部信息的指标对多种实证网络的预测准确性进行比较, 在此基础上提出了准确性更高的资源分配指标( Re so ur c eA l l o ca t i on , R A) 和局部路径指标( Lo c al Pa t h , LP )[n]. Ca nn i s tr ac i等人认为相连的两个节点的共同邻居会倾向于形成局部社团结构, 可利用该特征来刻画共同邻居的连接紧密程度, 从而提高链路预测性能[1 2]. G ro v er 等人提出了一种基于图表示学习的链路预测方法( n od e 2 ve c ) , 与基于网络结构的链路预测基准算法相比, 该方法可有效提升预测准确性[ 1 3]. Ko vks 等人在蛋白质相互作用网络中进行链路预测, 提出充分利用长度为3 的路径信息新算法, 其性能明显优于现有链路预测方法[1 4 ].以上方法均简单地认为, 某一指标相同的节点的链路预测贡献相同, 但是在实际的社交网络中, 节点的贡献值往往是有差别的. Li u 等人提出了一种基于共同邻居的朴素贝叶斯模型预测方法, 考虑了每个节点贡献值对预测结果的影响, 该方法在一定程度上可以提高预测准确度[ 1 5].Wu 等人提出了加权局部朴素贝叶斯概率模型, 将预测节点对的共同邻居的权值作为角色函数考虑到链路预测方法中,发现可提高加权网络中链路预测的准确度[1 6].针对节点贡献不同, 学者们在无向网络研究中使用了朴素贝叶斯模型, 并在链路预测中增加了角色函数, 取得了较好的预测结果. 有向网络是一种连边具有方向性的网络, 上述方法只利用了无向连边的信息而没有考虑链路的方向性, 因此不能直接拓展到有向网络中. 在很多实证研究中, 均发现个体之间的作用往往不是相互的, 个体地位也是不平等的,这种不均衡关系可以通过有向网络中连边的方向性来表示. 因此, 将这种类型网络简化成无向网络会损失其中的有用信息, 有向网络链路预测的关键点是要考虑节点之间连边的方向性, 而现有的链路预测方法中仅仅有少量方法考虑了这一点.目前针对有向网络的链路预测, 应用最多和较为有效的方法就是以势理论为基础的模体方法[1 7 Mi l o 等人首先提出了网络模体的概念,模体是网络的微观结构, 即真实网络中频繁出现的由少数个体组成的小规模同构子图, 其在真实网络中的出现频率远高于在具有相同节点和边数的随机网络中的出现频率[3 4 ]. 韩华等人在传统的顶点度和边聚类系数基础上, 提出了基于模体的顶点度和边度来衡量网络中顶点和边的重要性[ 2 2]. 张千明提出了势理论, 发现满足势理论的模体结构具有更好的链路预测效果[ 2 3 ]. H u 等人考虑了模体的局部信息,即节点的出人度, 提出了基于四节点模体的QM I 方法, 与常用的预测方法相比, 该方法能够提升预测精度[1 7]. 但是以上方法都只考虑了一两种特定模体的链路预测效果, 而没有综合多个模体的多种信息进行链路预测. 这类方法是一种直觉性的方法, 没有相关理论去解释这类方法预测准确性的原因, 而且它们也没有考虑不同节点贡献的差异性.鉴于现有研究的局限性, 本文通过构建6 种世界著名期刊有向科学家合作网络, 首先考虑节点贡献对有向网络链路预测的影响, 提出基于朴素贝叶斯模型的单模体、双模体边度链路预测方法. 朴素贝叶斯模型主要由两部分组成: 预测边形成的模体的数量( 模体边度) 和与预测边构成预测器的节点的总贡献. 当节点贡献对预测效果的影响不大时, 可以忽略该部分影响而只使用模体边度, 这样就为应用模体数量进行链路预测提供了理论依据. 同时, 本文提出了基于机器学习框架的多模体边度预测方法, 该方法在考虑连边的方向性的同时, 综合考虑多个模体特征对预测效果的影响, 取得了更好的预测效果.最后, 采用最大信息系数分析了多模体边度特征之间的相关性, 揭示与科学家之间的合作模式相对应的每种模体之间的内在联系. 本文的研究能够促进对科学家合作网络演化机制的理解, 也可应用于其它类型有向网络的研究.本文的创新点和主要贡献如下:( 1 ) 将朴素贝叶斯模型和模体边度理论应用到有向网络的链路预测当中, 不仅考虑了模体的数量,还考虑了与预测边构成预测器的节点的角色函数对预测的影响, 尤其采用一种新方法解决了四节点模体无法使用朴素贝叶斯模型的问题.( 2 ) 基于朴素贝叶斯理论为使用模体边度可进行链路预测的原因提供理论解释. 我们的理论推导发现此类方法不仅对于单模体预测器有效, 对于双模体预测器也有效. 通过实验证明节点的角色函数在六种有向科学家实证网络中作用不大, 因此在这柳娟等: 基于多模体1 2 期 边度 的科学家合作关系 预测 23 75类网络中可以仅使用模体边度而忽略节点的角色函数.( 3 ) 本文提出基于机器学习的多模体有向网络链路预测方法, 与已有链路预测方法进行比较, 实验表明该方法的预测精度最高, 约提升了5 % ?1 9 % .此外, 用最大信息系数分析了多模体边度特征之间的相关性和模体预测器的解释性, 揭示与科学家之间的合作模式相对应的每种模体之间的内在联系.2 实验数据与理论基础2 . 1 网络数据说明本文下载了W ebof S c i en ce 中六本著名期刊数据, 包括《科学》( Sci en ce ) 、《自然》( Na tu re ) 、《新英格兰医学杂志》( NEJ M) 、《柳叶刀》( La n c e t ) 、《美国医学会杂志》(J AMA ) 和《英国医学期刊》( BMJ ) . 其中, N a t ur e 包含了1 9 9 8 年?2 0 1 8 年的全部数据, 其他5 本期刊包含了 1 9 8 4 年? 2 0 1 9 年的全部数据.在这些期刊中设有各种不同的栏目, 考虑到科学家合作主要是在研究性学术论文中进行的, 因此我们仅考虑A r ti c l e 和R ev i ew 这2 种文献类型?研究中将每一本期刊构建成该期刊作者间的有向科学家合作网络, 将第一作者作为源节点, 其他作者作为目标节点, 由此形成从第一作者指向普通作者的有向边. 在每一个网络中, 如果科学家之间至少合著过一篇论文, 则认为科学家之间存在连边. 在该网络中, 节点表示科学家, 连边表示科学家之间的论文合著关系. 上述网络均可以表达为G =( V , E ) , 其中V 代表网络中节点的集合, E 表示网络中连边的集合. 网络中的链接关系用邻接矩阵来描述, 矩阵元素表示节点之间连接与否, 其记作%, 若%= 1 表示节点之间存在连边, %=〇表示节点之间不存在连边. 本文基于以上方法构建了6 个有向科学家合作网络, 对于每个网络仅考虑其最大连通集团, 所得网络的节点数和连边数统计数据如表1 所示.表16 种有向科学家合作网数据说明网络 节点数 连边数Sci e nce 1 7 7 3 5 5 6 6N at u r e 1 7 0 1 5 8 7 4NEJ M 4 9 7 1 56 8Lanc et 1 1 7 9 5 1 1 7J AMA 5 9 7 1 7 4 8BMJ 6 4 3 1 5 8 92. 2 链路预测的评价标准本文使用的评价指标是AUC 、Pr e ci ?'o n 、J ? eca Z Z和F l - s c or e . 链路预测方法对于四种评价指标的值越高, 就说明该方法的性能越好. A UC 可以理解为在测试集中随机选择一条存在的边的分数值比随机选择一条不存在的边的分数值高的概率. 也就是说,每次从测试集中随机选取一条存在的边, 然后随机选取一条不存在的边, 如果存在的边的分数值大于不存在的边的分数, 就加1 分; 如果两个分数值相等, 就加〇. 5 分. 这样独立比较《次, 如果有, 次测试集中存在的边的分数值大于不存在的边分数, 有n"次两个分数值相等[2 4], 那么AUC 可以定义为A UC 能够从整体上衡量链路预测的准确性, 而可以从局部衡量预测准确性. 该指标定义为在预测值排序在前L 个预测边中预测准确( 真实存在边) 的比例[25 ]. 将特征得分从大到小排序, 如果排序在前L 的预测边中有m 条真实边存在, 那么可以定义为P rec i s i o n=L( 2 )在本研究中, 由于l 取值并不影响本文的实验结论, 因此根据6 种真实网络的测试集连边数量不相同, 统一选择了测试集连边数量的2 0 % 作为L 的值.除了和iVec zW o n夕卜, 以和_F 1 -s c o r e也是非常重要的性能评价指标. 用以衡量所有存在的连边中被预测为存在的连边的比例, 可以定义为Re cal lTPTP + FN( 3 )Pl -s c o r e 又称调和平均数, 用以调和以和. 需要注意的是, 这里的P re ci Wcm 与上文的评价指标PwMo w 不同, 这里的P re c zitm 即精确率, 用以衡量所有预测为存在的连边中真正存在的连边的比例, 因此F l -s cor e 可以定义为2? P re c i s i o n ? Re ca ll1_S C 〇r e =P re c i s i o n + R ec al lZ TP + F P + FN其中,TP 表示真正例, 指存在的连边被预测为存在连边的数量.FP 表示假正例, 指不存在的边被预测为存在边的数量. FN 表示假反例, 指存在的连边被预测为不存在的连边的数量.2. 3 有向网络的势理论在有向网络中, 当且仅当网络中的每个节点都2 3 7 6 计算机学报 2 0 2 0 年能被分配势能, 且该势能是唯一可确定的, 那么这个网络就是可定义势的. 也就是说, 对网络中的任意一对节点z'和来说, 如果存在一条边从节点z' 指向节点7_, 即那么节点〖的势能大于节点的势能.因此,一条有向边显然是可定义势的, 而包含互惠边的结构一定是不可定义势的[ 2 5:. 本文仅考虑回路较小的模体, 即考虑有向网络中3 节点和4 节点的情况下得到的6 种模体结构:2 3 ’ 26 ], 如图1 所示. 我们选择包含节点较少的模体有两方面原因:一是模体中含的节点数越少. 那么它的数从就越容易计算;二是高阶模体的数量依赖于低阶投体的数W _, W 此5 阶和5 阶以上的模体在链路顶测的应用屮Li 经不起主要作用[ 2 S . 对于在这6 种模体结构中, 只有双风扇结构( B if a n ) 和双平行结构( B i-p a r al l e l ) 是可定义势的.3 节点前馈回路3 节点反馈环( 3 - F FL ) ( 3 -Loo p )c>-c>--〇 o- -*〇〇<- 〇- Ch--oo-—<)双风扇结构双平行结构4 节点反馈环4节点前馈回路( Bi-fa n )( Bi-p ar al l el )( 4-Lo op )( 4-F FL )图16 种含有回路的最小模体在图1 的6 种模体中各取一条边, 就能够得到1 2 种预测器, 如图2 所示. 预测器中的虚线表示从原来的子图中移除的连边, 即待预测的连边,其中, 只有55 、56 和S7 是可定义势的. 此时对于虚线的待预测边, S ,? S1 2 每种模体的数量可以看成是包含该边的模休的边度[2 2 ], 因此本文所提的单模体链路预测方法可以理解为模体边度的一个实际应用.韩华等人针对复杂网络拓扑结构中模体的存在性,在传统的顶点度和边聚类系数基础上, 提出了基于S9510S12图26 种模体对应1 2 种模体边度预测器的图示模体的顶点度和边度来衡量网络中顶点和边的重要性, 从网络复杂性度量的角度刻画了顶点和边在网络中的重要性, 而目前还没有相关研究将链路预测与模体的顶点度和边度等概念联系起来.3 基于单模体边度的科研合作预测3 . 1 单模体朴素贝叶斯模型朴素贝叶斯的预测方法是将待预测边生成指定预测器的数M 和预测器屮每个节点对于连边形成的贡献综合在一起进行计算. 给定一个网络( V , £) , 其中V 代表网络中节点的集合, E 表示网络中连边的集合,I V | 表示网络中节点总数,| £| 表示网络中连边总数. £T 表示训练集,|£T I 则表示训练集中的连边数量, E " 表示测试集. 用变量A , 和A。分别表示一对节点之间连接和不连接两种情况. 根据训练集ET可以得到A, 和A 的先验概率P ( A l)=W 'P ( A o )=\u\( 5 )其中,| U| =|V|(|V|—1 ) 表示网络中所有可能的连边的数量. 对每个节点W , 可以对它赋予两个条件概率) 和, 其中, P ( w| A ! ) 表7K—■对相连的节点与节点w 生成指定模体预测器的概率, P ( w|A。) 表示一对不相连的节点与节点w 生成指定模体预测器的概率. 根据贝叶斯定理, 分别计算这两个概率, 表示为P ( w \ A i)=P ( w )? P ( Ai | w )P ( A,)( 6 )P ( w| A 〇)=P ( w )? P ( A 〇 | w )P ( A〇)( 7 )其中. P ( W ) 表示节点w 和某节点对生成指定预测器的概率.|w ) 表示与节点w 生成指定预测器的节点对之间相连的概率, 表示与节点W生成指定预测器的节点对之间不相连的概率, 于是有P ( A ]| w ) ( 8 )Ujv.1 u.其中, 和N&. 分别表示与节点w 构成指定预测器节点对中有连接节点对数量和未连接节点对数量. 由R A,+得P ( A? |w ) =l- P ( A 1=NA u^A u1  I^Av( 9 )对于两个未知链接的节点;c 和3; , 将与节点对生成指定预测器的所有节点的集合定义为柳娟等: 基于多模体1 2 期 边度 的科学 家合作关 系 预 测 2 37 7(X,. 以图2 中三节点模体S , 为例进行详细说明, 当已知待预测边u/7 时, 首先找到与节点a 相连的所有目标节点, 构成集合A , 再找到与节点6 相连的所有源节点, 构成集合B , 那么集合A 、B 的交集C 就是与M 边构成该预测器的所有节点, 也就是(X. 、.. 要获取这个集合的目的有两点:一是要知道预测边所构成的指定预测器的数量, 而预测边构成预测器的数量就是集合中节点或连边的数量; 二是要计算与预测边构成预测器的节点或连边的角色函数. 所以仅知道集合中节点和连边数量还不足以进行预测,重要的是需要知道该集合中的每一个节点或连边,以及它们对构成指定预测器的贡献. 假设集合中每一个节点对于节点1 和: y 之间是否产生链接的贡献是相互独立的, 根据朴素贝叶斯理论, 得P ( A, | 0? ) =P ( A i )P ( Ory)ITP ( w|A,) ( 1 0 )P ( A 〇| O^J=—p-J[P ( w\A J( 1 1 )其中, p ( a, 丨a, ) 和P ( a 。i o 。, ) 分别表示节点i 和y 之间相互连接和不连接的后验概率. 此时, 给定一对节点, 比较两个节点连接的概率p ( a , i a 、. ) 和不连接的概率p ( a ,,  i a v ) , 就可以判断这两个节点之间产生连边的可能性. 为了更好地比较哪些连边更可能出现, 可以定义节点对:c 和^ 的似然值为_P ( A ,| QJ V)? —P ( A ()| 0, v )P ( A , )JJP ( A〇)?P ( A,1^ )P ( A? )P ( A,)?P C A? \zu )- ry( 1 2 )在式( 1 2 冲’ 设5=雖对于给定的网络和测试集P CAy lw )i VA可视为一个常数; 设i??.=为节点w 的角色函数, 用来刻画节P ( A 〇|w )N a点w 对于两节点产生连接和不产生连接的贡献比. 这里需要注意的是, 当与节点w 构成预测器的节点对中未连接的节点对数量为〇, 即N^. =0 , 那么的分母就会为〇而导致计算没有意义, 于是,将角色函数中的分子分母都做加1 处理, 即瓦N -+ 1i V仙. + 1. 于是节点对I 和^ 的似然值为^= 5-*XI( 1 3 )此模型为单模体朴素贝叶斯模型. 由于n 1 为一个常数, 所以可以不考虑它的作用, 于是式( 1 3 ) 取对数后得r'X y=IO ryI l 〇g.V+21〇g( 1 4 )3 . 2 基于单模体边度的链路预测在基于单模体进行链路预测时, 用r.丨, 表示节点对i 和^ 的特征分数值, 根据此分数值得到链路预测的评价指标. 对于未知链接彳x a } 来说, 式( 1 4 ) 中第一部分|〇? 丨l o g.、? 正比于该链接能够生成的对应模体的数量( 模体边度),1 〇g ^ 表示与I 和>一起能够生成对应模体的所有节点的角色函数的总贡献. 如果不区分每个节点的贡献, 则仅需要保留公式的第一部分, 该部分是一种简化的基于朴素贝叶斯的单模体链路预测方法, 也就是基于单模体边度:22] 的预测方法, 它是能够利用模体进行链路预测的理论基础.在以前基于朴素贝叶斯模型的链路预测器中,都仅仅考虑了三节点模体中节点的角色. 四节点模体中除了预测边外含有两个节点, 比较复杂而无法使用朴索贝叶斯模型. 图3 是三节点和四节点预测器角色阐数的计灯示总图. 对于三节点预测器, 需要考虑的是除了预测边之外的节点C 对于该预测器的影响. 对于四节点预测器, 还需要考虑除了预测边之外的节点c 和节点d 对该预测器的影响, 我们提出可以按照如下三种情况进行考虑: ( 1 ) 仅考虑节点r 对该预测器的影响; ( 2 ) 仅考虑节点c / 对该预测器的影响“ 3 ) 考虑节点f 和节点d 及《/ 之间的连边所构成的整体对该预测器的影响. 由于前两种方式只考虑了预测边之外的部分结构, 忽略了整体结构的影响, 所以对于四节点预测器, 本文使用第三种方法计算角色函数. 考虑预测边之外的所有结构对该预测器的影响, 即四节点预测器中虚线框内的结构. 如果将( b ) 、( c ) 中两个四节点预测器的计( a ) 三节点预测器的角色函数计算0@- ?( b ) 四节点预测器的角色函数计算I(j>??( c ) 与( b ) 结构相似的四节点预测器的角色函数计算图3 三节点和四节点预测器的角色函数计算2 3 7 8 计算机学报 2 0 2 0 年算角色函数部分看成一个整体, 那么两个预测器的结构与( a ) 中三节点预测器的结构相似. 同时, 这种方式意味着式( 1 4 ) 这种直接对三节点模体有效的计算方法可以直接应用到更高阶( 4 阶) 模体的链路预测上.针对BM J 网络的单模体链路预测的结果如图4 所示: 图中三角形表示直接使用式( 1 4 ), 基于朴素贝叶斯的单模体链路预测结果; 而圆形表示只使用式( 1 4 ) 中第一部分, 不考虑节点角色函数的简化单模体链路预测结果, 即基于单模体边度的预测结果. 对比基于朴素贝叶斯模型的单模体链路预测和简化版的结果, 发现基于两种预测方法的1 2 种模体预测器的性能基本足相N 的, 说明对于科学家合作网络而言, 甘点熵色函数对其合作关系的预测影响不大, 于是式( 1 4 ) 可以近似简化为0 .62 5rj 0 .6 00< 0 .5 750. 5 5 01 .0S 0. 9l〇. s0. 70 . 625(0 .6 00; 0 .5 750 .5 500 .5 5p0 .5 0C0 .4 5f fv 〖+ 单模体链路预测简化的单模体链路预测^MSj Sos3 s4s5 s 6 s7 s8 s9s1 0sn sn模体编号( a )t 4i1[|ff4 单模体链路预测' 简化的单模体链路预效 9!?s,s,s3s4s5s6 s 7s8s9 s1 0s n s u模体编号( b )M l*.+ 单模体链路预测简化的中. 投体链路预测i*fMff¥s,s2 s3 s4s5 s6s7 s8 s9s,〇s? sl 2模体编号( c )+ 单模体链路预测简化的单模体链路预测f卜“fs, s2 s3sts5s6s7s8 s9 si0 su su模体编号( d )图4 基于朴素贝叶斯的单模体链路预测与简化版预测器针对BM J 网络的结果比较r:产 10"I l o g s( 1 5 )因此, 我们在后续的科学家合作关系预测研究中将不再研究节点角色函数的影响.4 基于多模体边度的科研合作关系预测4 . 1 双模体朴素贝叶斯模型对于未知链接U , ^ } , 用表示两个节点之间存在连边, 表示两个节点之间不存在连边. 定义O J x o) 为与两个节点生成第一种预测器的所有节点集合, O2 u , 3〇为与两个节点生成第二种预测器的所有节点集合? 两个集合的获取方式与第3 节中a .、. 的获取方式相同, 那么两个节点之间相互连接和不连接的后验概率为P ( exy | O j, Oz ( x , y ) )_ P ( ex v )?P ( 〇i, 〇2|  exy )P ( 〇i ( x 9 y ) , 02 ( j: , y ) )P ( exy)? P ( 〇!( x 9 y )  |eJ V )* P ( 02 (, 〇C y y ) | eJ V )= ?-——( 1 6 )( 〇i ( x , y ) 9 〇2 ( j: 9 y ) )P ( er y |〇i( x , y ) , 02 ( x , y ) )_P ( ex y)? P ( 〇i, 02\  ex y ), 02 (, x , y ) )_P ( ex y) ?P C Oj\exy)?P ( 02 ( j: , y )( 〇i ( x , 3; ) , 02 ( x , 3; ) )此时, 对于节点i 和7 来说, 比较它们之间相互连接的概率和不连接的概率, 就可以判断两个节点之间是否有更大的可能性产生连边. 为了更好地比较哪些连边更可能出现, 可以用这两个概率的比值为每个节点对计算一个数值丨O 丨( : r , y ) , 02 ( 工, 3〇)P ( i ^7 l〇i, 0 ? ( x 9 y ) )P ( esy)P ( 〇i ( x , y )  \ e xy )P ( 02( x ,3〇|)P ( ex v )P ( 0 \( x 9 y )  \e xy)P ( 02 ( x , y )\eXy')( 1 8 )假设集合〇i ( x , 3〇和中的每一个节点对于节点对之间产生链接与否的贡献是相互独立的, 那么G , 可以化简为_P ( ex y )jjP ( gJ V )*P ( ex y\w )P ( ex y)w e ( ) ^ r , y ^ P ( eu y )?-,-pF ( e r v)?P ( e r y |  v )I I ̄ ̄?一■ \( 1 9 )v e 〇2u . y ) P ( exy)? P ( e. r y \v )其中, | w ) 表示在构成的第一种预测器时, 与节点^ 构成预测器的节点对之间相互连接的概率,柳娟等: 基于多模体1 2 期 边度 的 科学家 合作关系 预测 23 7 9尸( &、.  | ? ) 表示在构成的第二种预测器时, 与节点r构成预测器的节点对之间相互连接的概率. 相应地.f*( e. r.v |w ) 和| T ; ) 则表示节点对之间不连接的概率, 因此有P ( e. r y \w )NA u.n a ?. + n?P ( e, r y|  w )= 1—P ( e. r v | zt > ):NA mN i u. +iV,P (. e. r y| w )N 、,,N A V+NAP i ej y|w )=l— P ( ex v  Iv )N, ?那么, 可以得到两个预测器的节点角色函数为R-.( 2 0 )( 2 1 )( 2 2 )( 2 3 )( 2 4 )为了防止分母为〇没有意义, 将分子分母都加1, 于是Rz v-H1 ^iVA l> + 1’Rv=( 2 5 )nA u. + i N, ? + l定乂 5=P ( i^ )\U\\ET\^ , 那么对于节点对^ , ^ }来说rx y=s1n s RwJJs R v( 2 6 )t 6 〇, ( -r. ^ v ^ 〇2(jr , y )其中, S1 为一个常数, 所以不考虑, 于是将式( 2 6 ) 剩余部分取对数得r^=( | 〇i| + |Oz ( j: , y ) |  ) l 〇g5 +2l o g兄+X]l o g尺,( 2 7 )i t '^( - T * ^ )v ^Og<  J ?3^)该式中第一部分是两种模体的数量之和, 第二部分是构成第一种模体的所有节点的角色函数影响力之和, 第三部分是构成第二种模体的所有节点的角色函数影响力之和. 由于节点角色函数对科学家合作有向网络的链路预测准确性影响不大, 因此式( 2 7 )可以近似为r'j y= ( | 〇i( x , y )  | + |0 2 ( x , y )| ) l og 5( 2 8 )在该式中仅需要计算节点x 和^ 及其邻居节点构成的两种模体的数量之和.4. 2 基于双模体边度的链路预测基于双模体边度的链路预测就是将两个单模体的模体个数相加. 如图5 所示,( a ) 表示一个小型的网络示例, 表示待预测的连边. ( b ) 表示在( a ) 的小型网络中, 预测边可以生成2 个预测器S ,,分别为A BC: 和A BD ; 可以生成1 个预测器S,, 为A BE ; 可以生成1 个预测器Ss , 为A BC£; 也可以生成2 个预测器S? , 分别为A BFG 和A B DG . 同时图5 ( b ) 也列出了三种双模体组合形式, 分别为两个三节点模体组合S,+ S,、三节点和四节点模体组合S., + S,J1 I 两个四节点模体组合Ss + S:, .( a ) 小型网络的拓扑结构图?*<3 )???s?( b ) 3 种双模体的组合形式图5 双模体链路预测图示科学家合作关系网络基于图5 中双模体链路预测的结果如表2 所示, 双模体边度链路预测的准确性比单模体边度的预测准确性在一定程度上有所提高. 但是这种简单地将两种单模体的个数相加的预测方法也会造成误差的叠加, 因此表2 中并不是任意两个模体组合形成的双模体预测器相对于单个模体都有更好的预测效果. 如果将这种方法直接应用到基于更多模体的链路预测中, 会导致更大误差的叠加效应, 导致最终的预测结果不准确, 所以将这种方法直接应用到多模体链路预测中有一定困难.2 3 80 计算机学报 2 0 2 0 年表2 双模体边度的链路预测结果网络及评价指标 s,s, s 6 S〇 Sis4 + s6 s6 +s 9A UC 0 .  6 95 0 . 60 2 0 . 68 0 0 . 6 8 2 0. 7 26 0 . 70 2 0 . 7 2 2Sci e n ceP rec is i on 0 .  9 59 0 . 9 7 3 0 . 9 6 8 0 . 9 7 7 0 . 9 86 0 . 98 2 0 . 9 8 2Re ca l l 0 .  6 72 0 .  60 6 0 . 6 6 8 0 . 6 5 8 0 .6 7 4 0 .  66 6 0 . 6 6 5F l- s co r e 0 . 6 3 6 0. 5 3 5 0 . 6 3 2 0 . 6 1 5 0 . 6 3 6 0 . 6 2 9 0 . 6 2 8A UC 0 .  66 7 0 .  58 3 0 . 6 6 1 0 . 6 6 7 0 . 7 00 0 . 69 1 0 . 7 0 2N a tu r eP rec is io n 0 . 9 8 3 0 . 9 3 6 0 . 9 7 0 0 . 9 8 3 0 . 9 9 6 0 . 9 8 3 0. 9 9 1Re ca ll 0 .6 5 7 0 .5 8 6 0 . 6 5 3 0 . 6 6 0 0 . 6 6 2 0 . 6 4 4 0 . 6 4 0F l- sco re 0 . 6 1 7 0 . 5 0 5 0 . 6 1 5 0. 62 4 0 . 6 1 5 0 . 6 0 4 0.  6 0 1A UC 0 . 7 1 1 0 . 6 4 1 0 . 6 9 8 0 . 7 0 1 0 . 7 8 4 0 . 7 6 0 0. 7 4 1N EJ MPr ec is io n 0 . 9 0 3 0. 8 8 7 0 . 9 3 5 0.  9 3 5 0 . 9 3 5 0 . 9 0 3 0 .  95 2Reca ll 0. 6 8 5 0 . 6 3 7 0. 6 7 3 0 . 68 7 0 . 6 8 2 0. 6 7 4 0 .  6 6 8F l-sco r e 0 . 6 5 4 0 . 5 8 7 0 . 6 4 2 0 . 66 1 0 . 6 5 2 0. 6 4 5 0 .  6 3 9A UC 0 . 7 5 0 0. 6 3 5 0 . 7 5 3 0 . 7 50 0. 7 8 6 0 . 7 8 0 0 .  77 7L a n ce tPr ec i s io n 0 . 9 9 5 0 . 9 4 6 0 . 9 8 5 0 . 9 90 0. 9 9 5 0 . 9 9 0 0 .  9 9 0R eca ll 0. 6 6 0 0 . 6 3 8 0 . 6 3 2 0 . 6 2 7 0 . 6 6 0 0. 6 4 6 0 .  64 2F l-s co r e 0 . 6 1 7 0 . 5 8 6 0 . 5 78 0 . 5 6 8 0 . 6 1 7 0 . 60 6 0 . 6 0 2AUC 0 . 6 7 0 0 . 5 9 6 0 . 64 2 0 . 6 6 0 0.7 0 8 0 . 68 2 0 . 6 9 3JAMAPre ci s io n 0 . 9 5 7 0 . 9 4 2 0 . 9 4 2 0 . 9 1 3 0 . 9 8 6 0 . 9 4 2 0 . 94 2R eca l l 0 .6 7 3 0. 6 0 5 0 . 6 5 5 0 . 6 5 0 0 . 6 7 0 0 . 6 6 5 0 . 6 6 0F l-s co re 0 . 6 3 4 0 . 5 3 5 0 . 6 1 5 0 . 6 0 8 0. 6 3 7 0 . 62 9 0 .6 2 6AUC 0.  6 1 4 0 . 5 7 4 0 . 5 58 0 . 5 6 9 0 .6 70 0 . 6 1 0 0 . 5 9 8BMJP re c is io n 0 . 9 3 7 0 . 8 2 5 0 . 8 8 9 0 . 8 5 7 0 . 9 3 7 0 . 90 5 0 . 9 2 1R eca l l 0. 6 3 4 0 . 5 7 1 0 . 58 0 0 . 5 8 8 0 . 6 3 2 0 . 62 9 0 . 6 2 8F l- s co r e 0.  58 0 0 . 4 7 6 0 . 4 9 7 0 . 5 0 9 0 .5 80 0 . 57 6 0 . 5 7 54 . 3 基于多模体边度的链路预测多模体边度的链路预测就是综合利用多个模体特征, 并基于X GB oos t 机器学习框架实现的.XG Bo ost 能够自动利用C P U 的多线程进行并行,同时在算法上加以改进提高了精度[ 2 9 ]. 不同于传统梯度提升决策树( G ra d ie n tB oo s t edDe ci s i onT r ee s ,简记为GBDT ) 在优化时仅用一阶导数信息, XGBoos t对损失函数进行二阶泰勒展开, 并在目标函数中加入了正则项, 整体求最优解, 用以权衡目标函数和模型的复杂程度, 防止过拟合[ 3 ° ]. 除理论与传统的G BD T 存在差别外, X GB oo s t 具有速度快、可移植、代码较少、可容错的优点.本文研究中划分训练集与测试集的比例为8:2 ,通过将1 2 种预测器在单模体链路预测过程中得到的训练集中连边的分数值( 即模体的边度) 作为特征, 利用XG B oos t 进行训练学习, 得到测试集中连边的相似度得分, 根据此分数求得四种评价指标的值, 得到预测结果. 使用X GBo os t 方法将1 2 种预测器综合起来进行预测, 实验结果如表3 所示, 在6 种有向科学家合作网络中, 基于所有模体特征进行机器学习的链路预测能力与单个模体的预测能力相比都有较大提升.表3 单模体和多模体的链路预测结果网络及评价指标 S!s 2 s 3 S ts5 S 6 s7 s8 s 9 S i〇 S n s1 2 Al lAUC 0 .  6 78 0.6 8 1 0 . 6 5 4 0 . 6 0 1 0 .7 1 1 0 . 6 6 4 0.  6 4 5 0 . 5 9 9 0 . 6 7 0 0 . 6 6 8 0 . 6 4 6 0 . 6 4 5 0 . 8 16S c i e nceP rec is i on 0 . 96 8 0 . 9 5 5 0 . 9 8 6 0 . 9 8 1 0 . 9 8 6 0 . 9 6 8 0 . 9 8 1 0,  9 32 0 . 9 7 7 0 . 9 7 7 0 .9 7 2 0 . 9 7 7 0 . 9 9 0Re ca l l 0 . 6 8 0 0 . 6 8 3 0 . 6 6 8 0 . 6 0 6 0 . 6 6 4 0 . 6 7 3 0.  6 50 0.  6 1 1 0 . 6 7 3 0 . 6 6 6 0 . 6 5 6 0 . 6 4 8 0 . 7 9 2F l-s co re 0 .  64 4 0 . 6 4 8 0 . 6 2 9 0. 5 3 5 0 . 6 2 1 0 . 6 5 6 0.  6 0 5 0 . 5 4 8 0 .  63 6 0 . 6 2 9 0 . 6 1 3 0 . 6 0 3 0 .7 8 6AUC 0 .  66 2 0 . 6 5 3 0. 6 4 9 0 . 5 8 1 0. 7 20 0 . 6 6 4 0.  64 5 0 . 5 8 9 0 . 6 5 2 0 . 6 6 1 0 . 6 3 8 0 . 6 4 4 0 . 8 2 4N a tu reP rec is i on 0 . 9 7 8 0 . 9 6 5 0 . 9 2 7 0 . 9 3 5 0 . 9 83 0 . 9 5 2 0 . 9 6 1 0 .  90 1 0 . 9 6 5 0 . 9 4 4 0 . 9 3 5 0 . 9 5 7 0 . 9 8 7Re ca l l 0 . 6 7 1 0 . 6 6 0 0 . 6 4 0 0 . 5 7 8 0 . 6 4 70 . 6 6 3 0 .  64 3 0 . 5 76 0 .6 5 4 0 .6 4 4 0 . 6 3 5 0 .6 7 8 0 . 7 9 0F l - s co r e 0 . 6 3 2 0 . 6 1 9 0 . 5 8 8 0 . 4 9 0 0 . 5 9 6 0. 6 2 8 0 .  60 1 0,  5 1 1 0 . 6 1 2 0 . 6 0 5 0 . 5 9 2 0. 5 9 2 0 .7 8 3AUC 0 .  69 0 0 . 6 7 9 0 . 6 9 8 0 . 6 1 0 0.7 43 0 . 6 8 8 0 .  70 0 0 . 6 1 2 0 . 7 0 4 0. 6 8 2 0 . 6 8 4 0 . 6 7 6 0. 8 5 1NEJ MPr ec is i on 0 . 8 8 7 0 . 8 5 4 0 . 8 5 4 0 . 8 5 5 0 . 974 0 . 8 70 0 .  93 5 0. 9 1 9 0 . 9 5 1 0 . 9 5 1 0. 8 8 7 0. 9 3 5 0 . 9 8 3Rec a ll 0 . 6 8 1 0 . 6 8 6 0 . 6 7 1 0 . 6 2 5 0. 6 8 4 0 . 6 93 0 . 6 7 7 0. 6 4 9 0 . 6 9 2 0 .7 0 3 0. 6 8 1 0.  68 7 0 . 8 2 7Fl -s co r e 0. 6 4 6 0 . 6 5 4 0 . 6 3 3 0 . 5 7 0 0. 6 5 5 0. 6 6 9 0 .  64 7 0 . 6 0 9 0 . 6 6 8 0. 6 8 0 0 . 6 5 1 0 . 6 5 7 0 . 8 2 4AUC 0 . 7 6 8 0 . 7 5 4 0 . 6 7 9 0. 6 2 4 0 .7 9 1 0 . 7 6 7 0 .  69 7 0 . 6 4 0 0 . 7 7 0 0 . 7 6 1 0 . 6 8 4 0 . 6 8 7 0 . 8 9 4La nce tPr ec is i on 0.9 9 5 0 . 9 7 5 0 . 98 0 0 . 9 3 6 0.  9 95 0 . 9 7 5 0 . 9 7 5 0 . 9 5 1 0 . 9 9 5 0 . 9 8 5 0 . 9 5 0 0.  98 0 0 . 9 9 6Reca ll 0 . 6 8 0 0 . 6 7 6 0 . 60 5 0 -  6 30 0 . 6 3 5 0 .  64 2 0 . 5 7 8 0.5 7 7 0 . 6 4 4 0 . 6 4 5 0 . 5 7 2 0. 5 7 6 0 . 8 5 7Fl -sco re 0. 6 44 0 . 6 40 0 . 5 3 3 0 . 5 74 0 . 5 8 1 0 . 5 9 2 0 . 4 8 8 0 . 4 8 7 0 . 5 9 3 0 . 5 9 6 0 . 4 7 9 0 . 4 8 3 0. 8 5 5柳娟等: 基于多模体边度的科学家合作关系预测 2 3 8 1 1 2 期( 续表)网络及评价指标 s , S2 s 3 s, s 5 s6 s7 s 8 S 9 Si〇 S n S, 2 Al lA UC 0 . 6 8 0 0. 6 6 6 0 . 6 6 8 0 . 5 9 2 0 . 6 9 9 0 . 64 4 0 . 6 4 8 0 . 5 9 2 0 . 6 5 1 0 .6 3 5 0 . 6 3 0 0 . 6 4 3 0. 8 3 0JAMAP reci s io n 0 . 9 1 3 0 . 9 5 7 0. 9 2 8 0 . 94 2 0. 9 6 6 0 .  95 7 0 . 9 5 7 0 . 9 2 8 0 . 9 5 7 0. 9 4 2 0. 9 4 2 0 . 9 4 2 0. 98 3Re ca l l 0.  6 6 6 0 . 6 4 2 0.6 7 3 0 . 58 3 0 . 6 4 3 0 . 5 99 0 . 6 4 7 0 . 5 7 7 0 . 6 4 2 0 . 59 9 0 . 6 1 6 0 . 6 3 2 0. 8 1 2F l-s c o re 0. 6 2 7 0 . 5 9 4 0 . 6 3 7 0. 50 1 0 . 5 9 3 0 . 5 34 0 . 6 0 1 0 . 4 93 0 . 5 9 4 0 . 53 3 0. 5 5 4 0. 5 8 5 ?. 8 0 7A UC 0 . 6 1 7 0 . 6 2 0 0 . 6 1 5 0 . 5 6 7 0 . 6 0 7 0. 5 77 0. 5 7 8 0. 5 3 9 0. 5 7 1 0 . 5 70 0 . 5 7 5 0 . 5 7 1 0.7 5 1BM JP rec is i o n 0 . 9 3 7 0 . 9 2 1 0 . 9 3 7 0 . 8 2 5 0 . 8 8 9 0 . 8 89 0 . 9 0 5 0.  6 9 8 0 . 9 3 7 0 . 8 8 9 0 . 8 2 5 0 . 8 7 3 0. 9 4 0Re ca l l 0 . 6 2 1 0. 6 1 5 0 .6 2 8 0 . 5 6 9 0 . 5 9 9 0 . 5 79 0 . 5 8 8 0 . 5 4 3 0 . 5 6 3 0 . 5 7 9 0 . 5 8 2 0 . 5 8 0 0. 7 4 4F l-s c o re 0.  5 6 2 0 . 5 5 4 0. 5 7 0 0 . 4 7 3 0 . 5 3 1 0 . 50 4 0. 5 1 0 0 .4 3 2 0 . 4 7 1 0.4 9 9 0 . 5 0 7 0 . 5 0 5 0 .7 3 5同时? 本文还研究了不同训练集和测试集比例下的链路预测效果, 并将本文提出的多模体预测效果与可定义势模体特征S「, 和S7 以及已有依据模体的链路预测方法QM I17: 和图表示学习的经典方法11〇曲2 乂^[3 1_3 2] 进行比较, 结果如图6 和表4 所示. 图6以BMJ 网络数据的实验结果为例进行说明, 其他5 种网络数据集的结果都是类似的. 图6 实验结果表明, 融合所有模体特征的多模体特征链路预测准确性最高, 其预测精度与另外四种方法相比提升了约5 % ?1 9 % , 说明该方法的预测效果最好. 表4 中选择训练集和测试集的比例为8 :2 , 利用四种评价指标对5 种预测方法的实验结果进行比较, 发现融合所有模体特征的预测结果仍然是最好的. 由于多模体特征不仅考虑了网络连边的方向性, 还融合了表45 种链路预测方法的预测结果N 络及评价指标Q MIn o d e 2 ve cS .S ?所有模体 ̄0 . 6 4 50 . 8 1 60. 9 8 10 . 9 9 00 . 6 5 00 . 7 9 20 . 6 0 50 . 7 8 60 . 6 4 50 . 8 2 40 . 9 6 10. 9 8 70 . 6 4 30 . 7 9 00 . 6 0 10 . 7 8 30 . 7 0 00 . 8 5 10 . 9 3 50 . 9 8 30 . 6 7 70 . 8 2 70 . 6 4 70 . 8 2 40 . 6 9 70.8 9 40 . 9 7 50 . 9 9 60 .5 7 80 . 8 5 70 . 4 8 80 . 8 5 50 . 6 4 80 . 8 3 00 . 9 5 70.9 8 30 . 6 4 70 . 8 1 20 . 6 0 10 . 8 0 70 . 5 780 . 7 5 10.  90 50. 9 4 00 . 5 880 .7 4 40. 5 1 00. 7 3 5Sc i en ceN at u r eN EJ MLa n c etJ A M AB MJA UC 0 . 7 4 9 0 .  7 5 6 0 .  7 1 1P rec i s io n 0 . 98 1 0.  9 8 6 0.  9 8 6Rec a ll 0 . 6 5 3 0 . 7 1 9 0. 6 64F l-s c o r e 0 . 60 8 0 . 7 1 8 0 . 6 2 1AUC 0 . 74 5 0 . 6 8 2 0 . 7 2 0P rec is io n 0 . 9 4 4 0 . 9 7 8 0 . 9 8 3R eca l l 0 . 6 4 7 0 . 6 4 8 0. 6 4 7F l-sc o re 0 . 6 0 1 0 . 6 4 7 0 . 5 9 6A UC 0 . 8 1 9 0 . 7 8 1 0 . 7 4 3Prec is io n 0 . 9 6 7 0 . 9 6 8 0 . 9 7 4R eca l l 0 . 6 8 8 0 . 7 1 4 0 . 6 8 4F l-s c o r e 0 . 6 6 0 0 . 7 1 2 0 . 6 5 5AUC 0 . 8 2 0 0. 7 5 8 0 . 7 9 1Pre cis i on 0 . 9 8 0 0 . 9 8 5 0 . 9 9 5R eca l l 0 . 6 1 3 0 . 7 0 2 0 . 6 3 5Fl-s c o r e 0 .5 4 7 0 .7 0 1 0 . 5 8 1A UC 0 . 7 4 2 0 .  74 9 0 . 6 9 9Pre cis i on 0 . 9 5 6 0 .  97 1 0. 9 6 6Reca l l 0 .  6 5 1 0 .  68 5 0 . 6 4 3F l- s co r e 0 .  60 8 0 .  68 3 0 . 5 9 3A UC 0 .  64 2 0 .  6 7 4 0 . 6 0 7P reci s io n 0 . 85 7 0.  9 3 6 0 .8 89Reca l l 0 .  6 0 2 0.  6 23 0 . 5 99F l-s c o r e 0.  5 3 6 0.  6 1 9 0. 5 3 1网络的多个微观结构( 模体) 特征, 相比其他使用单一特征的方法更充分地利用了网络结构信息. 因此预测性能更高.训练集比例图6 多模体特征与现有方法的对比结采2 3 8 2 计算机学报 2 0 2 0 年4 . 4 不同模体之间的相关性分析传统上,一般使用相关系数求两个变量之间的相关性[ 3 3:.相关系数只能求线性相关性, 不能度量线性关系的斜率和非线性关系, 而且容易受噪声的影响. 因此, 本文采用最大信息系数MT C (M a xi m al I n fo rma t io nCoe f fi ci e nt )- 进行多模体特征的相关性分析. 该方法优于相关系数, 可以判定变量间的函数关系或者非函数关系,进而得出该变量在数据集中的影响力. M 〖C 计算分为三个步骤: 给定/ 和7 , 对变量X、Y 构成的散点图进行£列7+ 行网格化, 并求出最大的互信息值; 然后对最大的互信息值进行!J丨一化; 圾后选择不丨"1 尺度下互信息的M 大值作为M / C 值. 苁公式定义如F:M/C [ X;Y ]=ma x/ [x;y]( 2 9 )| x  || r | <b l og2 ( min C |X| , | Y | ) )其中表示变量X 和Y 之间的互信息,|X|、|Y| 表示在散点图网格中, 分别在X 和Y 方向共被分成了多少段,|X|jYl< B 表示所有的方格总数不能大于B B 取数据总量的0 . 6 或0 . 5 5 次方, 该值是一个经验值. 实验中对任意两个模体/, 和/,之间的冗余性( 也是一种相关性) 定义为M/ C=( /, , /,). MJ C=( /, , /7) 值越大, 说明模体/, 和入间的可替代性越强, 即冗余性越强. M/C= ( /,, 久) 的值为〇, 说明/, 和/, 之间相互独立.本文以N EJ M 网络数据为例, 对1 2 种预测器进行相关性分析, 结果如图7 所示. 从模体之间的相关性可以看出, 相关性较大的模体之间的结构是相似的, 因此根据相关性大小将所有预测器分成了四类. 即图中的四个实线方框. 每一类都包含三种模体. 其中有两个叫节点模体和一个三节点模体. 如果将两个四节点模体中计算角色函数部分( 节点c 、c /0 . 60 . 2HH/ \ abababS:S: SS」-S’.S’‘s’‘S’,.S. 5图71 2 种模体预测器之间的相关性分析及其连边构成的整体) 看成是一个节点. 那么这两个模体的结构与三节点模体结构一致, 说明图3 中基于三节点模体来构建四节点模体预测器并将其简化是合理的、可行的. 此外, 通过分析模体之间的相关性, 能更好地理解科学家合作网络结构形成的机理, 也能为多模体链路预测的模体( 特征) 选择提供选择依据. 在降低算法复杂度的同时不会大幅降低算法性能.5 结论本文针对有向科学家合作网络分别进行/ 单模体边度、双模休边度和多模体边度的科研合作关系预测. 首先利用朴素贝叶斯模型推导出模体边度模型进行链路预测, 解决了传统方法中四节点模体无法使用贝叶斯模型的难题, 也为模体边度模型可进行链路预测的原因提供理论解释. 理论推导发现此类方法不仅对于单模体预测器有效, 对于双模体预测器也有效, 并且与单模体边度链路预测结果相比,双模体的预测性能更好. 然后, 研究了基于机器学习框架的多模体边度链路预测. 通过与QMI 、n〇de 2 ve c和满足势理论的模体预测结果进行比较发现. 融合所有模体特征的预测结果更好, 预测性能提升了约5 % ? 1 9 % , 证明了本文所提方法的有效性. 最后, 应用最大信息系数方法分析了1 2 种模体边度预测器之间的相关性, 每一种模体形式都与科学家之间的合作模式相对应, 发现结构越相似的模体之间的预测性能的相关性越强. 本研究拓展了模体理论的应用场景, 提升了科研合作关系预测的准确性, 有助于进一步理解有向网络的演化机制. 也为有向网络上的其他应用提供了一些新的思路.参考文献[ 1 ]Ze ng A , Sh en Z S . Z h o u J L .e t al . T h e s ci e n ce o fs c i enc e :F ro m t h ep er s p ec t ive o f c omp l e x s y s te ms. P h y s i cs  R ep o r t s ,2 0 1 7 , 7 1 4 ( 1 6 ) : 1- 73[2 ]Fo r t u n at o  S , B e r g st r omCT , Bo r n e r K . e ta l. Sci e n ce o fs ci en ce .Sc i en ce *  2 0 1 8 . 3 5 9 ( 6 3 7 9 ) : e aa o0 1 8 5[3 ] L i uY a n . L i u L i an g , L u o T i an , et  a l .F am i l y i d e n ti fi c at i o n o fco o pe ra t iv en et w o r k o f s c i en t i s t sb as ed o n s u b g r a p h . Sc i e n c ea n d T ec h n o l o g y Ma n a g em en t R e s ea r c h , 2 0 1 9 , 3 9 ( 7 ) : 2 4 9-2 5 5 ( i nC hi n es e)( 刘岩, 刘亮, 罗天等. 基于子图的科学家合作网络家族辨识. 科技管理研究, 2 0 19 ,  3 9 ( 7 ) : 2 4 9- 2 5 5 )柳娟等: 基于多模体1 2 期 边度 的科学 家合 作关系 预测 2 38 3[4]L i u Li an g * Lu o T i an , Ca o Ji- Mi n g . A st u d y o f  th e mu l t i?s c al e s ci en tifi cco l l a b o r a t i onp a t te r n sb a s e donc omp l e xn e two r k s.S ci en ce Re se ar chMa n a g em en t ,2 0 1 9 , 4 0 ( 1 ) :1 9 M 98 ( i n Ch i n es e)( 刘亮, 罗天, 曹吉鸣. 基于复杂网络多尺度的科研合作模式研究方法. 科研管理, 2 0 1 9 ,  4 0 ( 1 > : 1 9 卜1 9 8 )[ 5 ]Li JJ ?Z h a ng  J ? Li  H J ,et a l . Net wo rk a n d comm uni tyst r u ct ure i n a s ci e n t ifi ct e amwit h hig hc r ea t i ve p e r f o rma n ce.Ph y si ca A :  St a ti sti cal Me cha ni cs a n d It s Ap p l i ca t i o n s *  20 1 8 ,5 0 8 ( 1 5 ) ; 7 0 2 - 70 9[ 6 ] Zho u  JL , Ze ng A ,F anY , et a l .I d en tify ingi mp o r t an ts ch o l ar sv i a d i r ect e ds c ie nti f i cc o ll a b o r ati o nn et wo r ks.Sci e n t o met r i c s , 20 1 8,1 1 4 ( 3 ) : 1 3 2 7-1 3 4 3[7 ]Lli L, Z h o uT . Link p red ictio ni ncomp l e xne t wo r k s; Asu rv ey .P hy s ica A : Sta tis tica l Me ch a ni c s a n d it s Ap p li ca tio ns ,2 0 1 1 ,  3 9 0 ( 6 ) : 1 1 5 0- 1 1 7 0[ 8 ]L iiLi n - Y u a n . Li n k p red i c tio n o n  comp le xn et w o rks .  Jo u rna lo f  Uni v e r sit y o f  El e ct r o ni c Sci en ce a nd T ec h n o l o gy o f C hina ,2 0 1 0, 3 9 ( 5 ) :6 5 X- 6 6 1 ( i n Ch i n e s e )( 吕琳媛. 复杂网络链路预测. 电子科技大学学报,2 0 1 0 ,3 9 ( 5 ) :  6 5 1 -6 6 1 )[ 9] Z h a n g Bi n , MaFe i- Ch en g . Ar ev i e w o n l i n k p red i c ti on  o fs c i en ti fi c kn owl edg e n e t wo r k . J o u rn al  o f Li b r a r y S ci e n c e i nCh in a ,  2 0 1 5 ,4 1 ( 3 ) ; 9 9-1 1 3 ( in Ch i n es e)( 张斌, 马费成. 科学知识网络中的链路预测研究述评. 中国图书馆学报, 2 0 1 5 ,4 1 ( 3 ) : 9 9 - 1 1 3 )[ 1 0 ]L ib e n- No we l l  D *K l e i n b e r g J.Th e li n kpr e di cti on p r o b l emf o r  so ci a ln et works .J o u rn al o f t he Am er i c anSo c i et y fo rI nf o rmati o n  Sc i en c e a n d Te ch n o l o g y , 2 0 0 7 , 5 8 ( 7 ) :1 0 1 9-1 0 3 1[ 1 1 ] Z ho u T ,  Li iL ,  Zh ang  Y C. P r e di ct i n g m is si n g  li nk s v i a l o ca li nf o rma ti o n .T he Eu ro p ea nP h ysi ca l Jo u rn al B-C o nd en s edMa t t er an d Comp l ex  Sy s t ems,2 0 0 9, 7 1 ( 4 ) : 6 2 3-6 30[ 1 2 ]Ca nni s tr a ci  CV , Al a n i s- Lo ba to G , Ra v a si T .Fro mli nk-p re di cti o n i nb ra in co n n ec tome sa nd p r o te i n in t era ct ome s tot he lo cal- commun i ty-p ar ad igm i n co mple x ne two rks. S ci en t i fi cR ep o rts,2 0 1 3 ,  3 ( 1 6 1 3 ) : 1-1 3[ 1 3]G ro ver A , L esko ve cJ. n o d e2 v ec :Sc al a b l ef e at u re l ea r n i n gf o rnet wo r ks / / Pr o ce ed in gso f t he2 2n dACMSI G KD DI nt ern at i o na l Co nf er en c e o nK nowl e d ge Di sco v e r y a n d Da taMi n i ng.Sa nF ra n ci s c o ,U SA ,2 0 1 6 :8 5 5-8 6 4[ 1 4]K o v ac sI A , LuckK , Sp i ro h n K , e ta l . N et wo r k - b a sedp r e d i cti o no f p ro te i ni n t e ra ct i o n s. N a t u r eComm u ni ca ti o ns *2 0 1 9 , 1 0 ( 1 ) :1- 8[ 1 5]Li u Z ,Z ha ngQM , L i iL , et al . Li n k p r e d i ct i o n i n co mp l exne two r ks : Al o ca l Na i v eBa y esmo d e l . Eu r o p h y s i csLe t te r s ,2 0 1 1,96 ( 4 ) : 4 8 0 0 7[ 1 6] W u J H ,Z ha n g G J , Re nY Z , e ta i. We i gh t e d l o ca l Na i veBa y esl ink p r e di ct i o n. J o u rn a lo f I n fo rm a ti o nPr o ces si ngSy s t ems , 2 0 1 7 , 1 3 ( 4 ) :9 1 4-9 2 7[ 17 ]H u X X, Li u S X , Cha n g  S ,  et a l . A qu a d mo ti fs i nd e x fo rd i r e ct ed  l i nk pr edi cti o n . I EEEA cc ess, 2 0 1 9 , PP( 9 9 ) : 1-1[ 1 8]J i ao  Z J ,W an g H ? MaK , e ta l . Di r e ct e d co nn e ct i v i t y  o fb r ai n d e fa u l t n et wo rks in  res ti n g  st a te  u si n g  G CAa nd m o tif.Fr o n t i e rs  i n Bi o sci e nce?  2 0 1 7,  2 2 ( 1 0 ) : 1 6 34 - 1 6 4 3[ 1 9] Ag h ab o z o r giF ?K ha y y amb as hi MR . An ewsimi l a r i t ymea su r e  fo r  li n k pre di ctio n b as ed  o n l o ca l st r u c tu r es i n so ci a ln e twor k s. Phy s i caA : St atisti cal Mechani cs and I ts Ap p licati ons ,2 0 1 8 , 5 0 1( 1 ) : 1 2- 2 3[2〇]Mi l o R , S h e n- O r r  S *I t zko v i t zS , e ta l .N et w o r kmo ti f s:S i mp l e b u i l d in g  b l o ck so f  comp l e x n e t wo rk s. Scien c e , 2 0 0 2 ,29 8 ( 55 9 4 ) :8 2 4 -8 27[ 2 1 ]M il o R ,It zk o vi t zS ?K a sh t anN ?eta l .S u p er f a mi l i e sofd e s i g ne d an d  ev o l v e dn e t wo r ks . S ci e n ce? 2 0 0 4 , 3 0 3 ( 5 6 6 3 ) :1 5 3 8 -1 5 4 2[ 22 ]Han Hu a, Li uWa n- Lu, Wu L i n g- Ya n.Th e mea su r em en t  ofco mp l e x net w o r k b as e d o n  mo tif . Ac ta P h y si ca S inica* 2 0 1 3 ,6 2 ( 1 6 ) : 1 6 8 9 0 4 ( i n  Chine se )( 韩华, 刘婉璐, 吴翎燕. 基于模体的复杂网络测度量研究.物理学报, 2 0 1 3, 62 ( 1 6 ) : 1 6 8 9 (H )[ 2 3 ]Z h a n gQ M? Lti L ? Wa ngW Q , et a l .Po t en ti al t h eory f o rd i r e ct ed n e t wo r ks. PLo S On e ,2 0 1 3 ,  8 ( 2 ) : e5 54 3 7[ 2 4 ]X u Xi ao -K e, X u Sh ua n g , Z h u Y u- Xi ao , et a l .Li n k pr ed i ct ab i l ityi ncomp l ex n e tw o r k s .Comp l e xS y st em san d Comp l e xi t ySc i enc e , 2 0 1 4 , 1 1 ( 1 ) : 4 1-4 7 ( i nC hi n es e )( 许小可, 许爽, 朱郁筱等. 复杂网络中链路的可预测性. 复杂系统与复杂科学, 2 0 1 4 , 1 1 ( 1 ) : 4 1- 4 7 )[ 2 5 ]LU L i n - Y u a n tZ h o u Ta o .Li n kP r e d i cti on . Beiji n g : Hi g h erEd u c at i on P r es s , 2〇1 3 ( i n Ch i n es e )( 吕林媛, 周涛. 链路预测. 北京: 高等教育出版社, 2 0 1 3 )[2 6 ]Z h a n g Q i an -Mi n g . St r u c t u r eA na l y si s a nd Li nkP r e d i ct i o n i nComp l e xN et w o r k s[ P h. D. dis ser ta t i o n ] . Univ er s i tyo fEl ect r o n i c S ci e n ce a n d Te ch no l o g y o f  China * Ch e ng d u , 2 0 1 6( i n Ch i n ese )( 张千明. 复杂网络结构分析与链路预测[ 博士学位论文] .电子科技大学, 成都, 2 0 1 6 )[ 2 7 ]Chi a ng K- Y ,N a ta raja n N ? Tewa ri A , e t al .Exp l o i t i ng l o ng ercy cl e s f o r l i n k p re d i ct i o n  i nsi gne d n et wor k s/ / P r o ce ed i ng s oft he 2 〇t h ACMCo n f e r en c eo n In fo rm at i o n a n d K no wl e d g eMa na g ement . Gl as gow , UK ? 2 0 1 1 : 1 1 5 7-1 1 6 2[ 2 8 ]V a zq uez A , D o b r i n R , Se r g iD , et a l. T he t o p o l o gi ca lre la ti o ns hi p be t w ee n th e l arge - s ca l e a t tr i b u t esa n dl o ca li nt e racti o n pa t t er n s  o f c omp l e x n e t w o r k s . P r o c e ed i n gs o f  th eN a ti o na l Ac ad e myo f Sc ie n ces o f t h e Un it ed S ta t eso f Ame ri ca ,2 0 0 4, 1 0 1 ( 5 2 ) :1 7 9 4 0 -1 7 9 4 5[2 9 ]Li Y e- Zi ? Wa ngZ h e n- Y o u,Z ho uY i-Lu?eta l .Thei m p r o ve me nt a n d ap p li ca t io n  of X G Bo o s tm et ho d  b as ed o nt heBa y es i an o p t imi za ti o n. J o u rnal o fGua ngd o ng Univ e rs it yo f T ec hno l o gy * 2 0 1 8 , 3 5 ( 1 ) : 2 3 - 28 ( i nC hi ne se )( 李叶紫, 王振友, 周怡璐等. 基于贝叶斯最优化的XG Bo ost算法的改进及应用. 广东工业大学学报, 2 0 18 ,  35 ( 1 ) : 2 3-2 8 )[ 30 ]Li Zha n-S han ,Li u Zha o-G e ng ,D i ngGu o- X u a n ,e ta l.F ea t u re se lec ti on a l g o r it hm b as ed o nXGBo o s t. J o u r na l o nComm u ni ca tio ns , 2 0 1 9 , 4 0 ( 7 ) : l-8 ( i nC hi ne s e )2 3 8 4( 李占山, 刘兆赓, 丁国轩等. 基于X G Bo o s t 的特征选择算法. 通信学报, 20 1 9, 40 ( 7 ) : 1- 8 )[ 3 1 ]T u Cu n- Ch a o , Ya ng  Che n g , Li u Z hi- Yu an , e ta l . N e tw o r kr e p r e s en t atio n l e a rnin g : Ano v e r view. SC IE N TI AS I N ICAI n f o rma ti o n i s , 2 0 1 7 ,  4 7 ( 8 ) : 9 80 - 9 9 6 ( i n C h i ne s e )( 涂存超, 杨成, 刘知远等. 网络表示学习综述. 中国科学:信息科学,2 01 7,4 7 ( 8 ) : 9 8 0- 9 9 6 )[3 2]Z h a ng J in - Z hu . Y uWe n - Q i a n . L i u  J i n g-J ie , e t a l.P r e d i cti n gr es ea r c h co l l a b o r a ti o n s  b as ed  o n n e t w o r k e mb e d d i n g .J o u r n a lo f t h e Ch i n a So ci e t y f o r Sc i en c ea n d Te c h n i ca l I n fo r m ati o n ,2 0 2 0 年2 0 1 8 , 3 7 ( 2 ) :  1 3 2-1 3 9 ( i n Chi n es e)( 张金柱, 于文倩, 刘菁婕等. 基于网络表示学习的科研合作预测研究? 情报学报, 2 0 1 8,  3 7 ( 2 ) : 1 3 2- 1 3 9 )[3 3 ]M u d e l se e M. Es tim atin g P ea rs o nfsc o r re l a tio nco ef ficie n twith b oo t s t ra p co nf i d e nce i n te r v a l fr o mse ria l l yd e p e n d e n tti m e se r i e s .M at h e m ati ca lG eo l o g y , 2 0 0 3 , 3 5 ( 6 ) :6 5 1- 6 6 5[3 4 ]H s u WH .G en et i cw r a p p e r s fo r f ea t u r e s el e ct i o n i n d ec i si o ntr ee i n d u c tio n an d  v ar i a b l e o r d e ringi n Ba yesian n et w o r kst r u c tu re l ea r ni n g .I n f o rma ti on S c i e n ce s , 2 00 4 , 1 6 3 ( 1 ) :1 0 3 -1 2 2计算机学报L I UJu a n * M. S. ca nd i d a t e .He rr e s e a r c h i n t e re s t si n c l ud e s o ci a l n e t wo r ka n a l y s i s a nd li n kp re di c t i o n .L I UY a - Fa ng .M . S.H e rr e s e a r chi n t e r e st si nc l u d es oc i a l n e t w or ka na l ys i sa nd da ta  vi s u a li za t i o n.XU S hu a ng . Ph .D .,a s so c i a t ep ro f es s o r. H e rc u r re n tr es e a r c h  i n t e re s t s i n clu d e bi g da t a a nal ys i s a n d pr o c e s s ing .X U X i a o - K e .P h .D ., p ro fe s so r. H i sc u r r e nt re s e a r c hi n t e r e s t s in cl u d e co mmu n i t y de t e c t i o n ,li nk  pr e di ct i n g , a n dd a t amin in g on c omp l e xn e twor k s.Ba c kgr ou ndI n re c e nt  ye a r s,t h ep re d i c t i on of  s ci e n t i f i c  co l l a b or a t i o nrel at i on s h i p ha s b ec o me a h ot r e s e a rc ht opi ci nt h e f i e ld ofs c i e n c e ,be c au sei t is s i g ni f i c a n tf o ru nd e r st a nd i n g t h ec oo pe ra t io nme c h an i s mamo ng s c i e n t i s t s a n dt h ee volu t i o nme c h a n i sm of sc i e nt i f i cre s e a rc h n e t wor ks . L i n kp re d i c t i o nba se d o nn et wo rk s t r u c t ur e i n f o rm a t i o n c a n be d i v i d e di n t ot w ok i nd so f m et ho ds: gl ob al  i n f or ma t i o na nd loc a l s t r u c t u res im ila r it y . A l t h o ug ht h etwok i nd s of me t ho ds h a ve a c h i ev e de f f i c i e nt p r e d i c t i on r e s ul t s i nt he u n di re c t e dn e t w o rk ,t h e yca no n l y u s e t h eu n d i re c t e de d g ei n fo rma t i on a nd c on s i d e rt ha t  t he i n d i vi d u a ls t a t u si seq u a l . I n t h ep re d i c ti on o f s c i e n t i f i cco l l a b o rat i o nr e l a t i on s h i p ,iti simpos sibl et od is tin g uis hscie n t i s t sa s t h e f i rs t a ut h o r,co r r e s po n d i ng a u t h o ro ro r d i na r ya u t h orb y t he u n d i re c t e d ne t wo r k , w hi c hw i l l l os ekeyi n fo rmat i o n s uc h as  sci entifi c infl uenc e and f ut ur e po ten ti al,a nd c a u s e t he d e v i a t i o n to s c i e nt i f i c ra n ki ng a n da n a l y s i so ft h e iri n f l ue nc ei ns ci e nt i f i cf i e l d s .I n a dd i t i on ,s t udyi ngu n e q ua l c o op e ra ti o ni nu n di re c t e dn e t wo r ks wi ll ha v eace rt a i ni mpa c t  on t h e un d e rs t a n d ing o f scien t i f i cre s e a rc hco ope r a t i o n.Th e r e f or e,ap r e d i c t i onm e t ho db a s e donpo t e n t i a l t h eo r yi s p ropo s e d fo rl i n k pr e di c t i on ofd i r e c te dne t w o rk s.B u tt h i s me t ho ddo e s no te x te ndt hep ot e n t i alt h eo r yt ot h e mot i f t he o ry ,a n dd oe s no t co mp re h e ns i v e l yc o n si de rco mp re he n s i v e i n fo rma t i o no f mu l t ipl emo t i f s .I n t h is s t ud ywe c on s t r uc t t wo pr e di ct o rs u s i ng t he e d ged e g re e o f s i ng l ea n d du a l mot i f s.Th e n , t h e li n k pr e di ct i o nm e t ho d of e d ge  de g re e s o f mu l t i p l e mot i f su si n g a ma c h i n ele a rn i ng f rame wo r k i s propo se d .C o mp a re d w i t h t hepr e dic t io nr e s ul t s of QM I , n od e 2 v e c a n dt h emo t i fs s a t i s fy i n gp ot e n t i a lt he o ry ,t he n ewp re d i c t o r sha ve h i gh e rp e rf o rma n c e f or l i n kp r ed i c t i on, t he  pre d i ct i on a c c ur a c yi s i nc r ea se d5 %?1 9 % .Our f i n di ng se x pa n d th e a p pli c at io n s ce n a ri os o f mot i f  t he or y ,wh ic hc a np r omo t eo ur un d e rs t a n ding o f th ee v ol uti onme c h a n i s m o fs c i e n t i f i c c ol l a bo ra t i o n ne t wo rk s .T h ewo r kw ass up po r t e d b yt heN a t io na lNa t u ra lSc i e n c e Fo u n da t i o no f C h i n a ( 6 1 7 7 3 0 9 1,6 1 6 0 3 0 7 3 ) ,t he K e yR es e a r c ha n dDe ve lopme n tP l a no fL i a on i n gp rov i n c e( 2 0 1 8 1 0 4 0 1 6) ,t h e Li a o n i n gR ev i ta li z a t i o nT a l e n t sP rogr am( X LY C 1 8 0 7 1 0 6  ) ,a n dt heP r o g r amf or t h e Ou t s t a nd i ngI n no va t i ve Tale n ts o f H i g h e r Le a r ning I n st i t u t i on so f L i ao n i ng( L R2 0 1 6 0 7 0 ) .

[返回]
上一篇:公共服务热线中基于地域自适应的突发事件实时检测方法_麦丞程
下一篇:基于DEM辅助后向投影模型的InSAR高程反演方法_胡晓宁