欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

SCI期刊论文
当前位置:首页 > SCI期刊论文
基于目标导向行为和空间拓扑记忆的视觉导航方法_阮晓钢
来源:一起赢论文网     日期:2021-11-07     浏览数:426     【 字体:

 第4 卷第3 2 0 2 1 年3 月计算机学报C H I N E S EJ O UR N A LO FC OM P UT ER SVo l .4 4No .3Ma r. 2 0 2 1基于目标导向行为和空间拓扑记忆的视觉导航方法阮晓钢李鹏朱晓庆刘鹏飞( 北京工业大学信息学部北京1 0 0 1 2 4 )( 计算智能与智能系统北京市重点实验室北京1 00 1 2 4 )摘要针对在具有动态因素且视觉丰富环境中的导航问题, 受路标机制空间记忆方式启发, 提出一种可同步学习目标导向行为和记忆空间结构的视觉导航方法. 首先, 为直接从原始输人中学习控制策略, 以深度强化学习为基本导航框架, 同时添加碰撞预测作为模型辅助任务; 然后, 在智能体学习导航过程中, 利用时间相关性网络祛除冗余观测及寻找导航节点, 实现通过情景记忆递增描述环境结构; 最后, 将空间拓扑地图作为路径规划模块集成到模型中, 并结合动作网络用于获取更加通用的导航方法. 实验在3 D 仿真环境D Mla b 中进行, 实验结果表明, 本文方法可从视觉输人中学习目标导向行为, 在所有测试环境中均展现出更高效的学习方法和导航策略, 同时减少构建地图所需数据量; 而在包含动态堵塞的环境中, 该模型可使用拓扑地图动态规划路径, 从而引导绕路行为完成导航任务, 展现出良好的环境适应性.关键词目标导向行为; 深度强化学习; 碰撞预测; 时间相关性网络; 空间拓扑地图; 动作网络中图法分类号T P1 8DOI号1 0 . 1 1 8 9 7 /S P. J .1 0 1 6 .2 0 2 1 . 0 0 5 9 4AVi s ualN a vi g at i o nMe th odB as edo nGo al- Dr i venB eh a vi o ra n dS pa c eT op o l o gi c al Memor yR UA N Xi a o Ga n gLIP e n gZ H UX i ao Q i n gLI UP en gF e i(. Fa ul ty of Info rma t io n Te c h n ol o gy?,Be ijin gUn iv e r s i t yofTe c h n o lo gy ?,B e ijin g1 0 0 1 2 4 )( B eijin g K e yLa bo ra t or y of Comp u La L io na l In te l li ge n c e a n d In Le l lig e n L Syste m ?,B eiji n g1 0 0 1 2 4)Abs tra ctE v e r yo n ek now s i t is i mp o s s ib l ef o r a g ent s t o r e a c ht h eg o a le ff i c i e nt l yun t ilith a ss uf fi c i en tl y exp l o r e dt h ee nv ir o nm e nto rc o n s t r u c t e dco g n i ti v emo de lo f t h ew o r l d ,b utt h ee s s en t ia l q ue s t i o n i sh ow t og en e r at e g o a l dr i v en b eh a v i o u r .O r g a n i sm s c a n s p o n ta n e o us l ye xp l o r et h een v i r o n m en tw i th r a r eo r d e c ept iv er ew ar da n dbu i l dma p l i k er e p r e s en ta t i o nt o s up p o r ts ub s e qu en ta c t i o n s , s uc ha s fi n di n g fo o d , s h e l t e r s o r ma t e s .Wha tw e w a n tt o k n owi s w h e t h e rt h er o b o tc a ni mi t a t es uchc o g n it i v eme ch a ni s mt ocom p l e t en a v i g a t i o n al t a s k s ?O bv i o us l y ,r e l yi n g o nh i g hp r e c i s i o n s e n s o r s  a s a s o ur c e  t o r e c a l l t h e  s t r u c t ur e o f en v i r o n me nt i s no t p r a c t i c a li n r e a lw o r ld , s o w e p e r c e i v e th e  s ta t e s p ac e a n d l e a r nco nt r o lp o li c y wi t h v i s u a li n p ut s . A n dt ode alw i tht h ep r o bl em s s te mf r omdi men s io ndis a s t e r ,t h e de e p l e ar n in g i sa l s o us ed ino urm e t h o d.T he n a v i g a t i o ns y s t e ms d ev e l o p e di n r o bo ti c s c a n t yp i c a l l yb e di v id e d i n t o t w oc l a s s e s: o n e r e a c ht h eg o a lbyen c o di n g t h es t r u c t ur eo f e nv i r o n me nt , i tc a nut ili z em ul t i p l es en s o r i nf o rm at i o n a si n p u ta n dp r o v i de h i ghqu a li tye nv i r o nm en tma p s; an d th e o t h e r o n e i sma p l e s s a p p r o a ch , w h i c hma i n ta i na co n t r o l p o l i cyi nt h el e a r ni n g p r o c e s s an du s e  it t o fi n i s hg o a lr e a c hi n g t a s k s , e a cho ft h emh a st h e ir p r o s a nd co n s . In t hi s p a p e r ,w e p r o p o s e d a v i s u a lna v i g a t i o nme t h o d w hi c hc a nl e ar ng o a l dr i v en be h a v io ra n de n co d es p ac es t r u c t u r es y nc hr o n o us l y. Fi r s t l y ,i no r d e r to l e ar n收稿日期:2 0 2 0 0 5 0 2; 在线发布日期:2 0 2 0 l l 0 7. 本课题得到国家自然科学基金( 6 1 7 7 3 0 2 7 ) 、北京市自然科学基金( 4 2 0 2 0 0 5 ) 、北京市教育委员会科技计划一般项目( KM2 0 1 8 1 0 0 0 5 0 2 8 ) 资助. 阮晓钢, 博士, 教授, 主要研究领域为自动控制、人工智能及智能机器人.E ma il :ad r xg@ bju t . ed u. c n. 李鹏, 博士研究生, 主要研究方向为深度强化学习及机器人导航. 朱晓庆( 通信作者) , 博士, 讲师, 主要研究方向为智能机器人及机器学习. E ma i l: al ex . z h u x q@ bju t . e d u . c n . 刘鹏飞, 硕士研究生, 主要研究方向为人工智能及机器人导航.阮晓钢等: 基于目标导向行为和3 期 空间 拓扑记 忆的 视觉导航方法 5 9 5cont rol poli cyfromrawvi s ua li nform at ion ,wet ak ed ee p r ei nf or cem ent l ea rni nga s ba s i cna vi gat i onfram ework ,i tpr ovi d es a ne nd-t o- en df rame work an da l l owo ur a pp roa ch di r ec tl y pr e di c tc on tr ols i gn a l fr omh i gh -d i me ns i ona l s en so ryi n pu t s . M ea n whil e ?d ue t ot h e en vi ron m en t con t ai n s a m uchw id er va r i e t yo f po s s ib l e t ra i ni n gs i gn a l s ,a na u xili ar yt a s knam ed co l li s i onp r e di ct i on i s a dd ed t oth em od el .T h en ,i n t hep roc es s of  ex pl or a ti on ,t h e a ge nt t h rou gh ou t t he e nv ir onm en t n um er ousti m es  an do bs er ve a l otof s t a t es , b ut m uc hof th e ma r e r ep et i ti v e ,t h e t em p ora lcor r e l a ti onne t work i su s e dt or e mov et h es er ed un da n tob s e rva t i ona n ds e ar chf orwa ypo in t s .B ec a us et heva r i ou sp e r sp e ct iv eof a ge n t,i n s t ea d of us i ngh an d- d es i gn ed f ea t ur e s , weu s et e mp ora l di s ta n ce ,w hi c hon l yr e l at e d to en vi ron m ent s t ep st oc omp ut e t he s i m il ar i t yb e twe e ns ta t e s .A ndi n s pi r e dbyt h e r e s e ar ch e s ab ou t co gn it i vem ec ha n i sm ofa n i ma l s ?we l ea rn e dt h at m a nymamm al s a r e a bl etou t i l iz ean ob s e rva t i on ,e sp ec ia l l y th e on ei n cl ud el a n dma rk s ,t o r e pr e s e n t an ei gh bor i n gs t at esp a ce ,t h us  en c odi n gt h ee nv ir onm en t i na s i m p l er a n de ff i ci e nt wa y.S owe u s ew ay po in t s ,wh i chdi s cov er e di ne xp l ora t i on s e qu en c es  an d ca nr e pr e s e n t an a dj a c en t s t at e s pa ce t ha t wi t hi n a ce r t ai nte mpora l d is t a nce ,t ode s cr ib et h es t ruct ur eofe nvir onm ent gra dua l ly .Fi n a l l y ,t h es pa c et op ol og i ca lma pi si nt e gra t e di n t ot h emo de la sapa t hp l a nn i n gmo d ul e , a n dcom bi n eswi t hl oc omo ti onne t work t oobt a i na m or eg e ner a ln a vi ga t i onm et h od.T h ee xp er i m en twa sc ond u ct edi n3 Ds i m ul a t io nen vi ron m en tDM l a b.Th ee x per im e ntr es u lt ss howt hi sn a vi ga ti o nme th o dcan l e arngoa l- dr iv en b e ha vi or  from vi su a l in p ut s ,a nd sh owmor ee ff i ci e nt l e ar ni n ga pp roa ch a n dna vi g a ti onpoli cyi n a ll t e s ten viron me nt s ?an d r ed uce t he am oun tof da ta r equi r ed tob uil d ma p.F ur t h erm or e ,by pl a cin gt he ag ent in dyn am ica l l yb l ock ed envi ronm ent, th em odel ca nt ak ea dva nt a geof  top ol ogic alma pto gu i dede t our b eh a vi ora n dc omp l e te n av i ga ti o na lt a sk s ,sh owi n gb e tt e re n vir on me nt a lad a pt a bili t y.Ke ywor dsgoa l- dr i v en b eh a vi or ;d ee pr ei n f or c em en tl e ar ni n g ;co l l i s i onp r e di ct i on ;t e mp ora lcor r e l at i onn e twork  ;s pa c et o pol o gi ca l ma p;l o como ti on n e t worki 引言箭物, ?括人鐵在内s 梅空间认知和行翁规划方面具有非凡的能力, 与其对应的导航行为也在心理和神.经科学■ 中得到广泛研究I MS 年,TT 〇l m?m[ 3 ] 提:出,“ 认知她題《co gn it ir e m雄” 概念用T:说明物理雜# :的_, 自此, 认知地图的存隹和形式一直饱受争议. 近年来, 通.过将甩极放置:布啮齿类动物脑中及研究其电生理记录, 位置细胞 自身动作线索C p k e e ce l ls )? 网格细胞< gr . i dal l s 》和头謝向姻胞( H 麵4- D ii 6c. tio ned l s, H D #t l l s )[4】等多:神'有:碧;环. 場编码的细胞樽以被人们熟知. 在空间认知过.程中, 每种钿胞有壤驗蒙_ 能, 它们猶瓦会惟完成对状霧空间的表达, #类细胞连接如? 1 所示[ 5 ]. 此外 < 坯有证据_明海马体-内嗅皮层脑区不仅参与空间记忆,在规划路径中也具有重要作租.图1 辱航姻胞逵義丨西相比之下。移动机器人导航系统通常以同步定feft( Sim u l ta n eo li sL ocal i za t io n an dM ap p i n g ,SLAM)m * 主要实现方式, 该类方法可利用传感器数据( 例如: 激光1程计、声呐、视觉等) 并结脅机器人自身运动價.息构建未知环境, 的度璧地图:以实现_主蕃航, 在A:霧SL AM 方— 中与傘文立怍議意相近5 M 计導机攀报 :_1苹的:是视觉 SLAM (: Vi s tta l SLAM, y SLAM> :攥濯[ 7 ],该方法主繁'以视觉感知环境信息, 并通过摄像机姿态和多视角几何理论构建地图. 为提?高数据处理速度,一画VSL AM 算法会优先提取图像特征点( 例如: SI F T[S]、OR B[9]K 然后通过匹配特征点寮成帧间估计和闭环捡测》基于SLAM 的方法可提供高质?量环境地图, 钽此类方法致力于隹置雅算和地图构建; 往往需要额外的姿态或自身运动信息, 且对动态环境缺乏通t 性.雜度强化參辱( IJeftf R e i n fo'r cfime fttLe'at ni ft g ,DR Lji> l: 邊_ 慶參渴( Dfeep LMrii i n g ,DIJJ 1] 和彌化攀:习(, Re hi f〇r,ee to e: it L feSi ni ng<R L)网; f| _:組成:,它的出现在一定程度上推动了机器拟人化的发展.由于其具有端到端的争习: 框架, 深度强化学习也被广泛应用于导航领域, 并在高'維空间中展现出良好-的适应性? Z h u 等人[ 1 31 将预训练的Re sNet 与具有sk m ese 架构的网络模型结会s 实现以目标驱动的视觉导航. 弁在模型中増加目标适应性训练? 使智能体对新員标具有更好的泛化能力. 钽这种方法本质上依赖于纯反应行为. 在复杂环埯中性能下降明显-M mh 等人[ 1 4 ] 提进一种基于策略的异步强化学习方法潘刹用该#法训练结合长短时记忆网络( LongS li o t tTT e tt nMeta o ryNg t ww k , LS TT M 》’的犧耀密3 D 迷宫中学习导航,实验结果表明该模滅可存储环境相关信息并莸得更加通用的控制策略, J atober g暮JJ 1 53验fi£多种辅逝任备对e? N L S TM 欐型的影晌r在: Atsri 测试环簾中, 通过对D Q N t Dee pQ-Efctw Q rk s 、,:深度Q网:絡:)[ 1 6 ] 和UNR EA LAgen t的比较, 进一歩SEITT LST M 的记忆功能/_r〇ws ki等人[ i 7] 构建一种具有堆叠藥构的模型s 在结合深度预测和W 环检测后s 智能体学习速度和导航效專显著提齊? 茼时在实验过程中, 是否存在L S TM 及L gTM 梟数对导航性能的參响也得到验证. 模型中包含逋用L gTM 的系统可储存大量鈈境猜息* 即使是在回合间随机敢置目标的3 D 环境中也能很好地完成导航任备- 然而该秀方法的控制策略只针对待海坏境有效, 当通路中出现堵塞或障碍物时* 智能体讀再次映射该路径/因此有很多研究人员试圈'通过对空间结构进行编码以更好地应对_埯变化? 于乃功等人[ 1 S] 模仿海马结构牵问认知机理构建细胞吸引子模型, 认而实现构建精确环境认知地图. P a rimtto 等人_ 使甩二维记忆图储存环境信惠, 利用该抽象地图可寇成路径輕划任务. Gup ta等人t 2° ] 引人一种新颖的神经导航结构, 该方法可从第一人称视角學习环境■表怔?Sa v i n时等人[2 1 ] 则通过半参:鐵有? 扑记忆( Sem i- P aram et r i c TT o p o l cig i c a lMe mo r y^S PT M) 构建:未知环墙的拓扑地图, 并使甩该地H 驱使智能体寻找目标. 以编码环境为导航实现方式的耸法可通过构建空间类_ 表征引导目标导向行为, 受堵_ 和障碍物泰响较小* 但路搭慮针对每次任务进行规划, 即使在全连通环境下也是如此, 这无疑会降低算法的导航效率.综上所述, 深度強化学苺为裁取控制策略和编码坏鐵:靖:构提供了_ 种方徵, 本文在此基础上轉菌种导航形式结含, 提出一种可-隹学《目标导向行为过纖中构建空间拓扑地图齒导航方法? 其中, 目#导向'行为由* 有:深度强化学方架构的智能体在环境中学习所棒/而拓扑地图则基于其精景记忆和观测之间的时间距离构建. 运动网络fe规划模块的补充, 它可以帮助智能执行所规划的路径-2 深度强化学习简介深度强化学习将深度、攀S 的视觉感知能力与强化学习的行动规划能力融为一体, 构建了一种对视觉?世界具有更高层次理解的端到端模型. 在相关研究中, 裸度强化学习的基本架构包括'DQN0 63 和深度递归网雜Recur r ent Q N e t WQ: r ks , D RQN)[ 2 2].2 . 1 深度Q 网络D Q N 是第一个被怔明可在多种环攙中直接通过视觉输入学习控制策赂的强化学习算法, 其摸型如图2 所示, 输入为智能体观测到的连续4 帧图像?状态0 0卷积层2卷积层3卷积层1图2D_檩遵标准强化学习算法假设智能体通过离m 时间步与环境迸行交互, 其目#是学眉回合内可最大化奖励的策赂. 在海一个时间步^ 智能体会根椐, 前状_ &和蒙赂7T 逸择动'作在执行动作B霖痛奖励n并进入下一状态+ 1 . 每一个时间步的■ 回报尺定义为累积折扣奖励:T( 1 )i'— l其中, 丁海回合愈大吋间# S/ 为当翁吋间步, f 为起始时间步, yel 〇, 1 ] 为折扣因子, r,' 为当前时间步所获?奖励. D CJ N'逋过动作:值函数(3等习控制策略, 定K娆爾等: 基f_ 顯等向行为3 期 ■空 间第朴记忆的班鹙导航 操 5 9 7义为給定策略7 T 和状态/下执行动作& 后的期襲回报:? ii-:)  ̄E H-R i I s, — 5 ?^(  2 )其中和? 发If?时间歩状态茇动作, 在g 义Q*的輝时定义最■动作氇爾敷<2**挪)=m ax QrC y , d) ,借助贝尔曼方馨可迭代更新动作值.涵数;Qi + j ( s ,-.i a;3 = ES' \ r-\ ̄ym& y^ Qi t s. a") ](3)其中和^ 为下一时间步状态°及动作. 当;一〇时,Q,Q 'D QN 使甩参数为5 的_线性.涵数逼近器一卷顧神: 鋒_ 络: ( Cie nv cd u t ici na lNeura l : Mfet wsr k s;C N N s )—拟合Q 像此时同禅可以利用贝尔憂等式棄新参数(? , 定义均方'误差损:失函数:L, (齡二氏,? . , [ (_v ,Q&,Cs ! d J )2]Qi)眞:中* 1 为当前时陶步, 5 ,= r + y为目标. Qq G . d ) 为当前网络Q 值. 通;4 敵分损失涵数可痔梯度吏新值^[ C g<i^ Qtfi i s ^a^ V^Q^C s ?' ?3]C5 )逋过在环境中学: 习不断减小损失函数, 使得Q (  s, 《; 扔你Q-( s ., a ) , 实标上DQ N.并不是第一个尝试利用神经网讚实现强佑学习的模型. , 它的前身、是神蠢拟合Q迭代 CR eura l FitedQ it emii〇n , :NF Q)[ 2 3 ],其架构也与La n g e 等人M 提出的模型密切相关. 而D QN 性能之所以如^ 此突. 出, 目标两祭和绶验回放2 6] 有不可'磨獅货献‘2. 2 深度递归Q 网络D Q NB 被证明能够在不同A tari 游戏上从原始视觉输人学习人类级别的控制策略.. 正如它的名字一样,DQ 8'根据状态中每一个可能动作的Q 值C. 或回报) 选择动作5 在0 值估计足够准确的情况下; 可通过在每个时间步选择Q 值最、大的动作获取皋优策略. 然而; 由?2 可知,D QN■的输人由智能体遇到的4 个状态组成, 这种从有裉状态学习的映射、本身也是有限的, 窗此, 它无:法:掌握那些:要求玩家记往比过去4 个状态更远事件的游戏. 当使用DQN 在_分可藤马獻If 夫决策过表(Par t i al l yOb serva bl eM ar ko v De ei s ion P roces s , PQMDP f 2 7] 中學牙緯制策赂时, 由于无法结合过去的状态选择最优动作,D QN. 在PO MD P 环境申的表现很不稳定. 为此,H a us kn ech t 等人[ 2 2 ] 将具有记忆功能的LSTM 与DQN 结合, 提出DR QN 模型#其结构如M S 所示.M状态0 0 0卷积I 麵30,全连接层珊t卷积层i图3DRQN機_3 综合预训练模型动作网络和时间相关性网络分别是执行绕路行为和构譙拓朴地图的甚础. 两个网络在機型结梅和训练方法上有稂多相似之处, 且都需裏在智能体学'习目标导时行之前完成训练. 因此, 构建综含预训炼模型对两个网络同步迸行训练/下面将对两个网络和训练模親进行详细介绍,3 . 1 动作网络动作网络被训练用于选取动作, 这些动作可帮助智能体完成导航节点之闻的移动, 进而实现利用规划路径寻找目标. 动作网络以观测对(.〇, , % ) 为输人, 并以概率) ei ?AI 为输出, 导航节点之间的动作可根据该概率选取.在以图像作为输人进行? 测的方法中, 使用巔为善遍的是帧间II 方法* 这是一种作用于像素级别的预测隹樣, 其突:掛特点是=实时性、但廣方渎輪集存觀淮确率有酿和籍受干抚两个问顧. 为提_ 预测精度及摆脱环境干扰物的影响, 使用特征空间代替原始视觉感知作为.网絡输人. 由于动作网络是针对■智能体观测之间的动作做出预测, 因此可将网络编码的物体分为三类: CW 1 被:餐能体动作影响的物体;( 2> 不受智能体动作影响, 但其:动作可影响智龍体的物体; ( 3 ) 与智能体动作鐵全:无:关的称体, 本文:致力于抅建一个対a ( 2 ) 敏感, i 不受a)響响的特征空间, 并利用其完成动作预测>相较人为设计的特征, 本文使用探度神经网:络( !>魏P咖w〇: r k ,:D顧續翁生珊辱征? 雨作网络模型如图4 所示, 它具有端到端架构, 在这种架构下特征不会与动作分离, 而是在一起相互学习? 从前向部分图4 : 动作: 轉翁_5 9 8 计導机攀报 :_1苹而确保特征不会对任何不能影响或不受智能体动作影响的物体进行编码. 动作网络模a中包含前向和反向两部分, 其中, 俞向部分是墓于Re sist- 1 8[ 2 S 的深度卷积编码器. . 可将原始观测( 朽., % ) 编码为特征._嚢(:〇山f£句> ] ; 戾向部分厕以费征向最作海输A(弁计#动作概拿3. 2 时间相关性网络时间相关性网络的目标是通过时间距离寻我情暴记忆中的导航节点, 这对于避免存储宂余观测和梅建拓扑地囲至关裏栗. 同时, 本文的视觉感知任务( 包括智能体定:位及目标检测) 也由对间相关性网络实现.在探索过程和随后的目标导向行为中, 智能体会多次遍历环:壎弁储存:大讒贽# 规测数据, 通过阅读有关哺乳动物空间认知方式的研究, 了解到哺乳动物可利用一个观测:特别是包含路标的观测, 映射一个邻近空间, 以此高效认知环境[ 2 9 ]. 本文的拓扑地图构'建方法也是受此启.蒙, 判断观测是费邻近賓通过面像特征相似度法实现, 但由予智能体视角的多变性, 导致该类方法并不能很好地显示观测是否邻近? 因此, 为降低环境特征对算法性能的影响, 貪弃围像相似度方法, 茱用在情# 圮忆中挦到广泛研究的时间. 距离[2 1] 判断观测是否邻近.从概念上讲, 时间相关性网络可被看成一个分类任务, 它错乎时间上邻近的观测较高'的相似值* 而给予时间Jl 远离的观测较低时相似值. 由于观测序列的连续性, 较短的时间距离必然导致相邻的观测,且时间?距离只与观测之间的步长有关, 不受酉像特征影响. 时间相关性两雄模型如图5 所示, 它包含嵌入和比较两部分: 嵌入部分用于抽象化视觉输人( 0 ,^K,其结构基于Re满et- 1 S ; 比较部分以特征部分图5 时间相关:性歸翁_作为输人并计箕时间相关系徽;其中, 故( 〇, [ 〇, 1 ] 为〇1 和q 之间的时间相关系数,E ( 〇, ) 为观测特征化过程, 丁C C? 用于计算特征间的时间相关系数.3 . 3 训练模型虜3, 1 言斑a, 2 节可知, 动作网攀和时间相算性:M絡有很多相似之处? 第一, 两个网络都使用Si a m e se架构学习特征和进行预测, 其卷积部分全^部基乎Rs §N ? t 1 8? 粲二,篇然两个网络所使用的训练样本具有不同的形式. 但其原始数据来源于同一随机探索环镜的智能体? 第三,哥个两络都以自. 腺督学习为训练方式,且使用相同训练方法和超参数? 讀后, 对R-n et w o r k’不同部分鸯要性的研究更是? 促使我们将两个两雄放在M — 模■ 中进行训练? 考虑到特征对预测的泰响》舍弃时间相关性网络的嵌人部分, 保留动作两雄的前向部分, 并使用动作顼测误差构建特征,擦合预训练德型如?6 所示.前向部分 ?00― 冗衫比较部分, 6 ,貧预到_翅在使用该模型迸行训练时, 爵个网络的损失請数分别计算. . 其中, 动作网络通过监督#习进行训练, 并使用交叉熵作为损朱涵数. 训练. 祥本形式为( C % ,讀作屯对盧:式中攀一个麗测p; ., 隹律本以情臺?忆… 和动作學歹g>: l, 《 2,? ?'*S为鹿始数磨<并使用6 个时间歩分割而成; 网络训练被定义为学习函数0, 1 Hp= L i 〇i *〇, + k  rfts -J£7)_中4邊》, 的猶_崔为动作魏测: 概率和〇, + t为相隔& 个时间步的两个观测.. 网络参数& 通过阮晓钢等: 基于目标导向行为和3 期 空间 拓扑记 忆的 视觉导航方法 5 9 9式( 8 ) 进行优化:mi nl o s s ( a {( 8 )°L其中,/咖用f衡量预测动诈与实际■动作之问的差异. 通过以随机运动的智能体轨迹作为原始训练数据, 可习得有效的动作条件分布丹a | 〇, ? e_乂时间相关性网络的训练样本由两个观测和一个二迸制标签组成: 〈电说⑷ >.? 数摒闻样来源于随机擇素.环墙的智能体. 如果两个观测值之间" 室多相隔々个时间步,则认为它们邻近(?%= 1*) ? 负榉本由两个至少相隔IW4 个时间步的观测组成, M 用乎扩太芷负样本间差# ? 晕后, 利用逻辑M 妇作为损失函数并输出邻近概率.4 导航方法智能体与新环境的.交互分为两个阶段: 在第一阶段内, 智能体随机採索环掾,并使用收集到的数据训练动作网络和时间相关性网络; 在第二阶段内, 智能体茼歩学习目标导向行为和构建空间拓扑地S s并将二者结食用:于瓮成导航任夯-4. 1 目标导向行为I 标导. 向行为可眷作智能体在回食内学习最大化奖励策略时的副产物<而具有深度强化学习梁构的系统更是在轶领域取得了巖先进的成果, 所以举文模型也以深度强化学习为基本导航捱梁, 并增加额外输人和辅助任务以提升学习效率.为使智能体更高效地学习目标导向行戈^ 导航框架以DR Q N' 模戴为塞础, 并针对本文任务做出以下调整; ( 1 ) 由于?导航过程.中使用辅助任务提升智能体学习效。率, 多佘的卷狼层^蹭加模型训练难度,祖此将DR Q N 模塑中卷积爲由3 层减少茧2 篇;( 2:) 为缓解辅助任务带来的额外计算压■力, 对训绦数据进行降维处理, 即将D RQjf 模型中第一层和第二层卷积输出的3 2 张和!H 张特1正图分别减少至1 6 张和32 张特征图. 改进后的导航模灌如图7 所吉作!II蠢za状态0卷积层2卷积层1图7_本导霸:框黎g值函数策略示, 其输人包括: 观测久中w 和h 为图像的宽度和高度上一时间步动作e i?w 和奖励r, 斤艮同时, 使用'模型后端分离的线性层计箕策略;r 和慑画数V.在训练方法上, 没有直接利用D Q 興所依赖的动作值函数Q (>,, 《: 啲和均方误羞攀3 导航, 而是使用S#优勢 Acter-& itio ( A |C:P4]:算ft在雜11状_ 5 ,的精况下摩习策略r UU 4 ) 和值函数且撼个训练过程中, 除仿真环'境内可获得的奖励4苹果、目标) 外, 不增加动作或碰撞惩厨, 所用奖励涵数如式( 9 ) 所示:R l-J + ny ^t+ ^ TV iS t + n+ l >f)£fl )i  ̄1其中, 为包含个时间獻的累:积折扣奖通, , r, + ,为当前时间步所获奖励, V G , + ,, + 1 , 的为环境终端网络值麗数V在损失函数中使甩熵E删化处罚代替均方误差:?, 5 ) ) ]f l O )萁中', I4*= 拉,"^+r * 铲爲. , # ) ) 为策略T T 的熵? 《为熵系数、在训练过程中, 多个智能体与多个环境并行变互? 尽管后续实验怔明该模塑可从原始视觉输人中莩习目标导苘?? 为<但部分数据显示智能体= 学■习效率与拓扑地S 构建速度密切相关? 也就是说,导航策略越快趋于稳楚地图就越快覆盖整个空间. 因此, 为提裔智能体学习敏攀和减少构建地图所需'数据量, 在模型中结合一个名为碰撞预测的辅助任务, 其实现方法如图8 所示._ a 織鑛爾测-權:赴趣雜輯其中, 碰撞概率由L S TM M 的率爵感知器输电5 预测误差1^ 通过实标和预测情况比较所得, 并結合权重应用于损失函数;+ t, + §L,m?,, # ) ] t i l )其中, L? 、U 及H 计算方法■ 式( 1 〇) 相同. 不难?发6 0 0 计導机攀报 :_1苹现, 本文模型中使用的辅助任务实际上利用了空间深度信息- 但与大多数算法不同, 我们没有将深度图直接作齿模型输人以寻求更努效果, 而是以损失函数的形式呈现环境锫构信息S 弁利用'其提供的密集训练信号加速引导学。习. 此外. 碰揸预测为在钱( 对于当前帧) 辅助任务s 不依赖任何形式的回放机制.4. 2空间拓扑记忆# 扑地?是一种记忆空间绾构的方法* 文中使用导航节点对其进行填充, 在每一银索回会错東后,结合时间栢关性网络和智能体观测序列对地? 进行更新* 从而实现利甩情景记忆递増地描述状态空间.构建拓扑地图包括两个龄段:( 1) 初始阶段. 此时模:型内没有任何有关环境的记忆, 输人的观测序列糌作为智能体对环境的第一认知, 因此薷筒化序列本身. 假设智能体在环境中运行了个时间步掙到憶焉:记忆(A , 。2,? , 电? 以首次倚化为例, 通过时间相关性网络计算序列内第一个观测込与其他观测A 的时间相关系数:t^K〇% ^ ) =TCiMUi) . EUd )( 1 2 )其中A1 为第一次简化的时间相关系数二2 ,t …,T. 根据阈值故., 省略与。: 邻近的观测s 简化示意图如图9 所承. 这是简化的第一次迭代; 观测〇1 将作为第一个导航节点蚴储存在拓扑地图中* 然后使用随后的观测和周样的方法持续简化序列直到最后一个肅测.简化过程按情景记忆内观测的先后顺序进括,所以地函中的导航节点递增储存且在理论上连通..但在规划路径財, 露考虑动作网络的预测能力, 因此, 使用式a s ) 检* 导航节点是否可达:%=V | i j | ^Lk( 1 3. )其中雨为辱撤节点苘達接关系彳戰翁叛』为地圏中馨航节点成,, 6W. 5 , 纪J 为可_性阈傷si 和i 为导撤节点脚标, 式中包含时间距离觀空询关系两种判别方法.( 2 ) 扩张阶庚? 此財模11 中已包含部分环境拓扑地菌, 智能体需a过集成每个观测序列不断扩充地_ 因此, 当俞情景记:忆u:1, % ,…, 〇 * t 中的每一个观测都需要与地图中的每一个导航节点迸行比较以得到它们之间的时间相关系数:tccC 〇i ? wx)—TC { E { 〇i)^ E C vu^) )( 1 4 )其中渔当前情景记忆与拓扑地图间的时间相关系数,〇,U =1 ,2,…. T) 为当前序列中的观测,?%〇=1 2 :.?  ? ?? *〇,为翁扑地图中_ 等航管蟲? 如果当前情景记.忆中的观测全_ 与拓扑地图邻近* 则不霈要更新地图. 相反, 如果在当前序列中的观测, 即使只有一个观测不能使用拓扑地_ 进行映射.. 茚哉该现测将作为新的导航节点添加到地M 中, 此时iJS要: 创逾与霜对處■的连接:*TC'fE { 〇i^ ) . E (w, ) ) ^ict,二 <CIS)Lb ,S中冲.-: 为饵前一时何步的观测.*  〇? e ]>,了] ) 为_前臀量S 忆中靈蒙规盼导雖,處[1 *w ] )为拓扑地图'中的导航节点为邻近阈值,4 . 3 导航流程导航任务以回合制进行, 每个回合持续固定的时间步或直到找到目标为止* 在回合内 >智能体起始位置爾定, 通过目标导向行为或规划的路径完成导航任餐由于控制策略在无障碍环境中获得, 因■此当不_定■环境中是否存在堵寨时* 可使用'具有目标导向行为的智能体进行试探性导航. 如果智能体在一定时间步内到达目标, 则?明环境中没有堵愈导航任务可通过该策略歲成. 相反. 如果智能体在一定时间步内无法接触目标, 则证明环境中¥隹堵塞, 单纯的目fe# 向行为S 东再适用* 导航任务看结合拓扑地围和路径规划,完成_在重新规划路径之前, 需:确定智能体停滞和目标所屬导航节点, 并将它们作为路径的起点和终点.该视■ 虜知过霉时间柑关牲: _ :_实现: 对午瞒认智能体停滞位置, 可使用当前观测if拓扑地酉内导航节点迸行比较5 并根据时间相关系数_ 定智能体所扁导航节点; 对于目标检测, 本文仿真环境中的目标有其面定的形状和颜色. 并可在学: 习目标导向行为中收集获得, 利用该業图片和时间相关性网络可定位篇标位養* 定位方法如圈1 0 所示, 图中黑色圓jUL i- Bt F导航节点缓存图1 0 定位方法K娆爾等: 基f_ 顯等向行为3 期 ■空 间第朴记忆的班鹙导航 操 6 0 1形分别代表:当前目标和智能体所属导航节点, 黑色线.段代表堵寨位置》在得到起:始和目标.位:置后, 根据迪杰斯特拉算:法0^ 寻戏导航节点W 和W之间的最优路径t( i t v'i ?? ? *;  1*^ ) ?M p—i *??1* Wn—S*( L§:)其半,: w° 为起枱节'虑v f# 为■隱标节点? 然: 而从雇Id可以看由于拓扑地图是在全连通环境下构建的.规划的路控: C黑色路径>可能包含跨越堵蠢的逢揍,而这在实际# 航中并:不可行. 类似的不可甩洚接应被发现, 并避免在接下来的路径规划中使用? 因此,一旦发现智能体长时间停留在一个位置, 就证明路_.中包會跨越增塞的连接, 此时L歡逢翁的路ft代价设置为无穷大, 并使用修正的拓扑地图重新规划路释■ 由于#航节虑之间相式连接道环境中的堵塞可能不止一处, 所以路径规划是一个迭代调整的过程, 整个导航流程如图'l l 所示.图1 1 导顧:瀵義5 实验实翁中通过■處隹导航任# 评估本文携遒*#与祖关基线方法进行比较< 学习过程主要以奖励/时间( r e?社d /画的形式:墨现, 图中:爵间点对愈的奖励值为一小时内( 虚.拟时间.)潛能体所获奖励与龜成國合像鲁3F均檀;f 智會体■每个厲"# 内执行45 00 參动作.S. 1 实验设置i .1. 1 宴緣苹脅实验在3C 仿离:环境.D M la b 中进行[3 2], 平台运行示意图如图1 2 所示. 在该环境内< 智能体执行离散动作:, 可实现小雜围转向. 加殖前迸遽_ 或转弯.興廟由餐篚体在會中接目餐眞每* 在接:触自斿, 智能体将被重置到起始偉聋* 每个回合都提供充足的时间步, 保证智能可多次到达目标▲ 仿真环境以6 0 帧/秒的速度运行, 并在环境,中放置奖励刺激探索行为, 其中,苹果奖励为+ 1 , 目标奖励为+ 1 0 .( a) 前进( b ) 苹果( C ) 目标( d) 门图1 2 像霧尋壌S,L2 基錢方法在学习目标导向行为■实验中. 使用在深度强化孥习领域具有代表性的前馈( F e edF or wa r d , FF }[ 1 6 ]機型和绩合长短'财诏忆网铬< LSTM Ji> ] 的機観与本文犧龜( N a vig ati on + Cb l l i s i?11 Pr edi c t iQ.n., Na v +Gm迸行比较. 其中, FF 檫型由3 肩卷积和1 层全连接构成, 每一层后都配有Re L U 非线性单元, 策略和值函数由单轴的输出层计箅. LS? 模塑结构与FF 模型类似, 只是在全连接棲后增加1 gLSTM,此外, 没有结合碰揸预测的本文方法fNa y ) 也在迷宫中迸行测试.在#有动态堵搴猶环# 中进行测试时, 共有三种方法用来验怔拓扑地图在擦塑中的作用, 其中^第一种R使用学习到的导航策略£沁〃+ 0? ) 在环境寻找目标, 第二种将目标导向行为与空间拓扑地图相爾合( N4 y+C:P+ Sp祕tT T o po l ogi c ft lW歸N‘ v+CP +S TM ) 甩于叢成导航任务, 第三种是基:于智能体■翁标. 置( ?!':的鑛抚:路备( O pt imd Pat h, OP )方法由于使甩了环德特权if 息, 这种方法可将环境直接离散化为二维地图从而选择最优路径.1?  1 . 3 愼纖禽规细,由圏4 可知, 本文导航模型与F F 和L ST M 模型结构不同? 它是由2 层#积、1 层全连接和1 层LSTM 组成其中, 第一层卷积核尺寸为8/8, 跨度为4 / 4 , 输出1 6 张特征圈* 第二层卷积核尺寸为士/ 4 , 跨度为2 / 2 , 输出3 2 张特征图; 全连接鳥具6 0 2 计導机攀报 :_1苹有2 55 个神经元4 前三层神经网络都配有R e L U 非线性单元. 在得到卷轵编码器输出后, 将其与智能体上一时间步的动作和奖励串联作为L 承CM 层的输人, LS..T M 层与全连接层具有相同神经元数且配有遗忘单元_ _ 策赂和ft 函数由L SXM 层输出线性预测所得J並瘇概率则由单层感知器预测所得.综合预谓练獏灌的输人为W 个观测, 两者都要M过R esNe t-1 8 编码器处埋并生成S 1 2 维特征向量? 在摸遭内部, 动作网络首先将两个观测的特征串联, 然巵结合2 层全连接《每.层具有2 部个神■元)和S oftm a x 层输出动作概率? 而时间相关牲网络则是分别对两个观测的特征进行处理, 并使租4g:金.连接C 每层ft有5 1 2 个神经元) 计算两个观测是否邻近? 除输出层外, 每一肩神经网络后? 都配有R eL U非钱性单元,11 . 4 超参魏为展现各模型莅视觉丰■窵环境中的导航性能,不对智能体观测进行黑白化预处連, 而是直接以S < XM RGB 樹像作为模型输入? 与之前方法[ 1 6如相比, 彩色图像可提供更多坏攙詹息, 但也在一定餐度上增加了模型训练难度? 学3 过程中, 借蓥文献〔14 ]中所介绍的A 3 C 范例引导强化学习, 使用8 线程及投有动纛和方差干预的RMS Pr o p 算法训练神经网络, 毎个动作依然重复4 次? 孥习攀从[ 1 X 1 04,5 X 1 03] 盧, 间_ 掛对数均勻分布来样, 熵代价赢[ 5 X 1 0^S 1 Z 1 02] 艮间内按对数均匀分布来祥,杈值从[ 1/ 1 0—2, 1 Z1 0—1] 区间内按对数均匀分布采样.纏#猜训纖: 模邀的输人是分辨率为1抑, 1 20像章的两个R GB 厨像, 该训练数据通过一个随机探索环境的智能体产生. 训练过程中使用学习率A=0 . 00 0 1 的A dam 优化器M 进行学习, 近期数据储存t ime/h( X l 〇6)( a ) 不同碰撞阈值实验结果_容量为b 簡■ 冲厲s 每:次从■ 冲隱中随机采样m 对观测蜜新网珞参数.5 . 2 参数选择实验本文致力于研究更加通用的导航策略? 在测试模麵性能之前*轍親先设定一些参數? 这些参数主薺涉及两方霄:一是辅助任务中的碰瘇阈值I 另一个是动作网条和时间相关性网络中的训练细节, 这些参数将在如圈1 3 所示的迷宫中进行定性确认.B 1 3_顯_M. 1_ _ '僂翁验在本文导航模型中, 使用一种名为碰撞预测的辅助任务* 而碰撞貴生与否取决于智能体与障碍物之间的最小阻离. 因此. 需确定不同约束值对导航性能的影响. 同时对利用不词类_ 深度信息的导航方法进行比较在测试期间, R 执行S 标导向行为, 不.构建环:境地菌《实验结果如图14 所示 < 数据为? 5 个具有最佳性能的智能体平均所得. 从图1 4 ( a) 可以看出, 当阈值_[〇: , 3] 内采样时, 替能体探參繳率?和学习酸藥各本枏同. 如果阈植嫌置为〇, 也就是i兑,.只有在智能体撞到障碍物后才认为碰瘇发生s :会导致探索效率低下. 相反, 如果阈值较大智能体则会过早执行避障动作, ii而间接干扰导航策略, 导致需要更多的时间步才能到达目标? a 阈值为1 或2 时.智能体不仅可有效躲避障碍物, 还能保待高'数的目标导向行为? 然而考虑到策略稳定性间题5 碰撞阈值在本文中设耸为1 ., 1 4 碰屢___舉K娆爾等: 基f_ 顯等向行为議 期 ■空 间第朴记忆的班鹙导航 操 6 0 3从画1 4《b ) 可以看出* 当智能体直接将探度信息作为碰撞判别依据时, 在探索环境过程中可有效躲避障碍物, 钽此时碰撞预测误差仅甩于动作惩罚.对导航策略没有实质性的帮助. 通过将深度图作为输人^■智能体同禪可学3 到控制策略, 弁使用其快速遍历环境, 但这种方法忽略了环境的颜色特征, 使智能体无法进一步理解状套空间. 而对于Nav + C P 模Sb 虽然其探索效率不如将猓度图作为输人的方法,钽辅助任务的使用给予智能体更多的环境锗构信息, 从而实现更高效的目标导向行为.S - 2 . 2 分割阈值实验在刺练时间相关性网络过程中* 需要时间步间隔点分割瓦负祥本, 动作网络的训练样本同样使用阈值6 进行区分. 由于网络性能与々值的选取密切相关, 现将不疴分割阈值对动作网络、时间相关性网络和导航节点所占比例的影响总结为表1 , 表中数据为5 个具有最优超参数的智能体平均所锝. 由表1坷知, 隨着i 的增加, 动作网络性能逐渐下降* 尤:真是在盾_预_ 精度下降明显. 时间相关性网络训练效巣与正负祥本间时養异成反比, 在起始阶段.由于正负样本几乎邻近* 敌时间相关性网络的预测准确率较低, 而随着々值的増加_*其性能茼步提升.但当盾痛于神经_ 络本身的限制, 时间相关性两络的预测能力再次下降. 此夕卜* 蛊然测试环境特征较为单一, 但时间相关性网络准确率依然可达到90% 以上_ 明其姓能并不依赖于环境特征? 导航首京所占比例在理论上与& 值成正比, 即祖隔的时间步越大, 导航节点所占比例越低, 在实验数据中也体现出相似规律. 但_T 时闻相关性柯络影响f 隹A > 5 后导航节京比例有所增加? 南亍財问相笑牲网络为本太视養虜知養现方式, 爹敦智能体定位和目标检测, 其预测精度对导航性能至关重要. @ 此, 本文设定阈值々= 4 , 此时时闻相关性网络准确率达到9 X 5 6 % 满足视觉导航要求, 且动作网络预测精度也在9 0% 以上* 导航节点比例也处于較低水平.12|457表1 分割阈值实验结果动作网络 ̄时间翁关性网络/ .%' ̄ ̄导航节点比稠/ 难5 . 2 . 3 环場交宜置实猶在整个学习过■ 中, 训练样举由两部分组成: 预训练和在线学习. I 标导询行为通过在线学寻完戚>因此不必关心#本数量问题. 而'动作网络和时间相关性网络则需針对特定环境进行训练为节曹M练时间^有泌要确定听需环境交苴暈. 训练数据量对网络性能影响如表2 所示*奢中数据为3 个具有最优超参数的智能体平均所得. 由表2 可知, 随着交’互量的增加, 动怍阿络预测准确性特键; 上升?,但增长比率逐浙下择;財间相关性网络的性能也随训练数据的增加而提高, 伹驾网络处于过拟合状态时、预测准确率会有所下降. 经过综合考虑? 将顼训练部分与环境交互鏟饿置;&2 .5 M , 此时两个网.络预测精度都达到9 0% 以上, 可满足算法要求,表2 环境交互量实验结果交互量动作网liTT ii时间相关性网络/ .%' ̄¥〇〇KS 3 . 5 55 0 0 K魏魏1 祕9 2 .7 52,5 ! ?9 3 . 8 35 祕9 4.1 45 . 3 静态迷宫实验本文所用测试坏漬如:圈: 1S 所浪:雜中, Ma ze - 1为督规迷官, 其内部包含形状#异的障碍物和多条通路;Maz e-2 设计,歡感来源于T 型迷宫[3 5], 它具有对_ 贈空间结构, 目極位于4 个翁支贈導头rMa 2e 3最初用宁验证认知地图理论, 其环境, 由3 条不同长麗的逋.路組成. 截Ma.?r l 和Ma ? e - 3 中, 目标和' 水皋位M 挺定, 而智能体起靖位餐在回合间随机变化?但由于Ma zed 空向结构的特殊性, 其环境设覃方式与前两者相反, 即智能体起始位置固定, 目标布回合间随机重置> 此类环境鼓励智能体学习一种探索-利用策略. § P 在探索迷宫过程中记忆目标位萱, 以便于在每次童查后更快速地找到目标.1?^ [rnr^J乩[C运a riJLn: Mi( a ) Maz e-1( b)  Ma ze-2( c ) Maze-3图1 5 静蠢迷宫顧试濯i在不同测'试环境中#标导向行为學巧曲线( 数据齿5 个具有最隹性能的智能体平均所得') 展现出一些特殊的结果. 首先* 由宁单一观测很难决定全辰最优动作、智能体往往需要记.往过去的状态才能维持#航功能, 獄如_1 5 < a X:所薪> FF 犠型隹: Ma獻16 0 4 计導机攀报 :_1苹中具有良好的动作规划能力> 表明可能存在不涉及记忆的目标导向行为> 即*编码器控?制的'纯反,应式行齿. 然后, A 图W( 吣可知, 在明显需要'记忆功能的Ma z6 2 中, L S TM 模型所莸奖励是FF 模型的近两倍. 这充分说明具有记忆功能的智能体可在探索环境过程中编码目标位置* 并在随后的时间步内加以利用. 单钝依赖反it 式行为的智能体也可找到目标, 但无法标记目标位置进多次使用, 最后, 图1 6 ( e)清晰地显示出增加速度和动作作齿额外输人以及使用碰嬙预测作为辅助任务的影响. 虽然LSTM 模型在所_奖励上优于F F 模型, 但莫训练速度仍然相对较慢. 这主要甚由传统强化学习t 法导致, 在增加碰撞预测后J?av+ C P 模型实现在所有环揸中加速争习. 此外, 利用额外的输人和深度信息_, 智能体賓更好地认知环境, 同时获得更高效的导航策略.在环境适应性方面, 通过对智能体观测迸行黑;白化预处理,D Q H 已被证明可在多种At a r i 游戏中学习人类级别的控制策略. 展现出良好的环境适应性. 而本文以RG B 图像作为环境感知信息, 为各模親学习控制策略提供了丰富的环璜视觉信息, 袒这也对各模型的适虚能力提也挑战. 由圈1 6 可知. F F及LST M 模猶可通过RG B 图像学巧目标导向行为, 特别是具有记忆功能的1^11尬模_ , 在3 个迷宫中均具有良好的学习能力. 但无论蔫在学习效率上还是在所象奖励上, FF 和L S TM 樓型与本文模型迅存在一定差距, 表明.N_+ CP 模塑:更适用〒色彩环境, 且可吏禽效地将视觉信息转化为算: 法性能上的提升.( a ) Ma ze-1 学习曲线图1 6导航奖励时间( r ewa rd / t ime ) 图表s 总结了各摟型在不同环境内的性能参数及构建地图所需时间, 表中数据为5 个具有最优超参数的智能体平均所得? 其中, 学习曲线下面轵( A naI讀Mii n gCJ u l? 劝, A U C) 是一■: 种比糧攀习缴率的方法; 学《曲线覆盖的面积越大*表明学习'效率越离- 构建地图所需时间是通过將# 习过程中构建的拓扑地_与预采集的整个环境特征进行比较.. 当覆'盖菹_ 超过一定值后, 则认为地图'构建完成, 并将此时的训练数据量紀为地图& 成时间. 由表3 可知, 构建拓扑地图所用时间与智能体学习效率密切相关,环蠢Maze - 1Maze-2Maze - 3表3 静态迷宫实验结果模型 AU C 奖励地图完成时间( ho u r / l e 6 )FFLSTMNa vNa v+ CP 6 3 452 46 3 1 7FFLSTMNa vNa v+ CP 46 6 5 2 2FFLSTMNa vNa v+ CP 8 0 .447.5 3 0 4学习翁钱覆盖爾积越大, 构建地? 所用时间越短. 因此, _ 尽可能地提高智能体学习效率. FF 和LSTM模型以图像作为输人, N a v 模型在此基础上增加了动作和奖励, 但这都不足以克服传统强化学习的影响. 而与?碰撞预测相结合的N a v+ CP 模型则利用了学习过程中'的额外损失.. 通过这些包含环埯结构信息. 的训练信号加速弓丨# 学习, 同时减少构建拓扑地图所数据量.5. 4 动态堵塞实验在上一章节中,:B获得全连通环境下的目标导向行为和拓扑地图接下来的实验将测试该模_ 在包含动态堵塞环境中的性能. 测试所甩坏境与M aw- 3相It, 但在通路中增加堵寒堵馨( I置如图1 ? 所示.( a ) 无堵塞( b ) A 处堵塞( c ) B处堵塞( d)  AB处堵塞图If 动.讀奪厕试环樣K娆爾等: 基f_ 顯等向行为議 期 ■空 间第朴记忆的班鹙导航 操 6 0 5在实验过程中,.首先固定:智能体起始位置* 然后使用。在M az e-3 中训爾完成的智能体依次进行无堵塞、A处堵塞、B 处堵寒_、AB 处同时堵寒的实验?未樓用:及使用拓扑地图导航实蠢_果如Bi s所示? 数据为5 个具有最佳性能的昝能体平均所得,_:親截爾数/时间步( 雜丨UBrfu ne t i cm/ s tt p: ;* 厲_ 承,图中虚钱为'鐘标. 如靡I S C al、( W 所示, 在没有堵塞的情况卞, 拓扑地图的存在与否并不影响樓_导航性能. 两种方法都使用中问路径完成导航任务, 它们的值函数变化趋势相似, 且均到达目标4 次, 在接下奉餘实II 中., 两种方法的_#_ 加谢显, 丛魔1 8C: ?') 、(d ) 可知, Mav + CP 襟潘ftA 处停留, 且不能续过堵麗, 导致智能体无法到达S标和值涵:数持续下降■ N a v+ CP+ S TM 繼窥:词样逍剷堵屬A , 怛譬前一种方法不同, 它错合拓扑地图利用'左侧路径到达目标, 且由于左侧路径比中间路径长, 所以智能体到达目标的频率比在无堵寨环.境序低. 对于相对较远的堵塞; 从图1 8 ( 、(£) 可以看出,!%v +CP 模_ 仍然使用中间路径来引导目.标导向行为, 导致智能体#質在:6 处, 而N ar+ CP + mM: 镇屬卿通过重蒙规划路径.到达_ 标_ 由于堵塞B 的特殊位置* 在使用拓扑地图规划路径时, 智能体并投肴试顧使用左侧路径錢过堵塞而是直接使用右侧路径. 同时, 由f右侧通路是三者中鼋长的路径> 智能体需要更多德动作才能到达■霖f . 敦_儀議_ 的次幾进一步减少, 最后, 从图1 8 ( g ) 、<上) 可知, 即使在包含两个堵塞的环境中Na v+ CP +gT M■ 型仍然可以找到一条可行的路径到达目标, 但探索过程较:为复杂, 具体来说? 智能体首先会停俚在堵?A 处,然后使用左侧路径绕过堵塞A 弁遇到堵最后通过右侧路径绕过堵麗B 到达目标, 这也是智能体在5 00 〇个財M步内只到达目禄一次的原:面. #于+ CP 模型, 与第二次实验类似, 智能体会始终停留顧堵暮A 处.1 6g l4I l20( a ) Nav+CP(无堵塞)( b ) Na v+CP+STM(无堵塞)( c )  Nav+CP(A处堵塞)(d) Na v+CP+STM(A处堵塞)图1 8值函数时间步( va l u e - fu nc ti on / s t e p ) 图6 0 6 计算机学报 2 0 2 1年为更好展现拓扑地图在模型中的作用, 在实验过程中收集了更为详细的数据并总结为表4 , 表中数据为5 个具有最优超参数的智能体平均所得. 其中, 包括智能体在5 0 0 0 个时间步内到达目标的次数和所获奖励, 延迟为智能体首次找到目标与随后找到目标所用时间步之比. 从表4 可以看出, 随着堵塞位置从A 移动到B 及堵塞数量的增加, N a v +CP+S T M 模型需要更多的时间步才能到达目标, 导致智能体到达目标次数和所获奖励的减少. 但无论堵塞的位置和数量如何变化, 集成拓扑地图的智能体始终可以找到目标. 而对于N a v+ CP 模型, 由于不能动态规划路径,一旦环境中出现堵塞, 智能体将长时间停滞在堵塞位置. 这进一步证明拓扑地图可作为路径规划模块集成到模型中, 并用于引导动态环境下的绕路行为.表4 动态堵塞实验结果环境 模型 目标次数 奖励 延迟N a v + CP 4 . 6 4 8 . 2 0 . 9 9无堵塞 Na v + CP + S TM 4 . 5 4 7 . 5 1 . 0 2OP 5 . 2 5 4 . 3 1 . 0 1N a v + CP 0 3 . 3 OOA 处堵塞 Na v + CP + S TM 3 . 1 3 2 . 4 1 . 2 1OP 3 . 7 3 9 . 2 0 . 9 9N a v + CP 0 5.6 OOB 处堵塞 Na v + CP + S TM 2 . 1 2 3 . 4 1 . 1 6OP 2 . 4 2 7 .1 1 . 0 2N a v + CP 0 3 . 4 OOAB 处堵塞 Na v + CP + S TM 1 . 7 2 1 . 6 1 . 3 8OP 2 . 5 2 7 . 8 1 . 0 16 结论针对动态环境中的导航问题, 本文提出一种可同步学习目标导向行为和构建空间拓扑地图的视觉导航方法. 为在具有复杂结构且丰富视觉的状态空间中学习目标驱动的导航策略, 以深度强化学习为基本框架, 并在模型中结合碰撞预测提供密集训练信号, 以实现加速学习和提升导航性能. 对于编码环境, 利用图像之间的时间相关性祛除冗余观测和寻找导航节点, 并通过集成情景记忆描述环境结构. 实验结果表明, 本文方法可从原始传感器输人中学习目标导向行为, 同时构建空间拓扑地图, 即使在包含动态堵塞的环境中也可实现高效导航. 在接下来的研究中, 我们将进一步优化本文模型, 并力求在真实环境中验证其性能. 除此之外, 也将基于本文模型对非常大或终身学习场景中的导航方法进行深人探讨.参考文献[ 1 ]T o mma s i L , Ch ian d e t tiC ? P e c c h iaT ,et  al . F r o m n at u r alge o me tryt o s p at i a l c ogn i t i o n .N e u r o s c i en c e &- B i o b e h a vi o r alRev i e w s , 2 0 1 2 , 3 6 ( 2 ) : 7 9 9 8 2 4[ 2 ]Mo s er EI , K ro pL fE, Mo s e rM B .P la c e c el l s , gr i d c el l s ,an dt h eb r ain ’s s patialr epr e s e n ta ti o ns y s t em .An n u alRev i e w o f N eu r o s c i en c e , 2 0 0 8 , 3 1: 6 9 8 9[ 3 ]T o l ma n EC.Co gn i ti v emap s  i n r a t sa n d me n .P s yc h o l o g i c alRev i e w ,1 9 4 8, 5 5 ( 4 ) :1 8 9 2 0 8[ 4 ]Mad l T ?F r a n k li n S ? Ch e n K ? et al . B aye s i a n i n t egr a t i o n o fi n fo r ma t i o n i n h i p p o c a mp a lp l a c ec e l l s .PLo S O n e , 2 0 1 4 ,9 ( 3 ): e 8 9 7 6 2[ 5 ]Y o n eli n a s AP, O tt e n L J , S h aw KN , et al.Sepa r at i ng t h eb r ai nr eg i o n s i n v o l v e di nr ec ol le c ti ona n d f amili ar i ty i nr ec o gn i ti o n me mo ry .T h e J ou r n al o fN e u r o s c i en c e?2 0 0 5,25: 3 0 0 2 30 08[ 6 ]Ces a r C , Lu c aC , I l e n ry C, e t al.P a s t , pr e s en t , an d  fu tu r eo f s im ulta n eo u s l o c ali za t io n a n d map p i ng :T o wa r d th e r o b u s tpe r c ep t i o n ag e. I EEE T ra n s a c ti o n s  o n Ro b o ti c s ?2 0 1 6 , 3 2 ( 6 ):1 3 0 9 1 3 3 2[ 7 ]S u n YLi uM ,Meng M QI I .I mp r o v i ng RG B DS LAMi nd yn a mi c  en v i ro nm en t s :Am o ti o n re mo v al ap pro a c h .R o b ot i c san d Au t o n o mo u s Sy s te ms ,2 0 1 7,8 9 : 1 1 0 1 22[ 8 ]S on gI l ai T a o , He Wen I I ao , Yu a n Ku i .As t er eo vi si o n s y st emb as ed o nS IF T f e at u r ef o r ro b o ten v i ro nm en t p e r c ep t i o n .Co n tr ol a n d De c i s i o n , 2 0 1 9 , 34 ( 7 ) : 1 5 4 5 1 5 5 2 ( i n Ch i n es e )( 宋海涛, 何文浩, 原魁.一种基于SI F T 特征的机器人环境感知双目立体视觉系统. 控制与决策,2 0 1 9 , 3 4 ( 7 ):1 5 4 51 5 5 2 )[ 9 ]Mu r Ar t al R , Ta r d o s JD .OR B S LAM2 ;An o pen s o u r c eS LAMs y s t em fo r mo n o c ula r,s t e r eo ? a n d R GB D c am er a s .IEE ET r a n s a c t i o n s o n Ro b o t i c s , 2 0 1 7, 3 3 ( 5 ) ;1 2 5 5 1 2 6 2[ 1 0 ]Li uQu a n , Z h ai J i an We i ,Zh ang Z o ngZh a ng , e ta l .As u r v ey  o n d ee p r ei n fo r c e me n t l ea r n i ng .Ch i n e s eJ ou r n a l o fCo m pu t er s ,2 0 1 8,4 1 ( 1 ): 1 2 7 ( i n Ch i n e s e)( 刘全, 翟建伟, 章宗长等. 深度强化学习综述. 计算机学报, 2 0 1 8 ,4 1 ( 1 ): 1 2 7 )[ 1 1 ]Y a n n L ? Yo s h u aB ? G e o ff r ey I I .De ep Lea r n i ng .N a t u r e ,20 1 5 , 5 2 1 ( 7 5 5 3 ) :4 3 6 4 4 4[1 2]Oh J ,C ho c k ali ngam V , Si ng h  SP,e t al . Co n tr o l o f memo ry ,ac t i veper c ep ti o n,  an d a c t i on  inMin ec r a ft .h tt p s: / /ar xi v . o rg /pd f / 1 6 0 5 . 0 9 1 2 8 . p d f .2 0 1 6 , 0 5 ,0 1[ 1 3 ]Zh u Y , Mo t t ag h i R ? Ko l ve E? et al .T arget d r i v en v i s u aln av i gat i on i n  i n d o o rs c en e s u s i ng d eep r e in f o r c eme n tle ar n i ng .h t tp s : / /ar xi v. o rg /p d j y i 6 0 9 . 0 5 1 4 3 . p d f .2 0 1 6 , 0 9 , 1 6[ 1 4 ]Mn i h V ,B ad i aA P , Mi r zaM , et a l . As yn c h r on o u s me t h o d sfo r d eep r ei n f o r c e men tle ar n i ng ,h tt p s  :  / /a r x i v . o rg / a b s /1 6 0 2 . 0 1 7 8 3. p d f . 2 0 1 6, 0 6, 1 6[1 5]J ad e r b e rgM ? Mn i h V , Cza r n ec k i W M ?  et al .R ei n f o r c em en tl ea r n i ng w i t h u n s u p er v i s ed au x i l i ary t as k s ,h t tp s : / / a r x i v .o rg/ a b s / 1 6 1 1 . 0 5 3 9 7 . p d f . 2 0 1 6 , 1 1 , 1 6阮晓钢等: 基于目标导向行为和3 期 空间 拓扑记 忆的 视觉导航方法 6 0 7[ 1 6 ]Vo l o d ymy r M , Ko r a yK , S il v er S D , e t al .Hum an- l e v elco nt r o l  t hr o u gh d ee p r ei nf o r c eme nt l ea r ni ng . Na t u r e , 20 1 5 ,5 1 8 :5 2 9-5 3 3[ 1 7 ]Mi r o ws ki P , Pas ca nu R , Vio l a F, et a l .Lear n ing  to na vi g at e incomp l ex envi r o nme nt, ht t psi f / ar x i v.  o rg / p d f/ 1 6 1 1 .  03 6 7 3.  pd f .2 0 1 7, 0 1, 1 3[ 1 8 ]YuNa i-Go ng , Yu an Yu n-I I e , Li Ti , et  al .A co g ni ti v e mapb u il d i nga l go r i t hm b ym ea nso f cog ni t i v eme cha ni sm o fhi p p o ca mp u s .A ct aAu to m at i c a Si ni c a, 2 0 1 8, 4 4 ( 1 ) : 5 2- 73( i n Chi ne s e)( 于乃功, 苑云鹤, 李倜等.一种基于海马认知机理的仿生机器人认知地图构建方法. 自动化学报, 2 0 1 8 , 4 4 ( 1 ) :5 2 - 7 3 )[ 1 9 ]Par i s o tt o E ,  Sal akhu t di no vR. Neu r al ma p :St r u ct ur ed memo r yfo rd ee pr e i nf o r ce men tl e ar ni ng ,h tt p s : /'/a r xi v . o r g / a b s /1 70 2 . 0 83 6 0. p df . 2 G 1 7,0 2, 2 7[ 2 0 ]Gu p ta  S ,Da v i d s o n J , Lev i ne S ,e t al . Co g ni t i v em ap p i ng  andp l a nni ng  fo r  v i s u a l  nav i ga t i o n, ht tp s : / / ar xi v.  or g / ab s / 1 7 0 2.0 3 9 2 0 . p df . 2 0 1 9,0 2 ,  0 7[ 2 1 ]Sav i n ov N,D o s o v i t s ki yA , Ko l tu nV.S emi-p a r am et r i cto p o l o g i cal me mo r yf orna vi g a ti o n,ht t p s j/ /ar xi v .o r g / abs /1 80 3 . 0 0 65 3. p df . 2 G 1 8,0 3, 0 1[ 2 2 ]I l a u s kne cht M , S to ne P . De epr e cu r r ent Q-l e ar ni n g fo rp ar ti a l l yo b s e r v a b l eMDP s . ht t p s  j / / a r xi v . or g / ab s / 15 0 7.0 65 2 7 . p df . 2 0 1 7 ,0 1 , 1 1[ 2 3 ]Mar ti nR .Ne u r al  fi t t e d Qi t e r at i o n-fi r s t ex p er i e nce s wi t h ad at a e ff i ci e ntneu r a lr e i nf or cem en tl e ar ni ngme t hod # #Pr o cee d i ng s o f t he Eu r o p e an Con fe r en ceo n Ma chi ne Lea r ni ng( ECML2 0 05 ). Be rli n ,  Hei d el b e r g ,Germa ny , 20 0 5 : 3 1 7-3 28[ 2 4 ]Lan ge S , Ri edmil l erM , Voi g t l a nd erA.Au t o no mo u sr ei n fo r ce me nt l e a r ni ngo n r a w v i s u a li np u t da t ai n ar e alwo r l dap p l i ca ti o n// P r o c ee di ng sof t he2 0 1 2 In te r na ti on alJ o i nt Co nf er e nce o nNe u r a l Ne t wo r ks  ( IJ CNN ). Bri s b a ne ,Au s t r a li a, 2 0 1 2 : 1 - 8[ 2 5 ]Tho m asGT , Eg i d ioF , Fed er i coR , e t a l . Mo d el-b a s e dr e i nf o r cem en t l e ar ni ng f o r cl o s ed - l o o p d y na mi c co nt r o l o f  s o ftr o b o t i c ma ni p u l a to r s .I EEETr a ns a ct i o ns  o nR ob o ti c s, 2 0 1 9,3 5 ( 1 ) : 1 2 4- 1 3 4[2 6]Liu J ia n-W ei ,  Ga o Fe ng , Lu o X io ng- Lin.Su r ve y o f d ee pr e i nf o r cem en t l e ar ni ngb a s e do n v al u e fu n ct io na ndpo li cyg r a d i e nt .Chi n es e Jo u r na l o fCo mp u te r s, 20 1 9,4 2 ( 6) : 1 4 0 6-1 4 3 8 ( i nChi ne s e )(刘建伟, 高峰, 罗雄霖. 基于值函数和策略梯度的深度强化学习综述. 计算机学报. 2 0 1 9, 42 ( 6) :1 4 0 6-1 4 3 8 )[2 7 ]Ka el b li ng LP , Li t t ma nML ,Ca s s a nd r a A R .P l anni n g a nda ct i ng i npa r t i a l l y o b s e r v a b l e s to cha s t i c d o ma i ns . Ar t ifi ci a lI nt e l l i g e nce,1 9 9 8,1 0 1 ( 1 ) :9 9 - 1 34[2 8 ]l i eK , Zha ng X , Re nS , et  al .D ee pr es i d u a l l e ar ni ng f o rima g e r e co g ni t i o n, ht t p s: / /ar xi v .o rg / ab s / 1 5 1 2 .0 3 38 5 . pd f .2 0 1 5 , 1 2 ,1 0[2 9]M cNa u g ht on BL , Ba t ta g l i a FP , J ens en O , et a l. P a t hi n te g r a ti o n and t hene u r a lb a s i s of t he 4 co g ni t i v ema p’.Na t u r e R ev i ews Ne u r o s ci enc e,20 0 6,7 : 6 6 3- 6 7 8[3 0 ]Sa v ino v N ,R aic hu k A ,Ma rinie r R , e t a l .Ep is o d icc u rio sit yt hr ou ghr ea cha b ili ty , ht t p s : / / a rxi v . or g / ab s / 1 8 1 0 . 0 2 2 74 . p d f.2 0 1 9, 0 8, 0 6[3 1 ]Tho ma s hI IC ,  Cha r l es  EL , R on al d  LR , et a l.I nt r od u ct i o nt o Al g o r i t hms . Ca mb r i d g e,US A : MIT Pr e s s,2 0 0 5[3 2 ]Bea t t i eC , Lei b o  JZ , Tep l y a s hi nD , et a l .D ee pMi nd La b .h tt p s a r xi v . o r g / a b s / 1 6 1 2 . 0 3 8 0 1 . p d f .2 0 1 6 , 1 2 , 1 2[3 3 ]Ger s FA , S chm i d hu b e r J , Cummi ns  F. Le ar ni ng to f o r g et :Co n ti nu alp r e d i ct i o nwi t hLSTM.Ne u r a lCo m p u t at i o n,2 0 0 0,1 2 ( 1 0 ) :2 4 5 1 - 2 4 7 1[3 4 ]D ied e ri kP K , Jim my B.Ad am:Amet ho d fo r s to c ha s t ico p t imi z at io n, ht tp s : // ar xi v . o r g / a b s / 1 4 1 2 . 6 9 8 0 . p d f . 2 0 1 7 ,0 1,3 0[3 5 ]D av i d O S , J a mes  T B , Gai l  E l i . Hi p p o ca mp u s,s pa ce,a ndme mo r y . Beha v i o r a l a nd Br a i nSci enc e, 1 97 9,2 ( 3 ) :  3 1 3-3 2 2RUANXiao-G ang , P h. D., profe ss or.His r e s ea r c hin t e r es t s in c lu d e a u t oma ticc ont rol , ar ti f ici a l int e ll i gen ce and i nt el li g entr ob ot.L IPeng , P h.  D. c and i da t e . Hi s r es e a rc h in t er e st s i nc lu ded e e pr ein for c eme n t l ea r ni ng an dr ob ot n a vi g a ti o n pro bl em.ZHU Xiao -Qing , P h. D. , le ct ur er. Hisr e s e a rc h in t e r es t si nc l ud e in t e ll i g e nt r ob ot an d ma ch in e l ea r n ing .L IUPeng-Fe i, M. S.can d i da t e.Hisr es e a r ch in t e r es t si nc l ud e a rtifici a lin t e lli g en c e  and ro bo t n av i g a ti o np ro bl ems.B ackgr oundL ea r n ing t on a v i ga t einco mp le xe nv iro nm en twithdy namic el eme nt s is a ch a l le n g ei n d ev e lo pi ng Al a ge nt a ndmos t o f to da y’s ro bo t a l gorithm st ru gg le withs u ch c on diti o n.Ins p ire dbyth e r e se a rc h es  a bou t  co gn iti ve  be ha v i or i na nima l s,th er e a r emany na v i ga t i on m eth o ds d e s i gn  th e a g e nt  t o e nc od ee nv iro nm en t a l s tr u ct ur e d u ri ng ex pl or a ti o n p ro ce s s,an dth et y pica l ly us ed a pp ro a c hisSLAM.T h is kin d ofa p p roa c hbu il d sm et ric ma po fu nk no wne n vironme n t byu sin gs e n so ryin for ma ti o n fr omla se r, o dom e t er, so na r o rv isi o n. Th ro u gha p plic a ti o nmoti on i nfo rma ti o n o fr ob ot  an d fea t ur e s of o bs e r?va t i on, th e  a g en t c ang e t a c c ura t e e s t ima t i o n of e nv iro nme n tan du se itt ore a liz e a u t on omo us na v i g a ti on.P ar tic u la r ly6 0 8 计算机学报 2 0 2 1年re l eva n t t o o urw o r k i s v is u al S L AM ( VS LAM) t h a t u se  ima gea s t h ema i n pe r ce p t i o no f  s ta t e sp a c e,a n da i m t o r e co ns t r uc t3 D ma p b y cam er apo s e a n dmu lt i v i e w g eo me t ryt h e o r y. I no r d er t o imp ro v e th e s pe e do f  da t a pr o c e ss i ng , so me VSL AMa lgo ri t h ms e x t ra c t f e a t u re po i nt s o f o b se r va t i o n f i rs tl y , a ndt h e np e rf o rmi nt e r fr ame e st ima t i o n a nd c lo s e d lo opd e t e ct i o nt h ro ughma t c h i ngt h e s epo i nt s . Th e S LAM b a s ed a pp ro a c he sc a n pro v i d eh i ghq u a l i t y e nv i r o n men t ma p , b utt he y a ree xp l i c i t  fo c u so npo s i t i o ni n f e re n c ea ndma p pi ng , a ndn e ede xt er n a l l yp ro vi de d came ra po se o r e go mo t i o ni nf o rma t i o n,a nd d o n o t n a t u ra l ly a cc o mmo da t ed yn ami c e n vi r o n me n t .Mo re re ce nt ly , ma nyre sea rc h ers h av e no t e d t he o u t st a ndi nga b i l i t yo f d ee p le a r ni ng( DL )i no ve r co me t h e pr o b l ems s t e mf ro m di me ns i o na l d i s a s t er,a n d t ryt o  t a k e a dv a nt a g e o f  i t t oh elp na vi g at i o ni n hi gh d ime ns i o na l st a t e s pa ce . So we  co ns i de re du si ngt h e d ee pre i n f o rc e me nt l e a rn i ng( DR L)  , wh i ch c o n s i s to f DL a n d re i n fo rc e men t l ea r ni ng ( R L) a nd a pp lyt o na v i ga t i o nva r yb o t h i nl e a rn i ngmet ho da ndme mo r yr e pr e s en t a t i o n,a sb a s i cl e a r ni ngf r ame wo rk t og et go a l dr i v en b eh a vi o u ra n dme mo r ys p a t i a l st ru c t ur e .I n t h i s p a p er,w epr opo s e dano ve la r c hi t e ct ur e o fn a vi ga t i o n wh i c hc a n bu i l ds p a ce t opo log i c a lma pd ur i ngl ea r n i ngna v i ga t i o n a l po l i c y .T od i r ec tl yp e rc e i v ee nv i ro nme n t a li nf o rma t i o nf ro mv i s ua l i nput s,us i nga na g e nt w i t hDRL f rame w o rk tol e a rn c o nt r o lpo l i c y ,a n dt h ema pi sf o r med ba s e do nt e mpo ra lc o r re la t i o n .C ru c i a l ly ,t he t e mpo ra lc o rr e la t i o n i sa p re d i c t i v e va l ue w h i c hs h ow swh e t h e rt hep a i r so f o b s er va t i o n t empo r a l l yc lo s e o rn o t . T h i sa l lo ws ust o  f i n dn a v i ga t i o n a ln o d e st hr o ughc o mpa r i ng t h e t raje c t o r yr e co rd i ngwi t ht h ema p , a n di nc r e men t a l l yd es c ri be t hee n vi r o n me nt  by i n t eg r a t i nge v e ryo bs e rv a t i o ns eque n c e.T hi swo rk i ss uppo rt b yt h eNa t i o n a lN a t ur a lS c i e n ceFo u nd a t i o n o fC h i n a ( No . 6 1 7 7 3 0 2 7 )  ,t h eN a t ur a lS c i e n ceFo u nd a t i o no fBe iji ng( N o .4 2 0 2 0 0 5 ) , a n dt he P ro j e c t o fS &TP la n o fB e iji ngM un i c i p a lC o mmi s s i o n o fE du c a t i o n( N o .K M2 0 1 8 1 0 0 0 5 0 2 8 ) .

[返回]
上一篇:基于随机化矩阵分解的网络嵌入方法
下一篇:计算机核心和SCI期刊论文发表经验