欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

SCI期刊论文
当前位置:首页 > SCI期刊论文
车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法
来源:一起赢论文网     日期:2022-04-24     浏览数:200     【 字体:

 第4 卷第1 第4 卷第1 2 0 2 1 年1 2 月计算机学报C H I N E S E J O U R N A LO FC O M P U T E R SV o l . 4 4N o .1 2D e c . 2 0 2 1车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法许小龙n ’ 2 )方子介”齐连永3 )窦万春2 )何强4 )段玉聪5 )° ( 南京信息工程大学计算机与软件学院南京2 1 0 0 4 4 )2 )( 南京大学计算机软件新技术国家重点实验室南京2 1 0 0 2 3 )3 )( 曲阜师范大学信息科学与工程学院山东曲阜2 7 3 1 9 9 )4 )( 斯威本科技大学计算机科学与软件工程系墨尔本澳大利亚3 1 2 2 )5 )( 海南大学计算机与网络空间安全学院海口5 7 0 2 2 8 )摘要边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧. 通过将边缘计算引人车联网, 服务提供商能为车载用户提供低延时的服务, 从而提高用户出行的服务体验. 然而, 由于边缘服务器所配备的资源一般是有限的, 不能同时支持所有车联网用户的服务需求, 因此, 如何在边缘服务器资源限制的约束下, 确定服务卸载地点, 为用户提供低时延的服务, 仍然是一个巨大的挑战. 针对上述问题, 本文提出了一种“ 端边云” 协同的5 G 车联网边缘计算系统模型, 并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D S O AC . 首先,通过深度时空残差网络, D S O A C 在中心云预测出潜在的用户服务需求量, 协同各边缘服务器获取本地车联网边缘计算环境的系统状态, 输人边缘服务器上的本地行动者网络, 得到该状态下的服务卸载策略. 然后, 本地评论家网络基于时序差分误差评价该服务卸载策略的优劣, 并指导本地行动者网络进行网络参数的优化. 优化一定步数后, 边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络, 协同中心云进行网络参数的更新. 最后,中心云将最新的参数推送回本地网络, 从而不断对行动者评论家网络进行调优, 获得服务卸载的最优解. 基于来自现实世界的车载用户服务需求数据集的实验结果表明, 在各种车联网边缘计算环境中, 相比于四种现有的服务卸载算法, D S O AC 能够降低0 . 4 % ? 2 0 .  4 % 的用户平均服务时延.关键词边缘计算; 车联网; 服务卸载; 深度时空残差网络; 异步优势行动者评论家中图法分类号T P 3 1 1D O I 号1 0 .  1 1 8 9 7 / S P .  J .  1 0 1 6 .  2 0 2 1 .  0 2 3 8 2AD e e pR e i n fo r c eme n tL e a rn i ng- B a s e dD i s t r i b u t e dS e r v i c eO f f l o a d i ngMe t h o dfo rE dg eC o mp u t i n gE mp owe r e d I n t e rn e to f V e h i c l e sX UX i a 〇L o n g1 ) !2 )F A N GZ i J i e1 5Q I L i a n Y o n g3 )D O UW a n C h u n2 )H EQ i a n g4 )D U A NY u C o n g5 )1 ) { S c h o o l  o f C o mp u t e r  a n d  S o ft wa r e  ? Na nji n g Un i v e r s i t y o f I n fo rma t i o n  S c i e n c e  a n d  Te c h n o l o g y  ^ Na nji n g2 1 0 0 4 4 )2)(. S t a t e K e y L a b o ra t o r y  fo r N o v e l  S o ft wa r e  T e c h n o l o g y ? Na nji n g  Un i v e r s i t y , Na nji n g2 1 0 0 2 3 )3 ){ S c h o o l  o f I n fo rma t i o n  S c i e n c e  a n d  E n g i n e e r i n g  ? Q u fu N o rma l Un i v e r s i t y ?  Qu fu, S h a n d o n g2 7 3 1 9 9 )4 ){ D e p a r L m e n L  o f C o mp u t e r  S c i e n c e  a n d  S o ft wa r e  En g i n e e r i n g  ?  S w i n b u r n e  Un i v e r s i t y o f T e c h n o l o g y  ^ Me l b o u rn e  3 1 2 2 , A u s t ra l i a )5 ){ S c h o o l  o f C o mp u t e r  S c i e n c e  a n d  C y b e r s p a c e  S e c u r i t y ? Ha i n a n  Un i v e r s i t y ?  I l a i k o u5 7 0 2 2 8 )A b s t r a c tT h e  i n c r e a s i n g  n u m b e r  o f  v e h i c l e s, a l o n g w i t h  t h e  d e v e l o p m e n t  o f  t h e  f i f t h g e n e r a t i o n( 5 G )w i r e l e s sc o m m u n i c a t i o n t e c h n o l o g y ,h a s m a d e t h e i n t e r c o n n e c t i o n sb e t w e e nv e h i c l e sa n do t h e r  o bje c t s  ( e .  g ., p e d e s t r i a n s,  i n f r a s t r u c t u r e s,  a n d  s e r v i c e p l a t f o r m s ) b e c o m e  a  r e a l i t y , w h i c h收稿日期:2 0 2 0 1 0 0 9; 在线发布日期:2 0 2 1 0 3 2 9 . 本课题得到江苏省重点研发计划项目( B E 2 0 1 9 1 0 4 ) 、国家自然科学基金( 6 1 8 7 2 2 1 9 ) 、国家重点研发计划( 2 0 1 7 YF B 1 4 0 0 6 0 0 ) 、新疆生产建设兵团科技计划项目( 2 0 2 0 DB 0 0 5 ) 资助. 许小龙, 博士, 教授, 硕士生导师, 中国计算机学会( CCF ) 会员, 主要研究领域为边缘计算、云计算和服务计算. E m a i l:e d u . c n . 方子介, 学士, 主要研究方向为边缘计算、深度学习. 齐连永( 通信作者) , 博士, 教授, 博士生导师, 主要研究领域为服务计算、推荐系统和隐私保护. E m a i l: l i a n y 〇n g q i @ g m a i l .  c o m .窦万春, 博士, 教授, 博士生导师, 主要研究领域为大数据、云计算和边缘计算. 何强, 博士, 髙级讲师, 博士生导师, 主要研究领域为边缘计算、软件工程和云计算. 段玉聪, 博士, 教授, 博士生导师, 中国计算机学会( C CF ) 会员, 主要研究领域为信息安全、人工智能和大数据.许小龙等: 车联网边缘计算环境下基于深度强化1 2 期 学 习 的 分布 式 服务 卸 载 方 法 2 3 8 3f o r m s  a  n o v e l  n e t w o r k i ng  p a r a d i g m : t h e  I n t e r n e t  o f V e h i c l e s  ( I o V ) .I n  t h e  I o V ,d u e  t o  t h e  r a p i ds p e e d o f  t h e  v e h i c l e s,s e r v i c e s  s u c h  a s  r o u t e r e c o m m e n d a t i o n  a n d  c o l l i s i o n w a r n i ng a r e  r e q u i r e dt o  b e  s a t i s f i e d  i n  t i m e .T h a n k s  t o  t h e  b i r t h  o f  e dg e  c o mpu t i ng , w h i c h  d e p l o y s  r e s o u r c e s( e .  g .,c o m pu t a t i o n ,s t o r a g e,a n db a n d w i d t h )a tt h es i d ec l o s et ot h eu s e r s,t h e r e b yr e d u c i ngt h et r a n s m i s s i o n  l a t e n c ya n d a l l e v i a t i n g  t h e  n e t w o r k  l o a d,  s e r v i c e p r o v i d e r s  c a n  e f f i c i e n t l y s e r v e  u s e r sw i t h  l o w l a t e n c y s e r v i c e s  b y i n t r o d u c i n ge d g e c o m p u t i n g  i n t o  t h e  I o V .N e v e r t h e l e s s,s i n c e t h ee d g e  s e r v e r s  a r e  o f t e n  l i m i t e d w i t h  i n s u f f i c i e n t  r e s o u r c e s,p r o b l e m s  s u c h  a s  o v e r l o a dw o u l d  o c c u ri f  a l l  t h e s e r v i c e sr e q u e s t e d b yt h e I o Vu s e r sa r e o f f l o a d e d t ot h ee d g e s e r v e r sf o re x e c u t i n g ,w h i c h w i l l  s i g n i f i c a n t l y  s l o w d o w n  t h e  p r o c e s s i n g  s p e e d a n d  r e d u c e  t h e  q u a l i t y o f  s e r v i c e ( Q o S )p r o v i d e d b y  t h e  e dg e  s e r v e r s .T h e r e f o r e, h o w t o  a l l o c a t e  t h e  l i m i t e d  c o m pu t a t i o n  a n d b a n dw i d t hr e s o u r c e s  o f  t h e  e dg e  s e r v e r s  t o  t h e  I o V s e r v i c e s  a n d  d e t e r m i n e  t h e  o f f l o a d i ng d e s t i n a t i o n s  o f  t h es e r v i c e s t os e r v et h eI o Vu s e r sw i t hl o w l a t e n c ys e r v i c e ss t i l lr e m a i n se n o r m o u sc h a l l e ng e .T o w a r d t h i se n d,a ne n d e dg e c l o u d c o l l a b o r a t i v e c o m pu t i ng  f r am e w o r k  f o r5 G e n a b l e d  I o Vi sp r o p o s e d i n t h i s  p a p e r .B a s e do n t h i s f r a m e w o r k, a d i s t r i b u t e d s e r v i c e o f f l o a d i n g m e t h o dw i t ha s y n c h r o n o u sa d v a n t a g ea c t o r c r i t i c( A 3 C ) ,n am e dD S O A C ,i sd e v e l o p e dt of i g u r eo u t t h eo p t i m a l  s e r v i c e  o f f l o a d i n g  s t r a t e g y .S p e c i f i c a l l y ,b y l e v e r a g i n g t h e  d e e p s p a t i o t e m p o r a l  r e s i d u a ln e t w o r k  ( S T R e s N e t )  ,D S O A C p r e d i c t s  t h e  f u t u r e  s e r v i c e  r e q u i r e m e n t s  f r o m t h e  I o Vu s e r s  i ne a c h  r o a d  s e g m e n t  f i r s t l ya n d s e n d s  t h e m t o  t h e  l o c a l e dg e  s e r v e r  d e p l o y e d i n  t h e  r o a d s e g m e n t .S e c o n d l y , t h r o ugh  c o m b i n i ng  t h e  l o c a l  f u t u r e  s e r v i c e  r e q u i r e m e n t s w i t h  t h e  l o c a l  c o m m u n i c a t i o nc o n d i t i o n  ( e .  g .  ,t r a n s m i s s i o n  po w e r  a n d c h a n n e l  g a i n )a n d  t h e  l o c a l r e s o u r c e c o n d i t i o n( e .  g .,r e m a i n i ng  c o m pu t a t i o n  r e s o u r c e sa n db a n dw i d t hr e s o u r c e so ft h el o c a le dg es e r v e r )i n t ol o c a ls y s t e m s t a t e s,e a c h e d g e  s e r v e r  f e e d s  t h e  l o c a l  s y s t e m s t a t e  i n t o  t h e  l o c a l  a c t o r n e t w o r k  t o  o b t a i nt h e  p r e l i m i n a r y s e r v i c e o f f l o a d i n g  s t r a t e g y .T e c h n i c a l l y ,t o a v o i d d i m e n s i o n e x p l o s i o n  o f  a c t i o ns p a c e i nA 3 C ,am u l t i o u t p u ta c t o rn e t w o r ki si n t r o d u c e d .T h i r d l y ,b a s e do nt h et e m p o r a ld i f f e r e n c e  ( T D )e r r o r, t h e  l o c a l c r i t i c  n e t w o r k e v a l u a t e s  t h e  p r e l i m i n a r y o f f l o a d i n g s t r a t e g y  a n dc a l c u l a t e s  i t sp a r am e t e rg r a d i e n t,w h i c hf u r t h e rg u i d e st h eg r a d i e n ta s c e n to f t h el o c a l a c t o rn e t w o r k  f o r g r a d i e n t a c c u m u l a t i o n .A f t e r t h e a c c u m u l a t i o n  o f  t h e  p a r a m e t e r  g r a d i e n t,t h e l o c a ln e t w o r k pu s h e s  t h e  a c c u m u l a t e d g r a d i e n t  t o  t h e g l o b a l  n e t w o r k  i n  t h e  c l o u d  c e n t e r  f o r p a r am e t e rupd a t i ng a n d pu l l s  t h e  upd a t e d g l o b a l  n e t w o r k p a r a m e t e r s  b a c k  t o  t h e  l o c a l  n e t w o r k s  a f t e r w a r d,t h e r e b y c o l l a b o r a t i ngw i t ht h eg l o b a l n e t w o r ki nop t i m i z i ngt h ep r e l i m i n a r ys e r v i c eo f f l o a d i ngs t r a t e g y s t e a d i l ya n do b t a i n i n gt h eo p t i m a ls e r v i c eo f f l o a d i n gs t r a t e g y .E v e n t u a l l y ,e x t e n s i v ee x p e r i m e n t a l  e v a l u a t i o n s  o f D S O A C a r e  c o n d u c t e d  b a s e d  o n  a  b i g  r e a l w o r l d s e r v i c e  r e q u i r e m e n td a t a s e t .T h e  e x p e r i m e n t  r e s u l t s  d e m o n s t r a t e  t h a t D S O A C d e c r e a s e s  t h e  a v e r a g e  s e r v i c e  l a t e n c yb y 0 .  4 %t o2 0 .  4 %c o m p a r e dw i t hf o u re x i s t i n gs e r v i c eo f f l o a d i n gm e t h o d si nd i f f e r e n tI o Ve n v i r o n m e n t s ,p r o v i n g  t h e  e f f e c t i v e n e s s  a n d e f f i c i e n c y o f D S O A C .K eywo r d se dg e  c ompu t i ng ;I n t e r n e t  o f  v e h i c l e s;s e r v i c e  o f f l o a d i ng ; d e e p  s p a t i o t empo r a l  r e s i d u a ln e t w o r k;a s y n c h r o n o u s  a d v a n t a g e  a c t o r c r i t i ci 引言据研究, 目前全世界商用和民用车辆数之和已经超过了 1 0 亿. 到2 0 3 5 年, 预计这一数字将会达到2 0 亿[1]. 汽车保有量的增加, 给城市带来了诸如交通拥堵、行车安全等一系列问题[2]. 与此同时, 互联网的迅速发展使得人们对出行的服务需求更加复杂和多样化? 在此背景下, 车联网( I n t e r n e t  o f V e h i c l e s,I o V ) 应运而生. 基于车用无线通信技术( V e h i c l e toE v e r y t h i ng , V 2 X ) , 车联网将车辆、路边单元( R o a d s i d eUm t, R SU ) 以及服务提供商连接为一个有机的网络2 3 8 4 计算机学报 2 0 2 1 年整体, 实现了它们之间的全方位通信M . 通过车联网, 服务提供商能够获取用户服务需求和道路环境信息, 基于这些数据为车载用户提供例如自动驾驶、路径规划、碰撞预警、车载娱乐等多种服务. 这些服务能够有效地缓解城市中的各种道路交通问题, 提高了驾驶安全性和旅途舒适性, 用户体验( Q u a l i t yo f E x p e r i e n c e, Q o E ) 也因此得以提高[ 4 ].一般而言, 搭载在车辆上的计算设备的计算能力有限, 甚至某些车辆不会搭载计算设备[5]. 目前最常见的解决方案是将车联网用户的服务需求卸载到云端进行处理[6]. 云平台将用户的服务需求处理完成后, 再将结果传回车联网用户. 然而, 由于云端和用户之间的地理距离较远, 将服务卸载到云端进行处理再返回的过程往往会产生较长的时延. 与此同时, 车联网中的用户通常处于高速移动的状态, 这要求用户服务应在极低的时延之内完成. 如果某一些服务( 例如, 碰撞预警) 的延迟超过了一定限度, 会导致服务质量( Q u a l i t yo f  S e r v i c e, Q o S ) 的下降甚至交通事故的发生[ 7 ].边缘计算作为解决此矛盾的可行方案之一, 通过在R S U 上部署边缘服务器( E d g e S e r v e r, E S ) , 将原来集中在云端的计算资源分布到靠近车联网用户一侧[8]. 因此, 车联网用户和计算资源的距离得以大大缩短, 所获服务的时延也得以降低. 有鉴于此, 目前已有大量案例将边缘计算运用在车联网环境中.例如, 文献[ 9 ] 中提出了一种名为H V C C H y b r i dV eh i c u l a r E dg e C l o u d ) 的分布式车联网边缘计算解决方案. 利用多路存取网络, 该方法实现了路边单元和云端计算资源的有效共享. C m 等人为车联网环境设计了一种基于区块链的容器化边缘计算平台C U T E , 该平台能够协助车联网进行资源协调和管理, 从而降低用户的服务时延[1 °].但是, 由于边缘服务器所配备的计算、存储和带宽资源往往是有限的, 很难保证将所有车联网用户的服务请求卸载到边缘服务器后, 边缘服务器仍不处于过载状态.一旦边缘服务器发生过载, 服务时延将会升高, 用户体验也会相应地降低[1 1]. 因此, 某些车联网用户的服务请求仍需在云平台或者本地执行, 从而保证边缘服务器资源的使用效率. 如何在满足边缘服务器资源受限的约束下, 对车联网用户服务的卸载目的地进行决策, 尽可能地降低服务时延, 是车联网边缘计算中极具挑战性的问题之.此外, 第五代无线通信技术( 5 G ) 的快速发展给车联网边缘计算赋予了巨大的动能. 相比于传统的第四代无线通信技术( 4 G ) ,5 G 能够为车联网服务提供更大的带宽、更低的延时以及更少的能耗. 更重要的是, 车联网用户的移动性给网络连接的稳定性带来极大的挑战, 传统的4 G 通信并不能保证用户在高速移动时网络连接依然稳定. 而如果采用基于5 G 的无线通信, 即使用户的移动速度达到5 0 0  k m / h, 仍能保证稳定的网络连接与通信[1 2]. 因此, 将5 G 技术引人车联网边缘计算中是十分必要的.在车联网边缘计算环境中, 网络环境、计算资源和用户服务需求等无时无刻不处在变化状态. 其中服务卸载的决策过程可以抽象为马尔科夫决策过程( M a r k o vD e c i s i o nP r o c e s s, M D P )[1 3]. 强化学习( R e i n f o r c e m e n t L e a r n i ng , R L ) 作为人工智能领域的一部分, 是一类通过智能体在和环境的交互过程中不断试错, 学习如何得到最大收益的方法, 能够有效求解马尔科夫决策问题[1 4]. 此外, 近年来深度学习( D e e p L e ara m g , D L ) 的快速发展, 使得计算机学习数据的高维抽象特征表示成为了可能[1 5]. 深度强化学习( D e e pR e i n f o r c e m e n t L e a r n i ng , D R L ) 将深度学习和强化学习结合, 较好地解决了传统强化学习无法应用于高维度状态空间和动作空间的问题,进一步提高了强化学习求解问题的能力[1 6].目前为止, 虽然有一些研究已将深度强化学习应用于5 G 车联网边缘计算服务卸载中, 但这些研究存在着两方面的问题.一方面是, 某些研究, 例如文献[1 7 ] , 仅仅将强化学习作为优化目标函数例如时延、能耗的一种手段, 而并未考虑环境的动态变化, 真正运用强化学习对边缘计算环境中用户服务进行长期的、动态的服务卸载决策. 另一方面, 某些研究, 例如文献[1 8 ] 和文献[1 9 ] , 虽然利用强化学习解决了服务卸载的动态决策问题, 但是设计的服务卸载方法同时考虑环境中所有的边缘服务器, 而没有考虑边缘服务器的分布式特征. 因此, 当边缘服务器数量较多或者服务需求量较大时, 会导致状态空间和动作空间维度爆炸, 造成网络参数过多、训练缓慢甚至难于训练等问题.总的来说, 如何在考虑许小龙n ’ 2 )方子介”齐连永3 )窦万春2 )何强4 )段玉聪5 )° ( 南京信息工程大学计算机与软件学院南京2 1 0 0 4 4 )2 )( 南京大学计算机软件新技术国家重点实验室南京2 1 0 0 2 3 )3 )( 曲阜师范大学信息科学与工程学院山东曲阜2 7 3 1 9 9 )4 )( 斯威本科技大学计算机科学与软件工程系墨尔本澳大利亚3 1 2 2 )5 )( 海南大学计算机与网络空间安全学院海口5 7 0 2 2 8 )摘要边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧. 通过将边缘计算引人车联网, 服务提供商能为车载用户提供低延时的服务, 从而提高用户出行的服务体验. 然而, 由于边缘服务器所配备的资源一般是有限的, 不能同时支持所有车联网用户的服务需求, 因此, 如何在边缘服务器资源限制的约束下, 确定服务卸载地点, 为用户提供低时延的服务, 仍然是一个巨大的挑战. 针对上述问题, 本文提出了一种“ 端边云” 协同的5 G 车联网边缘计算系统模型, 并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D S O AC . 首先,通过深度时空残差网络, D S O A C 在中心云预测出潜在的用户服务需求量, 协同各边缘服务器获取本地车联网边缘计算环境的系统状态, 输人边缘服务器上的本地行动者网络, 得到该状态下的服务卸载策略. 然后, 本地评论家网络基于时序差分误差评价该服务卸载策略的优劣, 并指导本地行动者网络进行网络参数的优化. 优化一定步数后, 边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络, 协同中心云进行网络参数的更新. 最后,中心云将最新的参数推送回本地网络, 从而不断对行动者评论家网络进行调优, 获得服务卸载的最优解. 基于来自现实世界的车载用户服务需求数据集的实验结果表明, 在各种车联网边缘计算环境中, 相比于四种现有的服务卸载算法, D S O AC 能够降低0 . 4 % ? 2 0 .  4 % 的用户平均服务时延.关键词边缘计算; 车联网; 服务卸载; 深度时空残差网络; 异步优势行动者评论家中图法分类号T P 3 1 1D O I 号1 0 .  1 1 8 9 7 / S P .  J .  1 0 1 6 .  2 0 2 1 .  0 2 3 8 2AD e e pR e i n fo r c eme n tL e a rn i ng- B a s e dD i s t r i b u t e dS e r v i c eO f f l o a d i ngMe t h o dfo rE dg eC o mp u t i n gE mp owe r e d I n t e rn e to f V e h i c l e sX UX i a 〇L o n g1 ) !2 )F A N GZ i J i e1 5Q I L i a n Y o n g3 )D O UW a n C h u n2 )H EQ i a n g4 )D U A NY u C o n g5 )1 ) { S c h o o l  o f C o mp u t e r  a n d  S o ft wa r e  ? Na nji n g Un i v e r s i t y o f I n fo rma t i o n  S c i e n c e  a n d  Te c h n o l o g y  ^ Na nji n g2 1 0 0 4 4 )2)(. S t a t e K e y L a b o ra t o r y  fo r N o v e l  S o ft wa r e  T e c h n o l o g y ? Na nji n g  Un i v e r s i t y , Na nji n g2 1 0 0 2 3 )3 ){ S c h o o l  o f I n fo rma t i o n  S c i e n c e  a n d  E n g i n e e r i n g  ? Q u fu N o rma l Un i v e r s i t y ?  Qu fu, S h a n d o n g2 7 3 1 9 9 )4 ){ D e p a r L m e n L  o f C o mp u t e r  S c i e n c e  a n d  S o ft wa r e  En g i n e e r i n g  ?  S w i n b u r n e  Un i v e r s i t y o f T e c h n o l o g y  ^ Me l b o u rn e  3 1 2 2 , A u s t ra l i a )5 ){ S c h o o l  o f C o mp u t e r  S c i e n c e  a n d  C y b e r s p a c e  S e c u r i t y ? Ha i n a n  Un i v e r s i t y ?  I l a i k o u5 7 0 2 2 8 )A b s t r a c tT h e  i n c r e a s i n g  n u m b e r  o f  v e h i c l e s, a l o n g w i t h  t h e  d e v e l o p m e n t  o f  t h e  f i f t h g e n e r a t i o n( 5 G )w i r e l e s sc o m m u n i c a t i o n t e c h n o l o g y ,h a s m a d e t h e i n t e r c o n n e c t i o n sb e t w e e nv e h i c l e sa n do t h e r  o bje c t s  ( e .  g ., p e d e s t r i a n s,  i n f r a s t r u c t u r e s,  a n d  s e r v i c e p l a t f o r m s ) b e c o m e  a  r e a l i t y , w h i c h收稿日期:2 0 2 0 1 0 0 9; 在线发布日期:2 0 2 1 0 3 2 9 . 本课题得到江苏省重点研发计划项目( B E 2 0 1 9 1 0 4 ) 、国家自然科学基金( 6 1 8 7 2 2 1 9 ) 、国家重点研发计划( 2 0 1 7 YF B 1 4 0 0 6 0 0 ) 、新疆生产建设兵团科技计划项目( 2 0 2 0 DB 0 0 5 ) 资助. 许小龙, 博士, 教授, 硕士生导师, 中国计算机学会( CCF ) 会员, 主要研究领域为边缘计算、云计算和服务计算. E m a i l:e d u . c n . 方子介, 学士, 主要研究方向为边缘计算、深度学习. 齐连永( 通信作者) , 博士, 教授, 博士生导师, 主要研究领域为服务计算、推荐系统和隐私保护. E m a i l: l i a n y 〇n g q i @ g m a i l .  c o m .窦万春, 博士, 教授, 博士生导师, 主要研究领域为大数据、云计算和边缘计算. 何强, 博士, 髙级讲师, 博士生导师, 主要研究领域为边缘计算、软件工程和云计算. 段玉聪, 博士, 教授, 博士生导师, 中国计算机学会( C CF ) 会员, 主要研究领域为信息安全、人工智能和大数据.许小龙等: 车联网边缘计算环境下基于深度强化1 2 期 学 习 的 分布 式 服务 卸 载 方 法 2 3 8 3f o r m s  a  n o v e l  n e t w o r k i ng  p a r a d i g m : t h e  I n t e r n e t  o f V e h i c l e s  ( I o V ) .I n  t h e  I o V ,d u e  t o  t h e  r a p i ds p e e d o f  t h e  v e h i c l e s,s e r v i c e s  s u c h  a s  r o u t e r e c o m m e n d a t i o n  a n d  c o l l i s i o n w a r n i ng a r e  r e q u i r e dt o  b e  s a t i s f i e d  i n  t i m e .T h a n k s  t o  t h e  b i r t h  o f  e dg e  c o mpu t i ng , w h i c h  d e p l o y s  r e s o u r c e s( e .  g .,c o m pu t a t i o n ,s t o r a g e,a n db a n d w i d t h )a tt h es i d ec l o s et ot h eu s e r s,t h e r e b yr e d u c i ngt h et r a n s m i s s i o n  l a t e n c ya n d a l l e v i a t i n g  t h e  n e t w o r k  l o a d,  s e r v i c e p r o v i d e r s  c a n  e f f i c i e n t l y s e r v e  u s e r sw i t h  l o w l a t e n c y s e r v i c e s  b y i n t r o d u c i n ge d g e c o m p u t i n g  i n t o  t h e  I o V .N e v e r t h e l e s s,s i n c e t h ee d g e  s e r v e r s  a r e  o f t e n  l i m i t e d w i t h  i n s u f f i c i e n t  r e s o u r c e s,p r o b l e m s  s u c h  a s  o v e r l o a dw o u l d  o c c u ri f  a l l  t h e s e r v i c e sr e q u e s t e d b yt h e I o Vu s e r sa r e o f f l o a d e d t ot h ee d g e s e r v e r sf o re x e c u t i n g ,w h i c h w i l l  s i g n i f i c a n t l y  s l o w d o w n  t h e  p r o c e s s i n g  s p e e d a n d  r e d u c e  t h e  q u a l i t y o f  s e r v i c e ( Q o S )p r o v i d e d b y  t h e  e dg e  s e r v e r s .T h e r e f o r e, h o w t o  a l l o c a t e  t h e  l i m i t e d  c o m pu t a t i o n  a n d b a n dw i d t hr e s o u r c e s  o f  t h e  e dg e  s e r v e r s  t o  t h e  I o V s e r v i c e s  a n d  d e t e r m i n e  t h e  o f f l o a d i ng d e s t i n a t i o n s  o f  t h es e r v i c e s t os e r v et h eI o Vu s e r sw i t hl o w l a t e n c ys e r v i c e ss t i l lr e m a i n se n o r m o u sc h a l l e ng e .T o w a r d t h i se n d,a ne n d e dg e c l o u d c o l l a b o r a t i v e c o m pu t i ng  f r am e w o r k  f o r5 G e n a b l e d  I o Vi sp r o p o s e d i n t h i s  p a p e r .B a s e do n t h i s f r a m e w o r k, a d i s t r i b u t e d s e r v i c e o f f l o a d i n g m e t h o dw i t ha s y n c h r o n o u sa d v a n t a g ea c t o r c r i t i c( A 3 C ) ,n am e dD S O A C ,i sd e v e l o p e dt of i g u r eo u t t h eo p t i m a l  s e r v i c e  o f f l o a d i n g  s t r a t e g y .S p e c i f i c a l l y ,b y l e v e r a g i n g t h e  d e e p s p a t i o t e m p o r a l  r e s i d u a ln e t w o r k  ( S T R e s N e t )  ,D S O A C p r e d i c t s  t h e  f u t u r e  s e r v i c e  r e q u i r e m e n t s  f r o m t h e  I o Vu s e r s  i ne a c h  r o a d  s e g m e n t  f i r s t l ya n d s e n d s  t h e m t o  t h e  l o c a l e dg e  s e r v e r  d e p l o y e d i n  t h e  r o a d s e g m e n t .S e c o n d l y , t h r o ugh  c o m b i n i ng  t h e  l o c a l  f u t u r e  s e r v i c e  r e q u i r e m e n t s w i t h  t h e  l o c a l  c o m m u n i c a t i o nc o n d i t i o n  ( e .  g .  ,t r a n s m i s s i o n  po w e r  a n d c h a n n e l  g a i n )a n d  t h e  l o c a l r e s o u r c e c o n d i t i o n( e .  g .,r e m a i n i ng  c o m pu t a t i o n  r e s o u r c e sa n db a n dw i d t hr e s o u r c e so ft h el o c a le dg es e r v e r )i n t ol o c a ls y s t e m s t a t e s,e a c h e d g e  s e r v e r  f e e d s  t h e  l o c a l  s y s t e m s t a t e  i n t o  t h e  l o c a l  a c t o r n e t w o r k  t o  o b t a i nt h e  p r e l i m i n a r y s e r v i c e o f f l o a d i n g  s t r a t e g y .T e c h n i c a l l y ,t o a v o i d d i m e n s i o n e x p l o s i o n  o f  a c t i o ns p a c e i nA 3 C ,am u l t i o u t p u ta c t o rn e t w o r ki si n t r o d u c e d .T h i r d l y ,b a s e do nt h et e m p o r a ld i f f e r e n c e  ( T D )e r r o r, t h e  l o c a l c r i t i c  n e t w o r k e v a l u a t e s  t h e  p r e l i m i n a r y o f f l o a d i n g s t r a t e g y  a n dc a l c u l a t e s  i t sp a r am e t e rg r a d i e n t,w h i c hf u r t h e rg u i d e st h eg r a d i e n ta s c e n to f t h el o c a l a c t o rn e t w o r k  f o r g r a d i e n t a c c u m u l a t i o n .A f t e r t h e a c c u m u l a t i o n  o f  t h e  p a r a m e t e r  g r a d i e n t,t h e l o c a ln e t w o r k pu s h e s  t h e  a c c u m u l a t e d g r a d i e n t  t o  t h e g l o b a l  n e t w o r k  i n  t h e  c l o u d  c e n t e r  f o r p a r am e t e rupd a t i ng a n d pu l l s  t h e  upd a t e d g l o b a l  n e t w o r k p a r a m e t e r s  b a c k  t o  t h e  l o c a l  n e t w o r k s  a f t e r w a r d,t h e r e b y c o l l a b o r a t i ngw i t ht h eg l o b a l n e t w o r ki nop t i m i z i ngt h ep r e l i m i n a r ys e r v i c eo f f l o a d i ngs t r a t e g y s t e a d i l ya n do b t a i n i n gt h eo p t i m a ls e r v i c eo f f l o a d i n gs t r a t e g y .E v e n t u a l l y ,e x t e n s i v ee x p e r i m e n t a l  e v a l u a t i o n s  o f D S O A C a r e  c o n d u c t e d  b a s e d  o n  a  b i g  r e a l w o r l d s e r v i c e  r e q u i r e m e n td a t a s e t .T h e  e x p e r i m e n t  r e s u l t s  d e m o n s t r a t e  t h a t D S O A C d e c r e a s e s  t h e  a v e r a g e  s e r v i c e  l a t e n c yb y 0 .  4 %t o2 0 .  4 %c o m p a r e dw i t hf o u re x i s t i n gs e r v i c eo f f l o a d i n gm e t h o d si nd i f f e r e n tI o Ve n v i r o n m e n t s ,p r o v i n g  t h e  e f f e c t i v e n e s s  a n d e f f i c i e n c y o f D S O A C .K eywo r d se dg e  c ompu t i ng ;I n t e r n e t  o f  v e h i c l e s;s e r v i c e  o f f l o a d i ng ; d e e p  s p a t i o t empo r a l  r e s i d u a ln e t w o r k;a s y n c h r o n o u s  a d v a n t a g e  a c t o r c r i t i ci 引言据研究, 目前全世界商用和民用车辆数之和已经超过了 1 0 亿. 到2 0 3 5 年, 预计这一数字将会达到2 0 亿[1]. 汽车保有量的增加, 给城市带来了诸如交通拥堵、行车安全等一系列问题[2]. 与此同时, 互联网的迅速发展使得人们对出行的服务需求更加复杂和多样化? 在此背景下, 车联网( I n t e r n e t  o f V e h i c l e s,I o V ) 应运而生. 基于车用无线通信技术( V e h i c l e toE v e r y t h i ng , V 2 X ) , 车联网将车辆、路边单元( R o a d s i d eUm t, R SU ) 以及服务提供商连接为一个有机的网络2 3 8 4 计算机学报 2 0 2 1 年整体, 实现了它们之间的全方位通信M . 通过车联网, 服务提供商能够获取用户服务需求和道路环境信息, 基于这些数据为车载用户提供例如自动驾驶、路径规划、碰撞预警、车载娱乐等多种服务. 这些服务能够有效地缓解城市中的各种道路交通问题, 提高了驾驶安全性和旅途舒适性, 用户体验( Q u a l i t yo f E x p e r i e n c e, Q o E ) 也因此得以提高[ 4 ].一般而言, 搭载在车辆上的计算设备的计算能力有限, 甚至某些车辆不会搭载计算设备[5]. 目前最常见的解决方案是将车联网用户的服务需求卸载到云端进行处理[6]. 云平台将用户的服务需求处理完成后, 再将结果传回车联网用户. 然而, 由于云端和用户之间的地理距离较远, 将服务卸载到云端进行处理再返回的过程往往会产生较长的时延. 与此同时, 车联网中的用户通常处于高速移动的状态, 这要求用户服务应在极低的时延之内完成. 如果某一些服务( 例如, 碰撞预警) 的延迟超过了一定限度, 会导致服务质量( Q u a l i t yo f  S e r v i c e, Q o S ) 的下降甚至交通事故的发生[ 7 ].边缘计算作为解决此矛盾的可行方案之一, 通过在R S U 上部署边缘服务器( E d g e S e r v e r, E S ) , 将原来集中在云端的计算资源分布到靠近车联网用户一侧[8]. 因此, 车联网用户和计算资源的距离得以大大缩短, 所获服务的时延也得以降低. 有鉴于此, 目前已有大量案例将边缘计算运用在车联网环境中.例如, 文献[ 9 ] 中提出了一种名为H V C C H y b r i dV eh i c u l a r E dg e C l o u d ) 的分布式车联网边缘计算解决方案. 利用多路存取网络, 该方法实现了路边单元和云端计算资源的有效共享. C m 等人为车联网环境设计了一种基于区块链的容器化边缘计算平台C U T E , 该平台能够协助车联网进行资源协调和管理, 从而降低用户的服务时延[1 °].但是, 由于边缘服务器所配备的计算、存储和带宽资源往往是有限的, 很难保证将所有车联网用户的服务请求卸载到边缘服务器后, 边缘服务器仍不处于过载状态.一旦边缘服务器发生过载, 服务时延将会升高, 用户体验也会相应地降低[1 1]. 因此, 某些车联网用户的服务请求仍需在云平台或者本地执行, 从而保证边缘服务器资源的使用效率. 如何在满足边缘服务器资源受限的约束下, 对车联网用户服务的卸载目的地进行决策, 尽可能地降低服务时延, 是车联网边缘计算中极具挑战性的问题之.此外, 第五代无线通信技术( 5 G ) 的快速发展给车联网边缘计算赋予了巨大的动能. 相比于传统的第四代无线通信技术( 4 G ) ,5 G 能够为车联网服务提供更大的带宽、更低的延时以及更少的能耗. 更重要的是, 车联网用户的移动性给网络连接的稳定性带来极大的挑战, 传统的4 G 通信并不能保证用户在高速移动时网络连接依然稳定. 而如果采用基于5 G 的无线通信, 即使用户的移动速度达到5 0 0  k m / h, 仍能保证稳定的网络连接与通信[1 2]. 因此, 将5 G 技术引人车联网边缘计算中是十分必要的.在车联网边缘计算环境中, 网络环境、计算资源和用户服务需求等无时无刻不处在变化状态. 其中服务卸载的决策过程可以抽象为马尔科夫决策过程( M a r k o vD e c i s i o nP r o c e s s, M D P )[1 3]. 强化学习( R e i n f o r c e m e n t L e a r n i ng , R L ) 作为人工智能领域的一部分, 是一类通过智能体在和环境的交互过程中不断试错, 学习如何得到最大收益的方法, 能够有效求解马尔科夫决策问题[1 4]. 此外, 近年来深度学习( D e e p L e ara m g , D L ) 的快速发展, 使得计算机学习数据的高维抽象特征表示成为了可能[1 5]. 深度强化学习( D e e pR e i n f o r c e m e n t L e a r n i ng , D R L ) 将深度学习和强化学习结合, 较好地解决了传统强化学习无法应用于高维度状态空间和动作空间的问题,进一步提高了强化学习求解问题的能力[1 6].目前为止, 虽然有一些研究已将深度强化学习应用于5 G 车联网边缘计算服务卸载中, 但这些研究存在着两方面的问题.一方面是, 某些研究, 例如文献[1 7 ] , 仅仅将强化学习作为优化目标函数例如时延、能耗的一种手段, 而并未考虑环境的动态变化, 真正运用强化学习对边缘计算环境中用户服务进行长期的、动态的服务卸载决策. 另一方面, 某些研究, 例如文献[1 8 ] 和文献[1 9 ] , 虽然利用强化学习解决了服务卸载的动态决策问题, 但是设计的服务卸载方法同时考虑环境中所有的边缘服务器, 而没有考虑边缘服务器的分布式特征. 因此, 当边缘服务器数量较多或者服务需求量较大时, 会导致状态空间和动作空间维度爆炸, 造成网络参数过多、训练缓慢甚至难于训练等问题.总的来说, 如何在考虑

[返回]
上一篇:弹性高超声速飞行器智能控制系统设计
下一篇:移动边缘计算下基于联邦学习的动态QoS优化