论文笔记

此篇博文用于记录阅读一些论文之后所得。

Computation Offloading in Multi-access Edge Computing using Deep Sequential Model based on Reinforcement Learning

一、论文解决了什么问题？
由于MEC卸载问题是NP-hard的，现有的卸载策略研究大多都基于启发式算法，但随着MEC应用和无线网络体系结构的日益复杂，任何启发式的卸载策略都很难完全适应MEC中的各种场景。为了解决任务依赖性和适应动态场景的挑战，文中提出了一种新的基于DRL的卸载框架。提出的解决方案可以自动发现各种应用程序背后的通用模式，从而在不同的场景中推断出最优的卸载策略。提出的方案的目标是最小化服务的总体延时。

二、怎么解决的？
在文中用了深度强化学习来解决问题，将状态空间表示为已编码的DAG和卸载计划的组合，S=(G,A1:i),G表示DAG,A1:i表示前i个任务的卸载计划的向量。将动作空间定义为A={1,0}，1表示卸载，0表示在本地执行。将奖励定义为做出决定后的延迟估计负增量。

三、有什么亮点？
虽然目前已经有基于DRL的卸载方法，但是它们都假定任务是独立的，在文中考虑了一般任务的依赖关系，并将其建模为有向无环图。这是首次在考虑一般任务的情况下解决MEC中的卸载问题。受以往旅行商问题的启发，利用具有DRL训练的S2S神将网络来解决MEC中的任务卸载问题。

Online Learning for Offloading and Autoscaling in Energy Harvesting Mobile Edge Computing

一、论文解决了什么问题？
为支持移动边缘计算而提供电网供电是昂贵的，在某些欠发达地区甚至是不可行的，因此在越来越多的情况下，要求现场可再生资源作为主要甚至唯一的电力供应。然而，可再生能源具有高间歇性和不可预测性。在文中将可再生能源纳入移动边缘计算，提出了一种有效的基于强化学习的资源管理算法，学习动态最优策略的动态负载卸载（对于集中云）和边缘服务器配置长期系统成本最小化（包括服务延迟和运营成本）。

二、问题是怎么解决的？
在文中提出了一种新的基于决策后状态（PDS）的学习算法。该算法使用了(离线)值迭代和(在线)增强学习的分解，允许以批处理方式学习算法的许多组件，与一般强化学习算法相比具有良好的收敛性。

三、有什么亮点？
使用了基于PDS算法之后，在基于PDS的贝尔曼方程中，期望操作与最小化操作是分离的，如果我们能够得到决策后最优值函数，那么最小化即可在无任何对系统动力学先验知识的条件下完成；此算法将环境动力学拆分为几个组件，使得我们可以以批量处理的方式学习算法的许多组件，显著提高了收敛速度。

Deep Reinforcement Learning for Vehicular Edge Computing: An Intelligent Offloading System

一、论文解决了什么问题？
智能汽车的发展给驾驶员和乘客带来了舒适和安全的环境。然而，如何在资源有限的车辆上执行计算密集型任务仍然面临着巨大的挑战。文中提出了一种基于深度强化学习的车辆边缘计算智能卸载系统，卸载系统包含两个模块，即任务调度模块和资源分配模块。以车辆QOE最大化为目标，建立了这两个模块的联合优化问题。

二、问题是怎么解决的？
文中首先对通信架构和边缘计算架构进行建模，信道状态和计算能力是时变的连续值，其下一刻的状态只与上一时刻有关。为便于分析将他们离散化和量化为几个层次，并进一步建模为有限状态的马尔科夫链。此外，文中还利用离散随机跳跃来模拟车辆的可移动性。RSU与车辆之间的接触数服从泊松分布，其中参数表示移动强度。在此基础上提出车辆网络中交通调度和资源分配的联合优化问题，由于所表述问题受不同因素约束且变量之间相互耦合，文中将原问题分为两个子优化问题。对于第一个问题，通过设计一个效用函数来决定多车辆的优先级，将第二个问题表述为一个RL问题，选用DRL中的DQN算法来解决问题。

三、有什么亮点？
文中对DQN算法进行了改进，采用dropout正则化和双深度Q网络相结合的方法，解决了深度Q网络估计过高的问题。在任务调度问题中，为了解决卸载请求调度过程中出现的冲突，将调度过程建模为双边匹配模型，提出了动态V2I匹配算法(DVIM)来寻找最优匹配。传统的静态匹配算法每次都需要对整个集合进行匹配，既耗时又浪费计算资源。为了降低设计的算法的计算复杂度，将被RSU k拒绝的用户添加到禁止列表中。默认情况下，这一轮不能再次选中它们。类似地，RSU k利用接受列表来记录当前接受的卸载请求。

Deep Reinforcement Learning for Offloading and Resource Allocation in Vehicle Edge Computing and Networks

一、论文解决了什么问题?
文章的研究重点是设计一个车辆边缘计算(VEC)网络，使车辆既可以提供计算服务又能像传统的边缘服务器一样提供服务。文中为用户提出了一种高效的计算卸载方案，并提出一个优化问题，以最大限度利用所提出的VEC网络，要解决这一问题还必须考虑到车辆交通的随机性，动态的通信需求和时变的通信条件。

二、问题是怎么解决的？
在文中将提出的问题表示为半马尔科夫过程，提出了基于Q-learning的方法，后又为了避免维数保障问题，提出了基于DRL的方法，以获得最优的计算卸载和资源分配策略。

三、有什么亮点？
由于在经验池中的数据会因为时间的不同出现复杂性的层次变化，比如晚上会出现比白天更少的车辆。转换数据的复杂性会随时间变化，即使在相同的位置也会因为时间不同而不同。为进一步提高DRL方法效率，提出了一个模型辅助DRL框架，该框架中的DRL代理根据学习复杂性自适应地选择训练数据，而不是从经验池中随机选择数据。

A Double Deep Q-learning Model for Energy-efficient Edge Scheduling

一、文中解决了什么问题？
降低能耗是边缘计算设备面临的一个重要且具有挑战性的问题。边缘计算的能量主要是由其处理器消耗。本文的目标是降低处理器的能耗，而能耗一般分为静态能耗和动态能耗，本文重点研究动态能耗。

二、问题是怎么解决的？
文中提出了一种双深度Q学习模型，并选择了ReLU作为激活函数。该模型根据系统状态计算每种DVFS算法（即为选择的action）的Q值，Q值代表DVFS算法在超周期内的期望平均能耗，然后选择Q值最小的DVFS算法来设置电压和频率。

三、有什么亮点？
1.利用ReLU作为激活函数来提升训练效率，避免梯度消失。
2.设计了目标Q网络代替Q学习模型，生成更客观的目标Q值，更有效地训练参数。

Smart Manufacturing Scheduling with Edge Computing Using Multiclass Deep Q Network

一、文中解决了什么问题？
在智能工厂中，边缘计算以分布式的方式支持生产边缘的计算资源，以减少生产决策的响应时间。但JSP上大多数工作都没有考虑边缘计算。文中提出了一个基于边缘计算的智能制造工厂框架，并进一步研究了该框架下的JSP（作业车间调度问题）

二、问题是怎么解决的？
本文使用了DQN以及边缘计算框架来解决JSP问题。云中心可以通过网关和雾设备与所有边缘计算设备连接，云中心收集所有边缘设备的信息，然后确定所有机器的调度规则，再将其发送给所有的边缘设备。

三、有什么亮点？
不同于以往经典的只考虑一个决策的DQN算法，本文将DQN算法调整为多个决策(MDQN)，以满足所涉及问题的需求。

四、存在哪些不足？
在文中假设机器从不出现故障，并忽略了部件老化和损伤，这样的话应用到实际中的效果可能就没那么好了。

Traffic and Computation Co-Offloading WithReinforcement Learning in Fog Computing forIndustrial Applications

一、解决了什么问题？
在文中综合考虑了工业交通中的网络流量和计算量，探讨了在车载网络中提供移动服务时，能耗和服务时延之间的基本权衡，能够找到一个最优的卸载策略，使能耗和服务时延达到最小。

二、问题是怎么解决的？
在文中利用了马尔科夫决策过程的思想，提出了动态强化学习调度算法和深度动态调度算法来解决卸载决策问题。

三、有什么亮点？
在文中提出了一种新颖的模型来描述用户向公众贡献资源的意愿。

来源：CSDN

作者：王又又upupup

链接：https://blog.csdn.net/weixin_44436360/article/details/104137165

标签

边缘计算

算法