拾雨发布的文章

2026-06-29

阅读笔记：DL-DRL A Double-Level Deep Reinforcement Learning Approach for Large-Scale Task Scheduling of Multi-UAV https://doi.org/10.1109/TASE.2024.3358894研究背景UAV 的 task 分配可以视为一个 NP-Hard 问题传统的精确求解在规模变大时计算量会急剧增大，近似求解需要在精度和时间中权衡因此提出了一个 2 层的 DRL 模型，并将 UAV 调度任务分解为任务分配和路径规划两个子任务进行求解问题建模考虑一个由 V 个 UAV 的场景，初始都位于同一位置，区域内存在 N 个独立的任务，UAV 需要试图最大化完成任务，假设 UAV 的速度恒定且高度恒定假定一个 Task 只由一个 UAV 执行，并且 UAV 的飞行距离不能超过限值，不走回头路最终任务是最大化执行的任务价值提出的方法将其分为两个子问题，任务划分以及路径规划，分别采用 MDP 进行求解上层网络将 Task 分割为不同的子集，下层网络在这些子集中选择合适的路径上层模型 MDP状态空间包含已经分配的任务 $V_{t}$ 和需要分配的任务 $m_{t}$动作空间需要将任务 $m_{t}$ 分配给的 UAV状态转移为了方便训练，任务分配完成后，假设 $m_{t}$ 分配给了 UAV i，那么在其任务列表后加上 $m_{t}$，在其他 UAV 的任务列表里重复最后一个任务，从而保证任务列表的长度对齐奖励函数所有 UAV 完成的 Task 的 value 总和模型实现将任务视为一个序列，使用 Transformer 的 Encoder-Decoder 结构下层模型 MDP状态空间UAV 的任务列表，包含任务位置和任务价值，UAV 当前位置以及剩余飞行距离动作空间下一个要去完成的任务状态转移减去飞行距离，将已完成的任务价值设置为 0奖励函数最大化执行的任务数量训练技巧ITS因为涉及上下两层模型，因此如果一起训练可能会导致效果不理想文中是先预训练下层模型，使其初步具备路径规划的能力，然后训练上层模型，下层阶段性更新，最后再进行上下层的交替训练，从而达到较好的效果mark 在我们这边的话也是类似的，JSCC 和 MATD 3 需要分开进行训练，目前使用的是类似拟合的方式，也许等到两边都初步训练出一个较好的效果后再进行联调会达到更好的效果讨论与分析文章整体思路是将任务分配和路径规划分为两个部分进行解决，但是貌似只能针对静态的任务需求，如果在执行过程中出现了新的任务则无法进行重新规划，另外其网络结构决定了 UAV 的数量是固定的，如果发生变动可能需要重新训练模型？分层训练的思路和目前做的是类似的，其他的可能参考意义不大

2026年06月29日
4 阅读
0 评论
0 点赞

2026-06-29

阅读笔记：Multi-Agent Deep Reinforcement Learning for Task Offloading in UAV-Assisted Mobile Edge Computing https://doi.org/10.1109/TWC.2022.3153316研究背景UAV 和 UE 都在不断移动，通信链路不断变化如果 UAV 和 UE 数量增加，管理的状态数也会增多导致协同效率低因此使用任务卸载的方式优化整个系统，并用 MADRL 来解决 UAV 的轨迹，任务分配以及通信资源管理，UE 的计算任务先上传到 UAV，然后由 UAV 决定一部分在 UAV 本地计算，另一部分继续转发到 EC 计算系统模型环境中存在 UAV，UE 和 EC，UAV 划分了工作子区域，各个子区域之间没有重叠，所有 UAV 都连接到一个中心云服务器，论文假设 UE 不能本地计算，因此所有任务都要先卸载到 UAVUAV 运动模型设 UAV 在 t 时刻的坐标为 $x_{n}(t),y_{n}(t),z_{n}(t)$，覆盖范围仰角 $\phi_{n}$，则可得到覆盖半径 $C_{max}=z_{n}(t)\tan(\phi_{n})$，另外 xyz 三个坐标在边界上均有限制为了防止两个 UAV 的覆盖范围重叠以及两个 UAV 之间相撞，对其速度以及距离做出约束 $||v_{n}(t)-v_{j}(t)|| \ge [C_{max}^n(t)+C_{max}^j(t)]$，以及 $||\omega_{n}(t) - \omega_{j}(t) \ge D_{min}||$空对地信道模型采用自由空间衰落模型$$h(t)=\frac{g_{0}}{d_{mn}(t)^2}$$根据香农公式可以得到传输速率进而计算传输时延以及能量消耗UAV 到 EC 的信道建模类似最终的优化问题转换为能量和时延的加权，优化对象为 UAV 的位置以及 UAV 和 EC 的边缘计算分工比例MDP 建模状态空间所有 UAV 的位置动作空间飞行距离，方位角，垂直飞行距离，传输功率，任务分配比率奖励函数如果满足所有的约束条件，则设置为系统开销的负值，如果有条件不满足，如 UAV 重叠，UE 未被覆盖等，则进行惩罚使用 MATD 3 进行优化，从训练结果可以看到 reward 从一开始的极大负数逐渐收敛至 0mark 其中的优化以及训练技巧也许可以借鉴一下讨论与分析这篇文章考虑的信道模型比较简单，采用自由空间衰落信道进行计算论文将状态简化为 UAV 的三维坐标，但 reward 和 transition 事实上依赖 UE 位置、任务规模、信道状态和计算资源，因此状态空间设计偏简化。不过 MATD 3 的训练和优化过程可以借鉴一下使用 MATD 3 输出连续的动作空间，从而可以对功率以及分配等进行精确的控制，在奖励函数的设计上也许可以有所启发

2026年06月29日
2 阅读
0 评论
0 点赞

2026-06-29

阅读笔记：Multi-Agent Reinforcement Learning-Based Coordinated Dynamic Task Allocation for Heterogenous UAVs https://doi.org/10.1109/TVT.2022.3228198研究背景现有的分配算法忽略了初始状态造成通信和资源的浪费拍卖分配和博弈论的方式均需要进行多轮全局通信造成通信负担较重因此提出一个双向的请求-响应机制，从而通过局部的 UAV 通信降低全局的通信量，采用 MARL 的网络以及经验回放，使用 Q-learning 和参数共享加快模型的训练问题建模在一个由若干架 UAV 和目标组成的一个环境中（UAV 数目大于任务数目，初始任务分配中每个任务的 UAV 资源是冗余的，即使部分 UAV 被重新分配给新任务后，剩余资源仍然可以满足原任务需求。），为 UAV 分配好初始的任务，此时 Request UAV 发现了一个新的任务，向其他 UAV 发送 Requeset，接收到 Request 后，Response UAV 根据目标的重要性，紧急度以及距离等进行评估，然后向 Request UAV 发送 Response 作为返回结果，根据接收到的结果，Request UAV 决定哪些 Response UAV 将参与这个 Task 的执行每一个 UAV 有自己的能力组合，如侦察，轰炸，通信等，而每一个任务有不同的能力需求，因此在分配过程中，需要分配的 UAV 能力足以完成任务，且到任务地点的距离和最短，另外为了确保高效的分配，还需使得分配的能力尽可能的贴近 Task 的需求选中的 UAV 集合需要在 attack、reconnaissance、jamming、communication、bombing 五个维度上满足任务需求，同时能力冗余不能超过阈值 Th，并尽量最小化到新任务的总距离。选出来的 UAV 能力既要大于任务需求，又不能超出太多。MDP 设计Request UAV状态空间新分配的任务信息以及 UAV 的信息动作空间完成这个新 Task 的 UAV 集合奖励函数如果分配的 UAV 满足边界条件，则奖励为 rp−λ∑dis(Ui,Tnew)r_p-\lambda\sum dis(U_{i}, T_{new})rp−λ∑dis(Ui,Tnew)否则惩罚为 −rp-r_{p}−rpResponse UAV状态空间新任务需求、当前正在执行任务需求、新任务重要性、燃料/距离代价动作空间是否参与新任务奖励函数rr = δk(Imp_new - Imp_old)UAV 如果从低重要度旧任务转向高重要度新任务，会获得更高收益；同时还会扣除到新任务的距离成本引入了 $\varepsilon - greedy$ 策略使得其有概率探索其他操作，从而防止陷入局部最优 graph TD Proposer_UAV --> New_Task New_Task --> Select_Responser Select_Responser --> Get_Q_value Get_Q_value --> Select_higher_Q 训练技巧mark参数共享target networkPER多智能体 TD-error 优先级importance sampling 修正讨论与分析虽然说整个系统通过局部分配的模式完成了去中心化，但是从任务重分配的流程来说，貌似通信的开销并未得到缩减，在 Request UAV 的状态感知中仍然需要获取全局其他 UAV 的状态，并向其他 UAV 发送任务请求得到回复，该方法降低的可能是“重复重规划”和“全体多轮协商”的开销，而不是严格意义上的“状态获取通信开销”。论文没有显式定义通信开销指标，也没有给出消息数量、通信半径、带宽限制、丢包率或拓扑连通性下的对比实验，因此“降低通信负担”的论证还不够充分，文中并未对二者之间进行对比和性能分析另外只考虑能力、距离、燃料阈值，没有通信链路建模如果针对通信方面进行改进的话，可能需要将动作空间转变为连续的动作空间，从而控制发送功率，压缩率等模型的训练方面的一些优化和技巧可以参考

2026年06月29日
5 阅读
0 评论
0 点赞

2026-06-23

直播心率助手——给你的直播添加心率显示吧！在直播游戏、进行互动或者做奇怪的 play 的时候，可能会想要把自己的实时心率显示在直播画面中，所以做了这么一款插件可以用来获取智能手环的实时心率视频教程视频教程前期准备需要支持心率广播的手环或者心率计下载并解压心率插件点我下载操作步骤1. 打开手环的心率广播功能在手环的设置->心率广播中开启不同品牌的手环开启心率广播的方式可能不同，且有些型号的手环不支持开启心率广播功能2. 在软件中连接手环打开软件后，会自动搜索附近的蓝牙设备，并按照心率设备的相似度进行排序，可以重点观察名称，包含 Band，Xiaomi，Huawei 等字样的为手环设备的概率更高，选中后点击连接并记录即可连接至手环，此时下方将显示实时的心率数据3. 配置输出文件在软件的右侧可以设置输出文件的位置以及输出格式可以根据自己的喜好增加心率的前缀和后缀比如设置前缀为心率后缀为喵则会显示心率66喵的文案，输出预览部分可以看到当前的实时输出文案输出文件设置的是心率数据的保存位置，可以选择一个好找的地方进行保存，后续在直播姬或者 OBS 中添加心率的时候需要用到这个文件4. 添加心率到直播姬设置好输出文件后，我们就可以在直播姬里添加心率数据在直播姬里选择添加素材，然后点击文字在文本内容的右侧有一个从文件读，在这里选择我们刚刚设置的心率保存文件，然后在下方可以自行调整字体的颜色字号描边等设置，设置完成后点击添加即可添加到直播画面中4. OBS 添加心率OBS 同样的是添加素材，选择文本（GDI+）选择从文件读取，选中刚刚设置的心率文件，然后自行设置字体，颜色，描边等

2026年06月23日
12 阅读
0 评论
0 点赞

2026-06-23

“鹅腿“阿姨争议背后：当消费符号遮蔽了真实近日，曾经火爆北京高校圈的“鹅腿阿姨”迎来了她的“塌房”时刻。在国贸 CBD 摆摊遭到举报后，她最终在顾客群里承认：自己卖了十几年、标价 16 元的“神仙鹅腿”，实际上一直是鸭腿。这绝不仅仅是一则令人啼笑皆非的“指鸭为鹅”的新闻。更有意思的是，它几乎可以被视为一场关于消费社会、符号认同和集体想象的微型社会学实验。它提醒我们：在今天的消费社会中，人们消费的往往并不只是商品本身，而是围绕商品生成的故事、情怀、身份和共同体想象。换句话说，我们吃下去的也许不只是肉，而是一整套被命名、传播和反复确认过的符号。如果用鲍德里亚的理论来理解，这场争议恰好暴露了消费社会的一个核心机制：我们消费的常常不是物本身，而是围绕物建构起来的符号、叙事与身份想象。一、当“鹅腿”不再只是鹅腿为什么一只普通的鸭腿，能堂而皇之地以“鹅腿”的身份，安然享受十几年的顶流待遇？因为在海淀高校的特定时空中，它早已发生了一场“能指”与“所指”的彻底剥离。这背后并不只是味觉问题，而是符号问题。在结构主义语言学中，“能指” 是符号的外在形式，比如“鹅腿”这个名称、包装、微信群里的叫法，以及它在社交平台上不断被转发的名号；“所指” 则是人们在心中形成的概念，比如“好吃、稀缺、温暖、校园记忆”。至于那块肉本身，则是这个符号最终指向的现实对象。在通常情况下，名称、概念和实物应该大体对应。可一旦进入消费社会，事情就变得复杂了。鲍德里亚在《消费社会》中指出，现代消费早已不只是对物品使用价值的满足，而是对符号的消费。一个商品之所以被追捧，未必只是因为它本身有多好，而是因为它承载了某种身份、情绪和社会关系。“鹅腿阿姨”的走红，恰好符合这一机制。它首先是一种稀缺性符号。不是谁都能买到，不是随时都能买到。排队、预订、微信群、拼手速、校园之间的争抢，这些过程共同制造出一种稀缺感。于是，“吃到鹅腿”不再只是完成了一次夜宵消费，而变成了一种可以被展示、被转述、被点赞的社交货币。它同时也是一种情感符号。对于许多学生来说，它可能是深夜离开图书馆后的安慰，是寒风里的一口热食，是远离家乡后与城市之间少有的温情连接。当大家谈论“鹅腿阿姨”时，谈论的其实不只是食物，而是某种关于青春、校园和深夜食堂的浪漫叙事。在这套强大的符号系统面前，肉的物理属性被暂时悬置了。只要它能提供那份情绪价值、共同记忆和身份认同，它到底是不是严格意义上的“鹅腿”，似乎就不再是第一位的问题。这正是消费社会的魔力，也是它的危险之处。二、为什么人们会“尝出”传说中的味道？这场塌房事件中最令人细思极恐的细节是：十几年了，难道真的没有一个人吃出那是鸭肉吗？这正是消费社会最深层的控制力——“超真实”对物理感官的控制。鲍德里亚认为，在媒介高度发达的时代，“拟像”已经不再是对现实的模仿，它直接取代了现实，甚至比现实看起来“更真”。当一件商品被反复讲述、反复推荐、反复排队争抢，它就不再只是一个商品，而会变成一个带有光环的拟像。所谓拟像，并不是简单的假象，而是一种被传播、记忆和群体共识共同制造出来的“更像真的真实”。在社交平台、校园传说和朋友推荐中，“鹅腿”被不断描述为肉质紧实、香气独特、值得排队。一次次评价、图片、故事和转发，共同构成了一个关于“神仙鹅腿”的想象空间。于是，当一个满怀期待的人真正咬下去时，他尝到的并不只是肉本身。他同时尝到的是排队的期待、群体的认可、校园的传说，以及“我终于也吃到了”的心理满足。当有人提出质疑，怀疑肉质的时候，也会迅速被狂热的群体维护声淹没，甚至招致“不懂情怀”的谩骂，最终归于噤声。这并不意味着味觉完全失效，而是说明人的感官从来不是纯粹孤立的。味觉也会被语言、情境、价格、故事和群体认同影响。所以，这场争议的荒诞之处正在于：如果现实中的原料真的与名称不符，那么被戳破的不只是一个商品标签，而是一整套曾经让人们愿意相信、愿意排队、愿意怀念的符号系统。三、从高校到国贸：空间一变，符号就失灵了为什么同样的商品，在高校圈里可以维持温情叙事，一进入国贸 CBD 这样的空间，就更容易遭遇质疑？这并不是因为某一类人更聪明，另一类人更天真，而是因为不同空间有不同的消费逻辑。高校空间中的“鹅腿阿姨”，被包裹在校园共同体的情感结构里。它不是标准化餐饮品牌，而更像一种熟人社会里的温情存在。学生们购买的不只是食物，也包括对小摊经济、校园记忆和人情关系的信任。但国贸 CBD 的消费语境不同。这里更强调价格、效率、契约和商品信息的真实性。当“鹅腿”脱离校园故事，进入一个更加理性化、契约化的市场空间时，它外面的情怀滤镜就会迅速变薄。在校园里，“鹅腿”可以是青春叙事；在国贸的法则里，没有情怀的溢价，只有投入产出比和《消费者权益保护法》。他们用最冰冷的市场理性，完成了对这只假鹅腿的暴力祛魅。在这里，鸭腿就只能是鸭腿。四、幻觉的废墟与永不落幕的狂欢塌房之后，很多人的愤怒并不只是因为“我花钱买错了东西”。更深层的情绪，可能来自一种幻觉破灭后的创伤感。曾经在寒风中等待的夜晚，微信群里抢到名额的兴奋，朋友圈里写下的夸赞，还有那些关于校园、青春和温情的小小记忆，如果最终被证明是建立在错误命名之上，就会让人产生一种强烈的不适：原来我怀念的，不一定是真实的商品本身；原来我相信的，也可能只是一个被反复确认过的符号。这才是这场争议最值得分析的地方。在庞大而冷漠的城市生活中，人们总是渴望一点具体的温情：一个熟悉的小摊，一个会被称作“阿姨”的普通人，一份带着校园气息的夜宵，一种“只有我们知道”的小圈子认同。但消费社会最擅长的，恰恰就是把这些温情、稀缺和认同包装成商品符号。它不一定总是以大资本、大品牌的面目出现，有时候也可能藏在一个小摊、一段故事、一个昵称和一场集体怀旧之中。所以，“鹅腿阿姨”的争议真正击中的，并不是一只腿到底来自哪种家禽，而是我们对消费社会中“真实温情”的信任。符号破灭了，但制造符号的机制并不会停止。在信息时代，算法与资本加速了符号的生产、流转与消亡。今天是鹅腿，明天可能是别的网红小吃、城市传说、校园神话、怀旧品牌或情绪商品。或许，下一个包装得更加精美、逻辑更加无懈可击的新符号，此刻已经悄然来到我们的身边。

2026年06月23日
6 阅读
0 评论
0 点赞