2025年IEEE TKDE，LLM-QL：多架并行无人机调度方法

张

张建站

2026/6/26 4:16:43

10分钟阅读

目录1.摘要2.LLM 增强 Q-Learning 方法3.实验分析4.结论7.参考文献8.算法辅导·应用定制·读者交流1.摘要多飞行助手旅行商问题mFSTSP多架 UAV 与卡车协同配送传统调度方法在大规模场景下计算成本高、探索低效且容易陷入局部最优。本文提出LLM-QL 将 Q-Learning 局部探索与 LLM 对未知环境全局理解结合用专门设计的提示词把问题建模转为 LLM 易理解形式并生成启发式项指导探索。2.LLM 增强 Q-Learning 方法问题建模mFSTSP 目标是最小化卡车和多 UAV 完成所有配送并返回终点总完成时间min ⁡ t c 1 \min\; t_{c1}mintc1关键约束包括每个客户只被卡车或某架 UAV 服务一次卡车从仓库出发并返回终点每架 UAV 每次任务最多服务一个客户UAV 飞行时间不超过续航卡车路径保持连通并消除子回路。将 mFSTSP 转为序贯决策问题。状态S ( i , D ) S(i,D)S(i,D)表示卡车当前位置和 UAV 状态动作A ( j , m ) A(j,m)A(j,m)表示选择下一节点j jj和运输方式m mm其中m 0 m0m0为卡车m 1 m1m1为 UAV。Q 表Q [ i , j , m ] Q[i,j,m]Q[i,j,m]存储从节点i ii到节点j jj并使用工具m mm累计回报。Q [ i , j , m ] Q [ i , j , m ] α ( R [ i , j , m ] γ max ⁡ A ′ Q [ j , k , m ′ ] ) − Q [ i , j , m ] (12) Q[i,j,m]Q[i,j,m]\alpha\left(R[i,j,m]\gamma\max_{A}Q[j,k,m]\right)-Q[i,j,m] \tag{12}Q[i,j,m]Q[i,j,m]α(R[i,j,m]γA′maxQ[j,k,m′])−Q[i,j,m](12)其中α \alphaα为学习率γ \gammaγ为折扣因子。奖励原先取路径距离倒数距离越短奖励越高。LLM 增强 Q-LearningLLM-QL 先分别构造卡车道路距离矩阵和 UAV 欧氏距离矩阵。卡车距离反映真实路网UAV 距离反映直飞路径。将目标函数、约束、当前状态和 Python 模板输入 LLM让其生成可执行启发式函数H [ i , j , m ] H[i,j,m]H[i,j,m]。启发式项综合距离、未访问状态、客户优先级、邻近连接度和时间效率用于指导动作选择。LLM-QL 的奖励函数为R [ i , j , m ] { 1 T [ i , j , m ] , 若所有约束满足 − ∞ , 若任一约束违反 R[i,j,m] \begin{cases} \dfrac{1}{T[i,j,m]}, \text{若所有约束满足}\\ -\infty, \text{若任一约束违反} \end{cases}R[i,j,m]⎩⎨⎧T[i,j,m]1,−∞,若所有约束满足若任一约束违反引入 LLM 启发式后 Q 值更新Q [ i , j , m ] ← Q [ i , j , m ] α ( R [ i , j , m ] γ max ⁡ A ′ Q [ j , k , m ′ ] ) H [ i , j , m ] − Q [ i , j , m ] Q[i,j,m]\leftarrow Q[i,j,m]\alpha\left(R[i,j,m]\gamma\max_{A}Q[j,k,m]\right)H[i,j,m]-Q[i,j,m]Q[i,j,m]←Q[i,j,m]α(R[i,j,m]γA′maxQ[j,k,m′])H[i,j,m]−Q[i,j,m]每轮训练中算法按ε \varepsilonε-greedy 策略选择动作计算 LLM 启发式值并更新 Q 表直到所有节点访问完成。3.实验分析实验使用西雅图城市数据集包含仓库、客户经纬度和包裹重量。卡车距离采用真实道路网络距离UAV 距离采用欧氏距离。LLM 使用 ChatGPT-4o框架不依赖特定模型。对比方法包括 MILP、2PML 和 MAPPO。消融实验消融实验比较有无 LLM 启发式的 Q-Learning。小规模任务中加入启发式后不一定每次都达到精确最优但收敛明显更快大规模任务中收敛速度相近但启发式版本给出更准确的总完成时间。两类数据集上结果一致说明 LLM-QL 具有泛化性。解质量与问题规模比较在不同客户规模和 UAV 数量下LLM-QL 总完成时间最低说明其能在固定迭代内更快找到更好解。MILP 在小规模可精确求解但大规模复杂度迅速上升2PML 受聚类和路径规划两阶段折中影响MAPPO 虽提高协作效率但大规模下训练和计算压力较大。4.结论LLM-QL通过启发式项减少无效探索并加速收敛。理论上加入有界启发式不破坏 Bellman 算子压缩性且近似误差有界。实验表明LLM-QL 在大规模场景中优于 MILP、2PML 和 MAPPO在总完成时间、运行时间和 UAV 利用率等关键指标上最高提升约 1.35 倍。7.参考文献Zhou Q, Wu J, Zhu M, et al. LLM-QL: a LLM-enhanced Q-learning approach for scheduling multiple parallel drones[J]. IEEE Transactions on Knowledge and Data Engineering, 2025.8.算法辅导·应用定制·读者交流xx

如何通过RDP Wrapper Library解锁Windows多用户远程桌面功能？

如何通过RDP Wrapper Library解锁Windows多用户远程桌面功能？ 【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap 你是否曾经在家庭版Windows系统中遇到过无法启用多用户远程桌面的困扰？或者在企…...

2026/6/26 4:14:18 阅读更多 →

16 CFR 1615/1616 儿童睡衣阻燃测试

16 CFR 1615/1616 儿童睡衣阻燃测试16 CFR 1615与16 CFR 1616是美国联邦法规中针对儿童睡衣强制阻燃安全的核心标准，由美国消费品安全委员会（CPSC）依据《易燃织物法》颁布，专门管控儿童睡衣燃烧性能，旨在降低儿童睡衣起…...

2026/6/26 4:10:56 阅读更多 →

选择适合企业的高防CDN服务:架构解析与实践分享

随着互联网的快速发展，企业的数字化转型步伐不断加快。然而，与此同时，网络攻击的威胁也在不断升级，其中尤以DDoS攻击最为常见。DDoS攻击能在短时间内耗尽目标服务器资源，导致业务中断，进而带来严重的经济损…...

2026/6/26 4:08:41 阅读更多 →

LPC3180 UART/SPI底层寄存器配置与调试实战指南

1. 项目概述与核心价值在嵌入式开发的日常里，串行通信就像工程师的“空气和水”，无处不在。无论是调试时打印日志、连接传感器获取数据，还是与无线模块进行指令交互，UART和SPI这两位“老将”总是绕不开的核心。很多朋友在初学时&a…...

2026/6/23 16:17:05 阅读更多 →

免费AI图像修复神器：让模糊图片秒变高清的终极指南

免费AI图像修复神器：让模糊图片秒变高清的终极指南【免费下载链接】Real-ESRGAN-GUI Lovely Real-ESRGAN / Real-CUGAN GUI Wrapper 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN-GUI 你是否曾为模糊的老照片而叹息？是否因低分辨率…...

2026/6/23 15:00:07 阅读更多 →