最近,在一场无人机比赛中,一架自主无人机击败了顶尖的人类选手。
这种自主无人机是由苏黎世大学的一个研究团队设计开发的Swift系统,研究成果登上了最新一期《自然》杂志的封面。

研究内容:https://www.nature.com/articles/s41586-023-06419-4.
在这场无人机比赛中,人类操作员通过机载摄像机控制无人机(UAV)通过3D轨道,以便让操作员从UAV的视角观察环境。自主无人机要达到人控无人机的水平是非常具有挑战性的,因为无人机只需要通过机载传感器来估计自己在航迹中的速度和位置。
斯威夫特击败了世界冠军人类选手,分别是:2019年无人机竞速联赛世界冠军亚历克斯·瓦诺夫(Alex Vanover)、两届MultiGP国际公开赛冠军托马斯·比特马塔(Thomas Bitmatta)和三届瑞士全国冠军马文·沙佩(Marvin Schaepper)。
下图1a显示了这场比赛的赛道。斯威夫特不仅赢得了与人类冠军的比赛,还创下了最快的比赛纪录。这项工作是移动机器人和机器智能领域的里程碑。

我们来看看自主无人机雨燕的技术方法。
Swift技术简介
雨燕是四旋翼飞行器,只利用机载传感器和计算来完成自主控制。它由两个关键模块组成:
感知系统,将高维的视觉和惯性信息转化为低维的表征;
控制策略,取感知系统生成的低维表示,生成控制命令。
其中,控制策略由前馈神经网络表示,并通过无模型基于策略的深度强化学习(RL)进行训练。
由于仿真与真实世界在感知和动力学方面存在差异,仅在仿真中优化策略会导致无人机性能不佳,因此研究团队使用物理系统收集的数据来估计非参数经验噪声模型。实验表明,这些经验噪声模型有助于将控制策略从仿真转化为现实。
具体来说,Swift将机载传感器的读数映射为控制命令,包括两部分:(1)观察策略,将高维的视觉和惯性信息提炼为针对任务的低维编码;(2)控制策略,将代码转换成无人机指令。Swift系统的总体概况如下图2所示:

如图1所示,Swift的观察策略需要运行视觉惯性估计器和门检测器。其中,舱门检测器是一个卷积神经网络,用于检测机载图像中的赛车舱门,然后利用检测到的舱门来估计无人机在航迹上的全局位置和飞行方向。这是通过使用结合轨迹图的相机重新分割算法来完成的。最后,Swift使用卡尔曼滤波器将全局姿态估计(从门检测器获得)与视觉惯性估计相结合,以便更准确地表征机器人的状态。
控制策略(由两层感知器表示)负责将卡尔曼滤波器的输出映射为无人机控制命令。在仿真中,采用无模型的基于策略的深度强化学习(RL)训练控制策略。在训练过程中,该策略将考虑摄像机视野中下一个比赛门的信息,并最大化奖励以提高姿态估计的准确性。
实验和结果
为了评估Swift的性能,进行了一系列竞争实验,并与轨迹规划和模型预测控制(MPC)进行了比较。
如下图3b所示,Swift在与A. Vanover的9场比赛中赢了5场;斯威夫特在与T. Bitmatta的七场比赛中赢了四场;斯威夫特在与M. Schaepper的九场比赛中赢了六场。在斯威夫特记录的10次失败中,40%是因为与对手相撞,40%是因为与比赛大门相撞,20%是因为比人类控制的无人机慢。总的来说,雨燕在与人控无人机的比赛中获胜次数最多,也创下了最快的比赛纪录,比人控无人机的最好成绩(A. Vanover)快了半秒。

为了详细分析雨燕的性能,本研究比较了雨燕和人控无人机的最快圈速,结果如下图4和表1所示。


综合来看,雨燕比所有人控无人机都要快,但它在航迹的各个阶段速度都不快,如表1所示。
经过仔细分析,研究小组发现雨燕的反应时间很短,平均比人类飞行员早起飞120毫秒。雨燕的加速也更快,进第一个比赛门的时候更快。急转弯时雨燕移动更紧凑,如图4cd。
研究小组还提出了一个假设,即Swift比人类控制者在更长的时间尺度上优化轨迹。众所周知,无模型RL可以通过价值函数优化长期报酬。相反,人类控制者规划运动的时间尺度较短,最多只能预测一个未来的竞赛门。

剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com。
微信扫码
QQ扫码
您的IP:10.1.201.110,2026-04-07 03:54:11,Processed in 0.15168 second(s).