摘要:针对多数基于多视角透视图的鸟瞰图(BEV)生成算法难以实现对语义不一致多状态关联特征的提取,以及模型性能与 复杂度的平衡等问题,提出一种基于轻量级 Transformer 的 BEV 生成模型。 该模型采用端到端的单阶段训练策略,通过建立交 通场景中动态车辆和静态道路信息的关联,滤除生成视图中的噪声。 基于此,一方面设计面向多尺度特征的 Transformer 循环 跨视图转换模块,通过注意力机制实现对输入的位置编码和表征学习,捕捉特征序列中不同位置的依赖关系,提升 BEV 特征的 鲁棒性;另一方面设计面向语义不一致的多状态 BEV 特征融合模块,提取静态道路和动态车辆的关联信息,提升生成 BEV 视 图的精度。 在 NuScenes 数据集上进行实验,结果表明,方法在确保低模型复杂度的前提下,达到了先进的 BEV 视图生成性能。 动态车辆和静态道路的语义分割精度分别达到了 43. 2% 和 82. 0% 。