基于循环跨视图转换和多状态特征融合的鸟瞰图生成方法
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391. 4 TH865

基金项目:

国家重点研发计划项目(2022YFE0101000)、重庆市技术创新与应用发展专项重大项目(CSTB2023TIAD-STX0035)、重庆市教委科学技术研究项目(KJQN202200630)资助


Bird′s eye view generation based on recurrent cross-view transformation and multi-state feature fusion
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对多数基于多视角透视图的鸟瞰图(BEV)生成算法难以实现对语义不一致多状态关联特征的提取,以及模型性能与 复杂度的平衡等问题,提出一种基于轻量级 Transformer 的 BEV 生成模型。 该模型采用端到端的单阶段训练策略,通过建立交 通场景中动态车辆和静态道路信息的关联,滤除生成视图中的噪声。 基于此,一方面设计面向多尺度特征的 Transformer 循环 跨视图转换模块,通过注意力机制实现对输入的位置编码和表征学习,捕捉特征序列中不同位置的依赖关系,提升 BEV 特征的 鲁棒性;另一方面设计面向语义不一致的多状态 BEV 特征融合模块,提取静态道路和动态车辆的关联信息,提升生成 BEV 视 图的精度。 在 NuScenes 数据集上进行实验,结果表明,方法在确保低模型复杂度的前提下,达到了先进的 BEV 视图生成性能。 动态车辆和静态道路的语义分割精度分别达到了 43. 2% 和 82. 0% 。

    Abstract:

    To address semantic inconsistency in multi-state associated feature extraction and balancing model performance with complexity in most multiple perspective view-based bird′s eye view (BEV) generation method, a light-weight Transformer-based BEV generation model is proposed. The method utilizes an end-to-end one-stage training strategy to establish a mutual association between dynamic vehicle and static road information in traffic scenes, effectively filtering out noise in the generated BEV. A Transformer-based recurrent cross-view transformation module for multi-scale features is introduced to perform image encoding and representation learning. This module improves the robustness of the extracted BEV features by capturing the location-dependent relationships in the perspective view (PV) feature sequence. Additionally, a multi-state BEV feature fusion module is designed to address semantic inconsistencies, extracting correlated information between dynamic vehicles and static roads, thus enhancing the performance of the generated BEVs. Experiments on the NuScenes dataset show that this method achieves advanced BEV generation performance with low model complexity, achieving 43. 2% and 82. 0% semantic segmentation accuracy for dynamic vehicles and static roads, respectively.

    参考文献
    相似文献
    引证文献
引用本文

刘明杰,何峥言,陈俊生,刘 平,,朴昌浩.基于循环跨视图转换和多状态特征融合的鸟瞰图生成方法[J].仪器仪表学报,2024,45(10):133-142

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2025-01-03
  • 出版日期:
文章二维码