Skip to content

Latest commit

 

History

History
105 lines (89 loc) · 3.81 KB

File metadata and controls

105 lines (89 loc) · 3.81 KB

INVITATION: A Framework for Enhancing UAV Image Semantic Segmentation Accuracy through Depth Information Fusion

简体中文 | English

INVITATION 的官方实现,这是一个通过深度融合进行无人机图像语义分割的新框架,发表于 IEEE GRSL

📖 简介

INVITATION 仅以原始无人机图像作为输入,但能够获取补充的深度信息并有效地融合到 RGB 语义分割模型中,从而提高无人机语义分割的准确性。具体来说,该框架支持两种不同的深度生成方法:

  • 多视图立体(MVS):从无人机视频序列或多视角无人机图像进行高精度深度重建
  • 单目深度估计:通过预训练模型从单张图像进行深度预测

在UAVid数据集上的关键结果:

方法 mIoU (%) 提升 (%)
Baseline (RGB) 66.02 -
+ MVS Depth 70.57 ↑ 4.55
+ Monocular Depth 69.69 ↑ 3.67

Framework Teaser

🧩 *图1: INVITATION框架架构*

Result Teaser

🧩 *图2: UAVid数据集上的语义分割结果对比*

🚀 快速开始

预装环境

  • Python 3.7+
  • pytorch
  • gdal
  • numpy
  • opencv ...

安装

  1. 克隆仓库:

    git clone https://github.com/CVEO/INVITATION.git
    cd INVITATION
  2. 数据集准备:
    下载UAVid 数据集,并按如下方式组织:

    /data/
    └── uavid/
        ├── Depth/      # 深度图(MVS 或单目深度估计)
        ├── RGB/        # 原始无人机图像
        └── Label/      # 分割标签
    
  3. 训练:
    首先,在 config.py 中配置设置
    然后,使用 python train.py 开始训练网络

📂 代码仓库结构

INVITATION 
├── configs.py              # 训练配置
├── /dataloader/            # UAVid 数据加载器和数据增强
│   ├── dataloader.py   
│   └── UAVDataset.py     
├── /models/                # 模型架构
│   ├── attention.py        
│   ├── encoder_decoder.py         
│   └── builder.py        
├── /utils/                 # 工具脚本
│   ├── loss.py    
│   ├── visualize.py 
│   └── ... 
├── /outputs/               # 训练日志和检查点
└── README.md               # 文档

📜 引用

如果您使用我们的工作,请考虑引用:

bibtex
@ARTICLE{10858079,
  author={Zhang, Xiaodong and Zhou, Wenlin and Chen, Guanzhou and Wang, Jiaqi and Yang, Qingyuan and Tan, Xiaoliang and Wang, Tong and Chen, Yifei},
  journal={IEEE Geoscience and Remote Sensing Letters}, 
  title={INVITATION: A Framework for Enhancing UAV Image Semantic Segmentation Accuracy through Depth Information Fusion}, 
  year={2025},
  volume={},
  number={},
  pages={1-1},
  keywords={Autonomous aerial vehicles;Semantic segmentation;Feature extraction;Training;Decoding;Accuracy;Depth measurement;Semantics;Data models;Vectors;Depth Information Fusion;Unmanned Aerial Vehicles (UAVs);Semantic Segmentation;Cross-modal Feature Enhancement;Vision Transformers (ViTs)},
  doi={10.1109/LGRS.2025.3534994}}

📄 License

本项目在非商业学术许可证下发布。如需商业用途,请联系作者。

🤝 致谢和参考源码