INVITATION: A Framework for Enhancing UAV Image Semantic Segmentation Accuracy through Depth Information Fusion
简体中文 | English
INVITATION 的官方实现,这是一个通过深度融合进行无人机图像语义分割的新框架,发表于 IEEE GRSL。
INVITATION 仅以原始无人机图像作为输入,但能够获取补充的深度信息并有效地融合到 RGB 语义分割模型中,从而提高无人机语义分割的准确性。具体来说,该框架支持两种不同的深度生成方法:
- 多视图立体(MVS):从无人机视频序列或多视角无人机图像进行高精度深度重建
- 单目深度估计:通过预训练模型从单张图像进行深度预测
在UAVid数据集上的关键结果:
| 方法 | mIoU (%) | 提升 (%) |
|---|---|---|
| Baseline (RGB) | 66.02 | - |
| + MVS Depth | 70.57 | ↑ 4.55 |
| + Monocular Depth | 69.69 | ↑ 3.67 |
🧩 *图1: INVITATION框架架构*
🧩 *图2: UAVid数据集上的语义分割结果对比*
- Python 3.7+
- pytorch
- gdal
- numpy
- opencv ...
-
克隆仓库:
git clone https://github.com/CVEO/INVITATION.git cd INVITATION -
数据集准备:
下载UAVid 数据集,并按如下方式组织:/data/ └── uavid/ ├── Depth/ # 深度图(MVS 或单目深度估计) ├── RGB/ # 原始无人机图像 └── Label/ # 分割标签 -
训练:
首先,在config.py中配置设置
然后,使用python train.py开始训练网络
INVITATION
├── configs.py # 训练配置
├── /dataloader/ # UAVid 数据加载器和数据增强
│ ├── dataloader.py
│ └── UAVDataset.py
├── /models/ # 模型架构
│ ├── attention.py
│ ├── encoder_decoder.py
│ └── builder.py
├── /utils/ # 工具脚本
│ ├── loss.py
│ ├── visualize.py
│ └── ...
├── /outputs/ # 训练日志和检查点
└── README.md # 文档
如果您使用我们的工作,请考虑引用:
bibtex
@ARTICLE{10858079,
author={Zhang, Xiaodong and Zhou, Wenlin and Chen, Guanzhou and Wang, Jiaqi and Yang, Qingyuan and Tan, Xiaoliang and Wang, Tong and Chen, Yifei},
journal={IEEE Geoscience and Remote Sensing Letters},
title={INVITATION: A Framework for Enhancing UAV Image Semantic Segmentation Accuracy through Depth Information Fusion},
year={2025},
volume={},
number={},
pages={1-1},
keywords={Autonomous aerial vehicles;Semantic segmentation;Feature extraction;Training;Decoding;Accuracy;Depth measurement;Semantics;Data models;Vectors;Depth Information Fusion;Unmanned Aerial Vehicles (UAVs);Semantic Segmentation;Cross-modal Feature Enhancement;Vision Transformers (ViTs)},
doi={10.1109/LGRS.2025.3534994}}
本项目在非商业学术许可证下发布。如需商业用途,请联系作者。
- UAVid 数据集: https://uavid.nl/
- MVS 实现: COLMAP (https://colmap.github.io/)
- 单目深度估计:
- Monodepth2 (https://github.com/nianticlabs/monodepth2)
- ZeoDepth (https://github.com/isl-org/ZoeDepth)
- DepthAnything (https://github.com/LiheYoung/Depth-Anything)
- 基础分割代码: https://github.com/huaaaliu/RGBX_Semantic_Segmentation

