在深度学习,尤其是计算机视觉领域中,Backbone网络(骨干网络)是模型架构中最基础且最关键的组成部分之一。它主要负责从原始输入图像中提取多层次的特征信息,为后续的任务(如目标检测、语义分割、图像分类等)提供高质量的特征表示。
Backbone网络通常是一个预训练的卷积神经网络(CNN),例如 ResNet、VGG、EfficientNet、MobileNet 或 Vision Transformer(ViT)。这些网络在大规模数据集(如 ImageNet)上进行训练,具备强大的通用特征提取能力。
以下是一些广泛使用的Backbone架构:
Backbone网络虽不直接完成最终任务(如画出边界框或生成掩码),但其特征质量直接决定了整个系统的上限。选择合适的Backbone,是构建高效、准确视觉模型的第一步。