只需要十分之一数据，就能通关四大视觉任务，居然还开源了！-金融之家

家人，你有这种苦恼吗。

每次搬家都要换家具那些又贵又重的家具既不容易携带，也不容易带走

下次再买家具，浪费钱，但关键是来回做同样的事情！家具没用过几次，利用率不高！

这种感动的苦恼，就跟AI领域一样要完成几项任务，你需要开发几个高度定制的模型不仅收集的数据量非常大，而且每次都要从头标记它不能提高数据的学习效率，而且需要花费巨大的数据获取成本

光是AI前端研究就要耗费这么多精力，更别说应用场景中上万个长尾任务了。

然后呢。

做一个通用的深度学习模型是关键。

1，是根本技术。

无论国内国外，底层技术追随者都设计了通用型号尽职尽责构建通用模型的两个主战场是深度学习应用最广泛的两个方向:语言和视觉

目前，常用的语言模型已经取得了显著的进展，如BERT，T5和GPT—3等，已经能够应对广泛的语言下游任务。

相比之下，通用视觉模型的研究并没有给出令人满意的答案。

比如现在最火的自动驾驶，汽车处于行驶状态时，既要看路况，又要看红绿灯，还要注意行人即使智能驾驶舱兴起后，也要配合语言技术和LBS场景服务如此多的感知数据和协作任务，如此多的随机新任务，从体积和维度上大大提高了对视觉模型的要求

这时候，只有打造通用的视觉模型，降低R&D门槛，尤其是学术界的时间成本和资金成本，才能享受到下游的极致场景体验。

去年11月，上海人工智能实验室联合商汤科技，香港中文大学，上海交通大学发布了通用视觉技术系统学者，一套持续学习框架，用于系统解决当前人工智能视觉领域存在的任务泛化，场景泛化，数据效率等一系列瓶颈。

不久前，上海人工智能实验室联合商汤科技发布了通用视觉开源平台OpenGVLab，向学术界和业界开放了其超高效的预训练模型，超大规模的公共数据集以及业界首个通用视觉模型评测基准。

这些开源技术的魔力在哪里。

努力打造一个通用的视觉模型。

学者，是练习一般视觉能力的底层技术。

在技术实现上，学者该系统由七个模块组成，包括三个基础设施模块和四个培训阶段。

这三个基础设施模块是通用可视化数据系统，通用可视化网络架构和通用可视化评估基准四个培训阶段分别是:上游基础模特培训，上游专家模特培训，上游通才模特培训，和下游适应训练

学者结构图

第一，通用可视数据系统。

这是一个超大规模的精度标准数据集，有100亿个样本和各种监督信号根据四个视觉任务设置四个数据子集:GV—Dc—36M用于多模态数据的分类和标注GV—D— 10B，GV—Dd—3M用于检测和标注，GV—Ds—143K用于分割和标注

此外，该数据集还包含11.9万个标签系统，不仅涵盖了自然界的多个领域和当前计算机视觉研究中的几乎所有标签，还扩展了大量细粒度标签，涵盖了各种图像的属性和状态。

这是学者下大力气一个大大的注脚。

其次，一般的可视化模型结构。

它是由CNN和Transformer构成的统一搜索空间。

为什么要建立这样的混合结构要知道，多年来，卷积神经网络一直引领着视觉表征的学习，在图像分类，目标检测，语义分割等下游任务中表现出稳定的迁移可是，最近几年来，Vision Transformer 仅使用普通的Transformer结构就可以在ImageNet—1k上达到与CNN相当的性能，在大规模数据集上，ViT显示出比CNN更大的潜力

虽然ViT在性能上有优势，但纯变压器网络相比卷积神经网络缺少一些归纳偏差，因此需要更多的数据和计算资源另外，自我注意的计算代价相对于输入次数是平方的，这限制了高输入分辨率的应用因此，将CNN与Transformer和MLP结合起来，平衡效率和效果是模型通用化的关键

这种具有更好的泛化能力和更高的模型容量的模型结构称为元网在MetaNet网络结构族中搜索网络结构，得到最佳模型训练结构

统一搜索元网络架构:Conv和Trans分别代表卷积和变换c和s是每一阶中输出通道的数量和步幅

具体来说，MetaNet不仅提出了基于强化学习PPO算法的统一搜索架构，而且，为了避免传统的下采样模块成为模型性能的瓶颈，学者结合上下文感知下采样模块，包括局部—全局—DSM和全局—DSM ，以取代原来的下采样模块。

因此，在浅层，模型仍然使用卷积来提取特征，但在深层，模型可以将Transformer模块与LG—DSM结合起来，更好地提取全局信息。

与此同时，Scholar基于最大的MetaNet—B15提取了多达13种不同的模型结构，总共有24种不同的模型权重，现在都是开源的。

这些模型结构基本覆盖了目前市场上的大部分主流骨干，不仅可以方便地迁移到所需的算法框架作为新网络预训练的初始化，而且可以用更短的训练时间达到比原来更好的训练效果。

NET模型与其他模型结构进行了比较，结果如下:

基于卷积，变换及其混合的结构分别用C，T和H表示。

可以看出，MetaNet系列的MN—B1，MN—B4，MN—B7与其他SOTA模型相比，精度更高，FLOPS和参数更低。

除了分类任务，MetaNet被用作检测和分割的骨干，Mask R—CNN结构被用于在COCO数据集上的训练。结果表明:

在模型参数较小的前提下，MN—B4的准确率比Swin—T高2到4个点，另外在ADE20K数据集上做语义切分，MN—B4的mIoU指数比SWIN—T高5个点。

以上两个实验结果表明，MetaNet系列的模型结构在模型精度和计算复杂度之间达到了新的SOTA！

最后，通用视觉评测基准。

视觉基准GV—B就像一个挑战。

如下表所示，评测基准收集了26个下游任务数据集，包括四类视觉任务:分类，检测，分割和深度估计。

在设置上，基准引入了百分比样本，只需要整个数据集的一部分，比如10%和20%，就可以比较模型在减少下游任务训练数据量后的性能与传统的小样本设置相比，这种百分比样本设置可以保持原始数据集的长尾分布，降低对样本选择的敏感性因为存在一些样本类别分布不均衡的数据集，比如下表中的VOC07+12，所以百分比数据会以继承这种分布的方式进行划分

右边的三列avg，min和max分别代表10%数据中不同类别的样本数的平均值，最小值和最大值。

结合上述数据集和任务类型，本文选取了一些有代表性的模型进行评估和比较为了比较公平，本次比较使用了这些车型的官方预训练权重

Rsetecliplesnextbitvitswav，deepclusterv2和mocov2tco

有了超大精度标准数据集，模型结构和评测基准，万事俱备，只欠训练。

作为中国古代学者的经典形象，学者通过不断的学习和成长，代表了一个具有各种才能的人格化角色:从基础知识和技能的学习，到各种专业知识的类比，再到具有一般知识的通才有了这个形象，学者通过不断学习，系统可以举一反三，逐步实现对通用视野的掌握，最终实现灵活高效的模型部署

我们来看看这个系统是如何通过训练一步步从专家变成多面手，最后在各项任务中大显身手的。

第一阶段，称为，训练基础能力，基本型号。

最近几年来，CLIP因其在下游任务中的零炮识别能力和迁移能力而备受关注。

而CLIP需要400M的图文对进行预训练，由于数据量巨大，很难进一步开发CLIP但是学者提出了一种新的训练范式DeCLIP，它可以利用来自图像—文本，图像—图像和文本—文本对的监督信号同时对模型进行预训练，从而更有效地实现通用性

此外，为了充分利用大规模多模态数据获取基本模型的优势，现阶段提出了上游—业余视觉语言预训练框架，同时挖掘了模态内和跨模态知识。

该培训框架分为两个预培训阶段:上游—业余全球演示和上游—业余本地演示。

其中，Up—A—G利用群监督功能，学习更丰富的监督Up—A—L采用局部自监督学习方法来调整训练好的视觉语言模型，以提高其在密集CV预测任务中的性能

上游业余者的框架

由于这些内部监督，DeCLIP—ResNet50可以在ImageNet上首次实现60.4%的零拍精度这比CLIP—ResNet50高0.8%，数据使用量少81%当迁移到下游任务时，DeCLIP—ResNet50在11个可视化数据集的8个中优于CLIP

更重要的是，完成的上游—业余为后续的训练阶段提供了高起点。

第二阶段，训练专业能力，叫专家。

在Up—A阶段获得的基本模型在一般视觉识别问题中表现优异但是为了完全掌握检测，分割等更具体的任务，每个任务都需要更专业的前期训练，这就导致了第二个阶段——专家模型的到来

对于每个专家，学者采用简单的多头设计每个头是特定数据集的子网络，来自公共和共享的Rdquo分支出如Up—E，Up—E 和Up—E ，分别用于图像分类，物体检测和语义分割

第三阶段，称为，训练组合能力，通才模型。

上面说的多任务是指不同数据集的一个视觉问题或者一个数据集的多个视觉问题但关键是如何将专家整合到统一的模型中，获得更通用的可视化模型所以，在预训专家后阶段，人才作为第三个预训练阶段，表现为进一步的统一特征

学者提出一个新的范式，命名为参数共享，从而开发出一个叫的软件，通才多面手模型。

具体来说，由于专家捕获的知识是相互关联的，当专家的特征融合成一个共享的表征时，采用基于软共享的跨任务知识转移和基于硬共享的一般表征学习的方法，在不引入任务冲突的情况下，在专家之间转移信息，从而进一步提高多任务训练的模型性能，即人才能力。

从结构上看，通才模型是所有专家的相互关联的版本，因此每个专家叫仅分支此外，我们可以根据培养相应专家的任务，将通才的每个分支划分为图像，面片和像素但无论是软共享还是硬共享，都意味着从专家模式到通才模式的飞跃

经历了前三个训练阶段，终于到了最后的任务迁移阶段。

这个阶段属于技术链的下游，用来解决各类任务，这是最考验的，学者举一反三的时刻在这个阶段，它需要将之前学到的一般知识运用到不同的具体任务中

在此之前，很多迁移学习方法确实取得了不少进展，但问题是这些方法没有利用上游预训练中的隐含信息，也没有考虑到少镜头场景下下游数据的不足。

所以，学者提出了一种多级微调方法来缓解数据量较少情况下的传输困难然后通过将上游数据编码成一代模型，即VQ—甘，可以将预先训练好的模型转移到多个任务和领域，而不需要每次都使用上游数据，这也使得学者它更具通用性和可扩展性

多级微调概述:VQ—甘模型在第一阶段用上游数据训练，然后在第二阶段重建下游数据之后在第三阶段，只对新增任务的具体参数进行重新表示，第四阶段通过下游数据对整个模型进行微调

至此，一个具有持续学习能力的通用视觉模型终于诞生了。

具体有哪些改进。还不如看看更直观的实验数据对比！

3.在视野中捕捉所有四个任务。

在视野中，有许多任务主流任务包括分类，目标检测，语义分割和深度估计

在这四个任务中，最强大的视觉模型是OpenAI去年发布的CLIP模型但相比较而言，学者提高了准确率和数据使用效率

准确度表达式

Pass 学者对训练好的模型在GV—B上的评估和比较表明，经过多级预训练后的MetaNet具有良好的精度。

ImageNet等26个最具代表性的下游场景中，学者在分类，目标检测，语义分割和深度估计四大任务上，平均错误率分别降低了40.2%，47.3%，34.8%和9.4%。

对比不同样本量下的学者CLIP—R50x16，显示正确率。

数据使用效率

学者数据效率的提升尤为显著:只需要1/10的下游数据，就能超越基于完整下游数据的CLIP训练的精度。

以GV—B中CLIP—R50x16和Up—G MN—B15的评测对比为例，在分类，目标检测，语义分割和深度估计四类26个下游任务数据集上进行评测仅用10%的数据训练的Up—G MN—B15模型优于在大多数数据集中用所有训练数据训练的CLIP—R50这说明多级预训练后的MetaNet具有很强的泛化能力，仅用很少的训练样本就能达到SOTA的精度性能

在下游视觉场景，小样本训练带来的是训练速度快，训练成本低。

比如关于花卉品种识别的任务，学者每种花只需要两个训练样本，准确率可以达到99.7%。

4通用可视化平台，正式开源。

如此强大的通用视觉训练模型已经正式开源！

更重要的是，连同上面提到的标签数据集，网络结构，评测基准，都打包在OpenGVLab中开源。

除了MetaNet，其网络结构还包括人们常用的ResNet，MobileNet，ViT，EfficientNet等，以满足不同场景的应用，为计算机视觉赋能。

可是，《儒林外史》的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab和OpenDILab一起，共同打造开源系统OpenXLab，继续推动通用人工智能的技术突破和生态建设。

一位用过这个开源平台的自动驾驶算法研究者说:学者模型系列全面覆盖从小型移动可展开模型到超大型自研结构，给业界带来希望，尤其是其收敛速度，大大节省了培训费用，是技术落地的一大助推器。

不仅在自动驾驶领域，在智慧城市，智慧医疗，智慧交通，以及千千其他成千上万的智能领域，都将获得通用视觉模型带来的技术红利。

一位腾讯研究员称赞OpenGVLab:，开这么大的工，真的是业界良心用起来很简单，而且真的比CLIP更细粒度

学界的师生对此也印象深刻:OpenGVLab集成了大量各种量级的最先进模型，使用起来更加方便，省去了对不同代码库和模型进行繁琐研究的麻烦。