动态
人工智能技术加持,新一代通用视觉技术体系“书生”正式发布
时间:2022-10-31 17:26 阅读:
昨日,上海人工智能实验室联合商汤科技 SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系书生,该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
▲ 图源:上海人工智能实验室
目前,技术报告《INTERN! A New Learning Paradigm Towards General Vision》已在 arXiv 平台发布,基于书生的通用视觉开源平台 OpenGVLab 也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。
根据相关技术报告,一个书生基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。
上海人工智能实验室表示,相较于当前最强开源模型,书生在准确率和数据使用效率上均取得大幅提升。具体而言,基于同样的下游场景数据,书生在分类、目标检测、语义分割及深度估计四大任务 26 个数据集上的平均错误率分别降低了 40。2%、47。3%、34。8% 和 9。4%。
通用视觉技术体系书生由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。