
2023国盛证券-计算机:多模态GPT朝着科幻前进15-信息技术 2022年04月 2MB.pdf
《2023国盛证券-计算机:多模态GPT朝着科幻前进15-信息技术 2022年04月 2MB.pdf》由会员分享,可在线阅读,更多相关《2023国盛证券-计算机:多模态GPT朝着科幻前进15-信息技术 2022年04月 2MB.pdf(11页珍藏版)》请在中天文库上搜索。
1、 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业点评 2023 年 04 月 20 日 计算机计算机 多模态多模态 GPT,朝着科幻前进,朝着科幻前进 继零样本分割一切的继零样本分割一切的 SAM,Meta 又迅速开源又迅速开源 DINOv2 模型,不需微调即模型,不需微调即可用于多种下游任务可用于多种下游任务,DEMO 网址:https:/ 蒸馏成小模型后效果依然优秀,在多个参数规模下测试,能在大部分测试基准上超过之前最好的模型 OpenCLIP。DINOv2 的创新点和优秀性能来源于使用图像自监督学习的的创新点和优秀性能来源于使用图像自监督学习的方式训练方式训练。DI
2、NOv2 的模型结构基于(Vision Transformer,VIT)。此前许多视觉模型使用图像和文本配对数据做预训练,Meta 认为该方法依赖于文本描述图像的语义内容,会忽略文本描述中未明确提及的重要信息,因此 Meta 构建了一个大型数据集,先设置一组种子图像,然后寻找和这些种子图像的编码距离接近的图像进行聚类。虽然图像没有文字标注,但模型可以通过图像之间的关联来学到图像特征,克服了文本对图像描述不够全面的局限性。DINOv2 性能优秀,开源后可多方面赋能性能优秀,开源后可多方面赋能 AI 产业。产业。1)DINOv2 不需要微调即可胜任完成图生文前期任务,提升整个方案的泛化能力,为后续
3、识别的泛化能力提高打下基础。2)DINOv2 能蒸馏成小模型还有较好效果,便于在各种边缘场景及本地化落地。3)DINOv2 可以为大语言模型提供丰富的图像特征,加速多模态人工智能的发展。多模态提升空间巨大,技术进步速度超预期,将落地千行百业。多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公,如智能 PPT和其他office套件,此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。15 年内,随着多模态的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来 510 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。建议关注:建议关注:算力产业链公司及大华股份、海康威视、云从科技、千方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。 (详见:《PPT使用说明》)
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023国盛证券-计算机:多模态GPT,朝着科幻前进15-信息技术 2022年04月 2MB 2023 证券 计算机 多模态 GPT 朝着 科幻 前进 15 信息技术 2022 04 MB
