
2023国盛证券-计算机行业专题研究:多模态GPT的号角:SAM15-信息技术 2022年04月 2MB.pdf
《2023国盛证券-计算机行业专题研究:多模态GPT的号角:SAM15-信息技术 2022年04月 2MB.pdf》由会员分享,可在线阅读,更多相关《2023国盛证券-计算机行业专题研究:多模态GPT的号角:SAM15-信息技术 2022年04月 2MB.pdf(11页珍藏版)》请在中天文库上搜索。
1、 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业专题研究 2023 年 04 月 08 日 计算机计算机 多模态多模态 GPT 的号角:的号角:SAM Meta发布发布SAM,零样本分割图像中一切对象,零样本分割图像中一切对象。4月6号,Meta发布Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象,即使是训 练 数 据 中 没 有 见 过 的 对 象,可 直 接 在 网 页 体验:https:/segment- 可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系统,比如将 AR/VR 头盔的
2、用户视线作为提示来选择对象,也可以将分割输出用作其他 AI 系统的输入,用于 3D 建模等任务。模型设计高效灵活,每个提示只需要几毫秒就能在浏览器中运行,并且 Meta 开源了 SAM 的模型和包含 1100 万张图像和 11 亿个掩码的训练数据集。SAM 初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3。英伟达人工智能科学家 Jim Fan 认为 Meta 的这项研究是计算机视觉领域的“GPT-3 时刻”之一。SAM 是通用的分割方法,已经学会了物体是什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无
3、需额外的训练。GPT-3 系列模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM 从中获得灵感将提示技术用于图像分割。展望将来,SAM 可以成为更大的 AI 系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在 AR/VR 领域,SAM 可以根据用户的目光选择对象,然后将其“提升”到 3D 中;对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑;SAM 还可通过定位动物或物体在视频中进行研究和跟踪。多模态提升空间巨大,技术进步速度超预期,将落地千行百业。多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和,如智能PPT 和其他 office 套件,此外多模态在 AI 绘画、AI 音乐创作以及看图写稿等 AIGC 方向也有广泛应用。预计 15 年内,随着多模态的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。 (详见:《PPT使用说明》)
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023国盛证券-计算机行业专题研究:多模态GPT的号角:SAM15-信息技术 2022年04月 2MB 2023 证券 计算机 行

链接地址:https://www.1608.cn/pptx/92327.html