久冉科技

财经资讯

中金:多模态可能是未来数年大模型产业技术突破和产业催化较为集

时间:2024-03-06 10:09 阅读:

  中金发布研究报告称,近年来,以GPT为代表的大模型在语言领域取得了重大突破,人类探索AGI的路径初见曙光。而在大模型兴起之后,产业也试图在图像、、音频等更多模态领域复现“Scaling Law”的成功,继续实现大模型的“智能涌现”。持续看好全球AI产业浪潮,并判断多模态可能是未来数年大模型产业技术突破和产业催化较为集中的领域,建议重点关注相关产业趋势进展。

  中从技术脉络、产业趋势、应用展望等多个角度,遍历海外和国内的一二级进展,对多模态这一方向进行全面的阐释分析,看好在全球AI浪潮延续,期待攻克多模态这一AI产业发展的下个高地。

  多模态是迈向通用人工智能的“必经之路”。

  多模态的本质要利用

  产业探索步步为营,

  图像方面,技术路径已经逐步成熟,扩散模型成为图像生成领域的主流架构,而后产业界也开始将Transformer架构引入,产生了ViT、DiT等扩展性更好的生成模型,过去数年产业界也已诞生多款文生图流行应用;方面,文生基于文生图像的技术路线,而今年年初Sora的出现也在领域延续了DiT架构与“Scaling Law”的成功;音频方面,Transformer加持下的语音合成技术发展也更趋成熟;3D模型方面,初期探索下技术方向已逐渐清晰,3D生成也可能成为未来

  多模态AI进展带来更多应用场景的全新可能。

  自动驾驶领域,多模态模型具备零样本学习等泛化能力,其或能加速多模态模型和世界模型在学术界的前沿探索;AI Agent领域,多模态进展能够为AI Agent带来更为丰富的信息感知