《科创板日报》10月22日讯(记者 李明明)日前,人工智能领域的新型研发机构智源研究院正式发布原生多模态世界模型Emu3。据介绍,该模型实现了视频、图像、文本三种模态的统一理解与生成。
当前,行业现有的多模态大模型多为对于不同任务而训练的专用模型,比如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,比如目前Sora还做不到图像和视频的理解。
而下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明。
智源研究院院长王仲远告诉《科创板日报》记者,“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础,这一简单的架构设计将利于产业化。同时,该训练技术能够以较大程度复用现有的大模型训练基础设施,降低了对新基础设施的需求,从而加速多模态大模型的迭代和最终落地。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。而多模态大模型通过统一表示空间实现了跨模态的统一训练和生成,展现巨大潜力。”
一位大模型领域专家也对《科创板日报》记者分析,当前,视觉的理解模型和生成模型各自分开独立发展,这也是多模态领域面临的问题,也会造成生成模型的生成能力强而理解能力弱,或者理解模型的理解能力强而生成能力弱。因此,多模态大模型亟需将理解和生成统一在一个模型里。目前,多模态生成模型的发展相对滞后,该领域未来的发展潜力较大。
(图注:Emu3图片理解案例)
具体就Emu3如何实现图像、视频和文字的统一输入和输出,王仲远总结道,团队构建了一个统一的Tokenizer系统,将文本、图像、视频等各种模态信息映射到一个离散空间,并通过auto Regressive的方式进行统一训练和生成。这相当于为文字、图像、视频发明了一种统一的“新语言”,可以在同一空间中表达。
王仲远表示,“Emu3 会为未来多模态基座模型的发展指明一个方向,是下一代的多模态大模型的训练范式。对于这样的技术路线,需要各界共同努力,才能加速多模态基座模型的发展。期待在产业转化过程中,Emu3能够像悟道系列,与各大模型公司、互联网企业等合作,共同推进技术的应用。”
来源:财联社
标签: