【东北数字经济】豆包开源视频生成模型,多模态模型奇点时刻或将到来事件:豆包团队

潘欣然谈娱乐 2025-02-11 00:04:19

【东北数字经济】豆包开源视频生成模型,多模态模型奇点时刻或将到来

事件:豆包团队发布视频生成实验模型“VideoWorld”。2月10日中午,豆包大模型团队发布视频生成模型最新成果“VideoWorld”, 在业界首次实现无需依赖语言模型,即可认知世界。

VideoWorld仅依赖视觉数据进行训练并取得良好效果。当前主流视频生成模型如Sora、DALL-E、Midjourney,主要依赖语言和标签数据进行知识学习。VideoWorld去掉了语言模型,以包含大量视频演示的数据集为训练数据。同时该模型引入潜在动态模型(LDM)对帧间视觉变化进行压缩,提高模型的知识挖掘效率。VideoWorld 在仅有300M的参数量下,且不依赖任何强化学习中的搜索或奖励函数机制,达到专业 5 段的 9x9 围棋水平,能够在多种环境中执行机器人任务,并在不同环境中表现出良好的泛化能力。

VideoWorld的视觉因果理解能力提升,利好视频制作、自动驾驶等方向。我们认为,VideoWorld仅依赖视频数据喂养,一方面使模型能够更加充分地学习视频隐含的物理、因果规则,改善训练效果,另一方面也降低了训练成本和难度。根据研究案例,目前该模型在围棋和模拟机器人操控中展现了卓越性能,预计未来该模型有望改善视频生成的效果和物理世界理解能力,赋能于电商、设计、自动驾驶等多个应用场景。

相关标的:

视频制作及生成:万兴科技、美图公司

自动驾驶:虹软科技

0 阅读:26
潘欣然谈娱乐

潘欣然谈娱乐

感谢大家的关注