今年最亮眼的工作,恰恰就是北京交通大学和字节那个VideoWorld。 其实所有人都知道,video-in video-out的模型,才是模型的最终形态, 李飞飞管这种模型叫做world model,我愿管这种模型叫large video model(和LLM作为对比), 可惜简中互联网没啥人关注这个工作,可惜了。 video信息密度太低了,跟文字tokens对比,信息量太稀疏,密度低,天花板太低,必须爆一个比现有最大的LLM还要再大几个数量级的模型,才能获得非常好的效果。 我估计这个方向会推进得非常漫长,大概跟GPT一代类似,要用以5~10年为周期去推进, 但是VideoWorld开了一个好头,非常非常好的头,虽然可能不一定拥Latent Dynamics Model的形式。 北京交通大学完成的。干货分享 编程严选网
今年最亮眼的工作,恰恰就是北京交通大学和字节那个VideoWorld。 其实所
JavaEdge聊AIss
2025-03-12 13:13:34
0
阅读:0