根据我个人观察,sora不是物理世界的模拟,而是生成图片,具体过程应该是:在训练中是学习了很多图片特征,把特征抽取后形成一些算法;在需要根据文字生成时,理解文字语义生成很多图片,再把这些图片给串接起来形成图像。
由于上述生成过程并非真实物理世界的模拟而是图片集合,所以就会出现一些逻辑上的大问题,譬如前面我这个微博
根据我个人观察,sora不是物理世界的模拟,而是生成图片,具体过程应该是:在训练中是学习了很多图片特征,把特征抽取后形成一些算法;在需要根据文字生成时,理解文字语义生成很多图片,再把这些图片给串接起来形成图像。
由于上述生成过程并非真实物理世界的模拟而是图片集合,所以就会出现一些逻辑上的大问题,譬如前面我这个微博