再划一条重点,关于合成数据对AGI的核心价值。附图为特斯拉FSDv12

真的不是郑小康 2024-09-28 10:27:03

再划一条重点,关于合成数据对 AGI 的核心价值。附图为特斯拉 FSD v12 工程师 Dhaval Shroff,表达合成数据对 FSD 同样不可或缺:

Sarah Guo:当互联网上数据不够用时,我们就要开始用合成数据,或者类似的更贵的数据收集方式吗?

Andrej Karpathy:  目前很多研究都集中在语言模型上。虽然互联网数据并不是 Transformer 最理想的数据来源,但它们可以作为一种工具,不断去提升模型能力。

互联网数据只是大量网页的集合,但真正有价值的是我们大脑中的“内部独白(inner  monologue)”——那些复杂、深层次的思维轨迹。

如果我们能拥有亿万条类似“思维轨迹”的数据,那么就可能在某种程度上接近 AGI。但目前这些数据并不存在,所以现在的研究主要集中在将现有数据集重组,形成类似“内部独白(inner monologue)”的格式,这就是合成数据的重要性。

今天的模型可以帮助我们生成下一代模型,这是一个不断迭代进步的过程,就像在爬阶梯,一步步接近目标。

Elad Gil:合成数据的作用到底有多大?就像你说的,每个模型都能帮助我们去训练下一个模型,或者至少能为数据标注等任务提供工具,其中一部分可能就是合成数据。

Andrej Karpathy:  我觉得对于模型能力提升上,合成数据是必不可少的,但在使用合成数据时要很小心,因为模型不知道什么时候就“崩塌”了。

比如,当我们让 ChatGPT 给我们讲笑话时,如果多试几次我们会意识到它可能只知道 3 个笑话,虽然表面上看它懂很多,但其实它只知道那几个,这就是“崩塌”,即单次输出没问题,但如果在这个特定方向的输出上,模型的多样性和灵活性大大降低,这就是生成数据时的问题,尤其在生成合成数据时很容易出现“崩塌”的情况,因为我们那实际上很需要数据的多样性和丰富性,也就是“熵”,以免数据集过于单一而出现问题。

0 阅读:0