再划一条重点，关于合成数据对AGI的核心价值。附图为特斯拉FSDv12

再划一条重点，关于合成数据对 AGI 的核心价值。附图为特斯拉 FSD v12 工程师 Dhaval Shroff，表达合成数据对 FSD 同样不可或缺：

Sarah Guo：当互联网上数据不够用时，我们就要开始用合成数据，或者类似的更贵的数据收集方式吗？

Andrej Karpathy: 目前很多研究都集中在语言模型上。虽然互联网数据并不是 Transformer 最理想的数据来源，但它们可以作为一种工具，不断去提升模型能力。

互联网数据只是大量网页的集合，但真正有价值的是我们大脑中的“内部独白（inner monologue）”——那些复杂、深层次的思维轨迹。

如果我们能拥有亿万条类似“思维轨迹”的数据，那么就可能在某种程度上接近 AGI。但目前这些数据并不存在，所以现在的研究主要集中在将现有数据集重组，形成类似“内部独白（inner monologue）”的格式，这就是合成数据的重要性。

今天的模型可以帮助我们生成下一代模型，这是一个不断迭代进步的过程，就像在爬阶梯，一步步接近目标。

Elad Gil：合成数据的作用到底有多大？就像你说的，每个模型都能帮助我们去训练下一个模型，或者至少能为数据标注等任务提供工具，其中一部分可能就是合成数据。

Andrej Karpathy: 我觉得对于模型能力提升上，合成数据是必不可少的，但在使用合成数据时要很小心，因为模型不知道什么时候就“崩塌”了。

比如，当我们让 ChatGPT 给我们讲笑话时，如果多试几次我们会意识到它可能只知道 3 个笑话，虽然表面上看它懂很多，但其实它只知道那几个，这就是“崩塌”，即单次输出没问题，但如果在这个特定方向的输出上，模型的多样性和灵活性大大降低，这就是生成数据时的问题，尤其在生成合成数据时很容易出现“崩塌”的情况，因为我们那实际上很需要数据的多样性和丰富性，也就是“熵”，以免数据集过于单一而出现问题。

魔女团新闻

再划一条重点，关于合成数据对AGI的核心价值。附图为特斯拉FSDv12

真的不是郑小康