问了深度求索的DeepSeek-R1-Litepreview几个问题,脑筋

真的不是郑小康 2024-11-21 18:23:58

问了深度求索的 DeepSeek-R1-Lite preview 几个问题,脑筋急转弯为主,看看模型的推理能力:

- 经典一公斤棉花和铁的问题。答对。

推理过程很有趣,第一段就提出了「题目里已经说了都是一公斤,那应该是一样重的吧。」然后马上接「可是,为什么还要问这个问题呢?可能是在测试我们的理解能力。」[允悲]

后面分析的密度、体积,包括重力加速度,其实是把可能导致出错的方向都捋了一遍,然后回归重量,一样重。

- 前段时间的 9.9 和 9.11 哪个大问题,我换成了 4.8 和 4.61,答对。

推理过程有点类似做小学数学题,只不过加上了验算,包括转换成分数再比一次。最后还强调了应该先看十分位,没问题。

- 公鸡下蛋问题,答对。

其实第一段模型已经识破了「公鸡不会下蛋,这是生物学常识」(感觉在骂人[怒])但后面一顿推理,已经分析到了正压力、摩擦力、重力分力...

我差点以为模型推理反被推理误了,没想到最后模型又回到了常识。还准确抓住了「如果」这个假设性词汇做了补充分析,给出了一个无懈可击的答案!感觉是微博防杠文案标准了。[淡淡的]

- 马拉松排名问题,答对。

- 稍微上了点难度的绳子燃烧问题,答对。

这个比较惊讶的是,模型在推理完了的时候补了一句:「也许还有其他的方法,但这个方法已经够用了。我应该记住这个思路,下次遇到类似的问题,可以应用类似的策略。」诶你这是在和谁说?这推理过程是在自言自语吗?

- 苹果橙子推理问题,答对。

总的来说,不止是数据脑筋急转弯,很多不涉及数学的问题,DeepSeek-R1-Lite 存在明显的「验算」或是换个角度看看前面推理得对不对的过程,有一定的过度推理,说明模型现阶段对自身的推理还不太自信,考虑到还是 preview 版本,也完全在预期之内。

但整体来说,推理能力相比目前这些对话助手还是有显著增强的。

想象一下这样的强化学习迁移到智驾领域,VLA 实时推理给出的驾驶决策会有多强,这会是攻克智驾长尾场景的一个关键技术!

0 阅读:0