#OpenAI发布新模型o1系列# 凌晨1点,我还在追剧。这时,朋友发来一条消息说: Open AI发布了新模型,你在电脑上试试看能用吗?哎,大哥,都要睡觉了,这要强制开机,让我起来加班码字啊。 带着好奇,打开PC端ChatGPT一看,果然,多出两个模型,分别是ChatGPT 01-mini和01-preview。这是什么东东?怎么叫这个名字?带着疑惑,熬夜看完官方文档。 官方解释说: 因为模型在复杂推理任务上取得了重大进步,代表了AI的新水平,所以他们决定重置编号,将这一系列命名为OpenAI 01。 o1 mini是一个简化版,优化了速度和成本,适合快速处理问题,而o1 preview则是完整版,擅长解决复杂的科学、编程和数学问题; 我亲自测试一下,于是让国产大模型Kimi Chat出了个逻辑数学题,结果o1 preview不仅给出了答案,还展示了解题步骤,确实很强。 尽管如此,我在使用过程中并没有感受到太大的差异,可能是因为我的问题相对简单;我不禁思考,这和之前的GPT-4o、GPT-4omini有什么区别呢? 查阅官方文档后,我了解到o1-preview在复杂问题上的表现更受青睐,尤其在需要大量推理的任务上,如数据分析、编程和数学问题。但在自然语言处理任务上,它的表现不如GPT-4o。 比如: 在2024年的AIME数学考试中,GPT-4o平均只解决12%的题目;而o1模型单次测试的平均解题率达到了74%。如果算上64次测试的平均得分,能达到83%;重新从1000个样本中排名,平均得分甚至可以达到93%。 这个成绩不仅让它进入了全美前500名,还超过了参加美国数学奥林匹克的分数线。 所以,这么强的推理能力怎么实现的?关键有几个方面: 首先,o1模型用了一种“自我对弈强化学习”的方法;这是一种通过模拟环境和自我对抗来提升模型性能的技术。 其次,o1还模仿了人类的“慢思考”;这种思考要时间、努力和逻辑三者结合,就像我们在考试时仔细思考一个难题一样。 当然,这一步离不开思维链;思维链的推理,用了一种独特的方法来监控模型。还有一点,思维链加入了鲁棒性(Robustness)测试。 所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时,仍然能够正常工作,不容易出问题。 比如: 一辆汽车,无论在高温、低温、下雨还是颠簸的路面上,都能正常行驶,这说明它的鲁棒性很好;在AI领域,鲁棒性指软件、模型在面对不同的数据输入、错误,甚至恶意攻击时,仍然能保持稳定和准确。 不过,再强大的东西,不商业化肯定不行。 o1-preview(mini)定价非常高,功能目前也有限制;不管怎么说,AI越来越像人一样“深思熟虑”了,至于这个模型,谁会付费呢?或许,只有大公司、研究机构、有特定需求的专业人士才能承担得起。 那到时候,真就成了花钱请了一个「AI专家」,所以,AI会替代专家吗?
#OpenAI发布新模型o1系列# 凌晨1点,我还在追剧。这时,朋友发来一条消息
王智远吖
2024-09-13 13:37:43
0
阅读:37
用户12xxx97
定价高?小编确定有用过o1吗?