“当红炸子鸡”DeepSeek，在6大主流大模型幻觉评测中排第五，当下人们对AI

“当红炸子鸡”DeepSeek，在6大主流大模型幻觉评测中排第五，当下人们对AI有多挑剔？ DeepSeek爆火后，不少专家给出了看法，重庆大学软件工程系主任雷晏就表示：DeepSeek在中文处理、数学推理、编程辅助等领域的效果，甚至高于了ChatGPT。可正当大家在为AI生成能力得到大步提升，感到赞叹的时候，一盆冷水却浇醒了我们，就是模型幻觉问题，还没有解决。什么是模型幻觉呢？简单来说，大语言模型在运行时，靠的是概率预测机制来生成文本，预测下一个最可能出现的词汇，全网收集数据资料等。可有些网络信息是错误的，或许久未更新的，导致被AI东拼西凑，这也是很多人吐槽AI不靠谱的主要原因。最近，有机构就对国内外6大主流大语言模型进行了幻觉评测，结果呢？近段时间呼声最高的DeepSeek排第5，非幻觉率约65%，而效果最好是文心一言，以非幻觉率接近83%力压GPT-4o ！那文心一言是如何尽量减少幻觉的呢？其核心在于百度的RAG技术，具备中文深度理解、多模态检索、垂直领域定制化以及实时数据整合能力等优势，很好的减少了ai幻觉问题，就算与OpenAI对比，也能明显看到文心RAG领先性。此外，从文心大模型调用量来看，截止去年11月，文心大模型日调用量已经超了15亿，正所谓群众的眼睛是雪亮的，一方面文心靠谱，用的人多；另一方面，用的人多意味着每天有大量用户在帮助它训练，才能使其更懂内容的流畅和文字的意思。现在看，每个大模型都有自己擅长性能。可模型幻觉，依然是所有大语言模型必须面对的问题！

0 阅读：146

“当红炸子鸡”DeepSeek，在6大主流大模型幻觉评测中排第五，当下人们对AI

1分钟用DeepSeek生成AI短视频，超简单！DeepSeek最近超火，你知道

图一据论文显示DeepSeek-V3开源基础模型的训练在2048块英伟达H800

未来的工作，那些可能被AI取代，哪些可能得到AI协助却不会被AI替代，哪些AI取

美国一觉醒来发现，Deepseek并不是最大的敌人。西方和欧洲也傻眼了，因为他们

马斯克号称最聪明的AiGrok3被网友的几根筷子给“绕”进去了。网友询问Gr

中国AI芯片绝地反击战！距离芯片断供大限只剩15天，中国科技圈却上演惊天逆转

中国团队突破性技术让AI推理速度飙升300%，成本直降50%刚刚，DeepSee

今天刚刷到xAI的消息，心潮澎湃：Grok3，全世界最智能的AI，现已免