ChatGPT真的能帮助程序员？研究：正确率比抛硬币还差！

近来，关于生成式人工智能对编程、写作、美工、金融等领域的人力替代一说甚嚣尘上，然而事实证明AI对人类生产力的取代是一种极其幼稚且可笑的观点。科学的观点认为：AI的形态本质是一种工具，它的作用本质是对人类能力的增强，就像AR（增强现实）对人类的帮助一样。

普渡大学最近一项研究测试表明，ChatGPT在回答软件工程方面的知识特别是编程相关问题时，其错误率高达52%，并且有77%的答案内容是重复和冗余的。尽管如此，却有34%的用户更喜欢使用ChatGPT来帮助自己从事软件开发，而不是去Stack Overflow等技术社区上去交流和寻找真实的人工解答。这引发了部分担忧，那些少数特别依赖ChatGPT来提供编程解决方案的程序员其职业声誉可能受到影响。

该团队分析了ChatGPT对517个Stack Overflow相关问题的回答，以评估ChatGPT答案的正确性、一致性、全面性和简洁性。此外还对答案进行了语言和情感分析，并对十几名志愿者就参与模型生成的结果进行了测验。

研究论文发现指出，只有当ChatGPT给出的答案中错误很明显时，测试者才能识别出错误；但是，当错误不易验证或是需要IDE工具和帮助文档时，用户通常无法识别出错以及低估答案中出错的程度。ChatGPT在多次训练升级后表现出一种“强误导性”的能力，从半结构化访谈中可以明显看出，礼貌的语言、教科书风格的回答、生成内容的全面性和关联性使得原本错误的答案看起来却像是正确的。

研究对ChatGPT的生成式答案和Stack Overflow开发者社区的人工回答进行了分析，其表明，AI的反应“更正式，且表达更多的分析思维，并表现出更少的负面情绪。这看上去感觉AI像是在一本正经地胡说八道。

技术社区Stack Overflow方面也有过调查，60%的受访者认为人工撰写的答案更加正确、简洁和有用。尽管如此，Stack Overflow的访问量似乎有所下降，自今年4月以来，网站流量下降幅度高于平均水平（约14%），这大抵归因于今年3月份GPT-4的发布。

所以现在的矛盾是，越来越多人喜欢AI带来的便利，但只有少数人相信这些工具的准确性。

文/水哥

魔女团新闻

ChatGPT真的能帮助程序员？研究：正确率比抛硬币还差！

科技太和君