AI编程界再添新星!普林斯顿研究团队推出了革命性的智能体-计算机接口(ACI)——SWE-agent。这一创新使得大型语言模型如GPT-4能够华丽转身,成为软件工程领域的AI专家,自动在真实的GitHub仓库中修复bug。
困扰GPT-4已久的编程难题,如今迎刃而解。在SWE-bench测试集中,SWE-agent表现出色,解决了12.29%的问题,平均仅需93秒,准确率令人瞩目。更令人振奋的是,SWE-agent完全免费开源。
短短十几小时内,便在GitHub收获了1.6k星、109个Fork的热烈反响。感兴趣的朋友可访问:https://github.com/princeton-nlp/SWE-agent。英伟达高级科学家Jim Fan也透露了成功秘诀:要在SWEBench上取得12.3%的佳绩,关键在于精心设计GPT-4的命令行工具,无需其他复杂手段。
John Yang及其研究团队强调,大模型需要精心设计的智能体——计算机接口,以提供类似于人类喜好的UI设计体验。例如,当LLM出现缩进错误时,编辑器能够立即阻止并给出反馈。此外,他们还发现,在查看文件时,限制SWE-agent一次显示100行比展示200-300行或整个文件更为有效。
即使拥有强大的GPT-4模型支持,一个优秀的智能体-计算机设计同样至关重要。John Yang团队的技术报告将于4月10日发布,届时将详细展示SWE-agent的工作原理和应用前景。
此外,该项目的logo由Ofir Press使用DALLE-3精心设计,突显了开源Devin的独特性和创新精神。自推出以来,Devin在短短一个月内迅速走向大众化,吸引了众多开发者的关注。
有开发者表示:“我感受到了一个全新的研究领域正在崛起——智能体计算机交互(ACI)。它与人机交互(HCI)有着紧密联系,但更专注于LLM和LVM的应用。”同时,对于普林斯顿团队利用GPT-4在基准测试中取得的12.29%准确率,许多人感到惊叹,并期待GPT-5的诞生将带来更多突破。
随着开源Devin的普及和智能体计算机交互(ACI)领域的发展,软件行业的传统护城河似乎已经消失。数字经济应用实践专家骆仁童博士对此表示期待,随着更多的AI垂直应用出现,我们将看到更多创新工具和方法涌现,推动软件工程领域不断前进。
智能体工作流SWE-agent的运作可概括为两大环节:首先是“推理”阶段,SWE-agent针对GitHub中的某一问题,利用特定脚本进行处理后,提出相应的拉取请求以期待问题得到解决;随后进入“评估”阶段,对提出的拉取请求进行严格检查,以验证其是否有效解决了原问题。
目前,这一流程主要应用于SWE-bench基准测试中的问题。若要在任意GitHub问题上运行SWE-agent,可执行以下命令:`python run.py --model_name gpt4 --data_path [GitHub问题链接] --config_file config/default_from_url.yaml`。
而对于SWE-bench上的问题,需在SWE-bench Lite上运行SWE-agent并生成补丁:`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file ./config/default.yaml`。若需针对SWE-bench中的特定问题进行操作,可添加`--instance_filter`选项。
至于评估阶段,只需在终端中切换至evaluation目录并运行`./run_eval.sh <predictions_path>`即可,但请注意此步骤目前仅支持SWE-bench问题集。
作者介绍
SWE-agent这项研究中两位核心作者是John Yang和Carlos E. Jimenez。
John Yang
John Yang目前是普林斯顿大学的研究助理,导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。
Carlos E. Jimenez
Carlos E. Jimenez是普林斯顿的博士生,导师是Karthik Narasimhan教授。他研究的是自然语言处理的人工智能和ML,研究兴趣包括代码语言模型,以及面向任务的对话。
无疑,人工智能正在重塑技术行业的运作模式。从Devin、Devika到OpenDevin,他们在软件工程的舞台上展现出卓越的实力。AI已不再是软件工程师的简单助手,而是逐步取代他们,胜任曾被认为仅人类能完成的复杂任务。
这引发了一个深刻的问题:AI是否已从工具蜕变为工程合作伙伴?更进一步,AI是否具备独立编写安全代码的能力?未来,编程的大权是否会完全交给AI?这些问题不仅关乎技术的飞速发展,更触及我们对AI角色和能力的根本认知。
Devin:引领AI工程新时代
就在今年3月12日,一家仅创立两个月、由十名成员组成的初创企业,以其创新之举在全球范围内引发了强烈震撼。
这家公司的杰作便是全球首例AI程序员——Devin。Devin不仅具备全面的全栈技术能力,能够自主掌握未知技术领域,更能在整个开发流程中无缝构建与部署应用程序,从修正代码缺陷到亲自训练及优化自身的AI模型,无所不能。
在权威的SWE-bench测试中,Devin以显著优势超越了Claude 2、Llama、GPT-4等业界翘楚,其优异表现令人瞩目,得分高达13.86%,堪称卓越。
显然,Devin并非一款普通的AI辅助工具,而是具备独立执行全套软件工程任务的先进AI体系。它的诞生标志着AI技术在工程领域的重大飞跃。
与传统AI工具相比,Devin的独特之处在于其能够自主规划并执行复杂的软件工程项目,这意味AI现今已具备担当工程师角色的实力。
除了核心的编程工作,Devin还展现了处理程序故障、实现应用部署以及培育新型AI模型的全方位能力,彻底颠覆了人们对AI在软件开发中作用的认知。
OpenDevin:共绘未来图景
在首发当日,一款名为OpenDevin的Devin开源版本应运而生,它以革新之姿强势登场。
OpenDevin积极倡导社区成员参与代码贡献,并坚定秉持开放标准的理念,其核心目标在于持续优化与强化AI在软件开发领域的应用效能。如此一来,软件工程师们将能更为高效地驾驭编程工作,提升生产力。
Devika:开源社区冉冉升起的新星
在Devin于AI软件工程领域的开拓性贡献的启发下,又一极具潜力的开源项目——Devika应运而生。
Devika是一位积极进取的AI软件工程师角色,具备理解复杂人类指令的能力。它能将这些指令细化为明确的操作步骤,精准收集相关数据信息,进而依据这些输入自动生成实现预定目标的代码。
详言之,Devika巧妙借力于Claude 3的卓越性能,融合尖端的AI规划与编程技术,构建起一个面向公众、由社区集体驱动的开放式创新平台。
Devika不仅代表着一项技术创新,更是对全球开源社群的一份诚挚邀约。它呼唤着各路贡献者携手踏上AI创新之旅,共襄盛举,擘画并塑造AI技术的未来图景。
AI编程的崛起展示了其在软件工程领域的巨大潜力,从规划复杂任务到修复漏洞,甚至管理整个开发流程。尽管如此,AI仍难以应对现有复杂代码库和编写安全代码的挑战,这要求深入了解代码背景、潜在漏洞及最新安全研究。因此,人类的监督在此过程中不可或缺。
虽然AI尚未能完全替代软件工程师,但它正在重塑技术界的未来。当前,Devin、Devika和OpenDevin等AI软件工程师引发我们思考:AI应被视为类似人类的存在吗?Ethan Mollick在“On the Necessity of Sin”中探讨了与AI合作共创软件工程未来的机遇与挑战。答案或许取决于我们对未来的设想及是否愿意拥抱开源、透明和协作的精神。
商道童言(Innovationcases)欢迎点赞和分享哦!~~
免费电子书:结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融
数字经济应用实践专家 骆仁童主讲课程
人工智能:《AI趋势》《ChatGPT》
数字应用:《区块链》《元宇宙》《大数据》
数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》
数字化转型:《制造业数转》《零售业数转》《中小企业创新》
产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》
宏观与趋势:《数字经济》《2024宏观》《双碳》
思维与技能:《数字化思维》《组织变革》
创新与创业:《创业导师》《商业模式》