DeepSeek让美国多位教授开始“反思”?
科技旋涡编辑部
在过去几周里,美国科技界对DeepSeek的讨论异常热烈,焦点集中在芯片供应和技术壁垒上。人们纷纷猜测,DeepSeek到底囤积了多少芯片,又通过哪些手段绕过了美国的出口管制?这些讨论不仅反映了美国对自身技术领先地位的担忧,也揭示了其长期以来依赖封闭技术和出口控制的战略局限性。
美国斯坦福大学以人为本人工智能研究所(HAI)的多个教员们在一起探讨发表了DeepSeek模型的技术进步,还深入分析了其对全球学术界、工业界和社会更广泛的影响。
讨论的核心在于DeepSeek如何挑战了关于实现AI重大进展所需的资金和计算资源的传统观念。DeepSeek展示的聪明工程和算法创新表明,即使是资源较少的组织也能在有意义的项目上竞争。这种巧妙的设计,加上开源权重和技术细节论文,营造了一个数十年来推动技术进步的开放创新环境。
DeepSeek重新点燃了关于开源、法律责任、地缘政治力量转移、隐私问题等方面的讨论。在这组观点中,斯坦福HAI的高级研究员提供了一个多学科视角,探讨DeepSeek对于人工智能领域及整个社会的意义。值得注意的是,多位教授指出,美国长期以来依赖封闭技术和出口控制的战略正在面临前所未有的挑战。DeepSeek的成功不仅展示了中国公司在技术创新方面的实力,也揭示了美国科技界的脆弱性和焦虑感。
RussAltman等多位教授从不同角度探讨了DeepSeek带来的机遇与挑战,包括开源共享理念的重要性、算法创新的价值、以及如何平衡数据获取中的版权和其他知识产权问题。此外,MicheleElam教授特别指出DeepSeek在隐私保护、数据来源和版权方面的模糊性对艺术领域的深远影响,并呼吁关注这一技术对我们认知现实世界方式的塑造作用。这些讨论揭示了技术进步与实际社会影响之间存在的脱节,这是该领域目前最紧迫的挑战之一。
RussAltman的评论
RussAltman是KennethFong教授、生物工程教授、遗传学教授、医学教授、生物医学数据科学教授,同时也是斯坦福HAI的高级研究员和计算机科学教授(兼任)
首先,对开源的承诺(Meta和DeepSeek都采纳)似乎超越了地缘政治界限——DeepSeek和Llama(来自Meta)为学者们提供了一个从独立角度检查、评估、改进现有方法的机会。“闭源”运动在证明其合理性方面面临一些挑战。当然,仍然存在合理的担忧(例如,不良行为者使用开源模型做坏事),但这些担忧最好通过开放访问这些行为者使用的工具来应对,这样学术界、工业界和政府可以合作创新,减轻风险。
其次,聪明的工程设计和算法创新能够降低严肃AI系统的资本要求,这意味着资金较少的学术努力(以及其他领域)可以在某些系统构建中竞争并作出贡献。许多人认为我们需要等到下一代廉价AI硬件才能实现AI民主化,这可能仍然是正确的。但在那之前,我们已经意外地发现软件创新也可以成为效率提升和成本降低的重要来源。结合起来,我们现在可以想象由资源相对有限的组织构建出非平凡且相关的现实世界AI系统。
第三,DeepSeek的进步加上基于代理的AI系统的进步使得更容易想象创建专门的AI代理,并将它们混合搭配以创建有能力的AI系统。单体“通用AI”可能仍然是学术兴趣所在,但从成本效益和更好的工程角度来看(例如模块化),创建由可分别构建、测试、维护和部署的组件组成的系统更为合适。AI代理之间以及与人类的合作模式复制了解决问题的人类“团队”的概念。有时问题可以通过单一的整体天才解决,但这通常不是最好的策略。因此,DeepSeek通过验证开源共享想法(数据是另一回事)、展示持续算法创新的力量以及使经济上创建AI代理成为可能来帮助恢复平衡,这些代理可以经济地组合在一起,生成有用且强大的AI系统。当然,仍有问题需要回答:
●如何在尊重版权和其他知识产权的同时,民主化获取构建模型所需的大数据?
●当某些专业学科的数据量不足时,我们如何构建专业化模型?
●如何评估一个使用多个AI代理的系统以确保其正常运行?即使单个代理已验证,是否意味着它们组合后也有效?
YejinChoi的评论
YejinChoi是DieterSchwartzFoundationHAI教授、计算机科学教授以及斯坦福HAI的高级研究员
DeepSeekR1模型的成功表明,当有一个“解决方案存在的证明”(如OpenAI的o1所示),其他人找到解决方案只是时间问题。DeepSeek决定分享R1训练的详细方案和不同大小的开源权重模型具有深远的影响,因为这将进一步加速进展——我们将见证新的开源努力不断复制和增强R1。这种转变标志着暴力扩展时代的结束,迎来了一个新的阶段,该阶段专注于通过数据合成、新的学习框架和新的推理算法继续扩展。
然而,当前的一个重大问题是,如何利用这些强大的人工智能系统来造福全人类。一个模型在数学基准上的卓越表现并不能立即转化为解决人类面临的困难挑战,包括日益加剧的政治紧张局势、自然灾害或持续传播的虚假信息。技术能力和实际社会影响之间的脱节仍然是该领域的最紧迫挑战之一。
MicheleElam的评论
MicheleElam是WilliamRobertsonCoe人文教授、斯坦福HAI的高级研究员和BassUniversity本科教育研究员
面对最近中国发布的明显更便宜、计算需求更低、环境负担更小的DeepSeekAI聊天机器人,美国的焦虑和困惑之中,很少有人考虑这对AI在艺术领域的影响。事实上,DeepSeek对文学、表演艺术、视觉文化等方面的意义,在国家安全、美国AI行业的经济贬值以及开源对创新的利弊等看似更高层次的焦虑面前,似乎完全无关紧要。
但实际上,DeepSeek在隐私保护、数据来源和版权辩论方面的完全不透明性对艺术领域产生了巨大影响。“不透明”实际上是一个宽容的术语:DeepSeek对这些问题采取了一种“懒得理会”的态度。不用说,创意产业中的SAG-AFTRA罢工,《纽约时报》及其他正在进行的诉讼。
在许多方面,DeepSeek能够逃脱这种公然的敷衍态度是我们自己的错。其聊天机器人的流行是对——同时也是利用了——美国消费者自身越来越倾向于忽视这些问题的一种放大反映,而行业则通过业务模式积极鼓励这种倾向,以投资回报率为名转移我们的注意力。
像TikTok一样,DeepSeek利用了过去几年我们在设备上点击不断更新、越来越模糊的服务条款时逐渐放弃隐私权的趋势(通常是为了所谓的神奇营销委婉语“个性化”)。
可以说,正如许多人已经指出的那样,DeepSeek对私人和敏感数据的贪婪消费利用了国家缺乏对AI的任何监管(不同于英国和欧盟),并在许多方面使国家处于风险之中,因为我们秉持着“监管阻碍创新”的信条。
但是,就艺术而言,我们应该关注DeepSeek通过预先审查、与其民族主义意识形态的一致性以及我们对其现实建模算法的不知情或无意识同意控制我们想象力钥匙的方式。斯坦福大学目前通过微软Azure项目适应了一个“更安全”的DeepSeek版本用于实验,并警告社区不要使用商业版本,因为存在安全和隐私问题。无论如何,DeepSeek的发布突显了这项技术巨大的影响力,尤其是在塑造我们体验现实的方式上——甚至我们所认为的现实本身。正如柏拉图和亚里士多德关于戏剧和诗歌影响力的早期辩论所暗示的那样,这也正是艺术的力量所在。
MykelKochenderfer的评论
MykelKochenderfer是斯坦福大学航空航天系副教授和斯坦福HAI的高级研究员
人工智能越来越多地被用于支持关键安全或高风险场景,从自动驾驶车辆到临床决策支持。然而,调和当前AI系统的不可解释性与高风险应用中的安全工程标准仍然是一个挑战。DeepSeekR1的一个特别引人注目的特点是它在响应复杂查询时的推理透明度。它提供的详细程度可以促进审计并帮助建立对其生成内容的信任。这种在提问时语言模型提供的透明推理被称为推理时可解释性。尽管语言模型的推理时可解释性仍处于起步阶段,需要大量开发才能成熟,但我们今天看到的小步前进可能会引领未来系统更加安全可靠地辅助人类。
另一个障碍在于将近期人工智能的进展应用于许多应用程序所需的大量数据和计算资源。DeepSeek展示了开发新方法减少对大型数据集和重型计算资源依赖的巨大潜力。我希望学术界与工业界合作能够加速这些创新。通过创建更高效的算法,我们可以使语言模型在边缘设备上更加普及,消除对昂贵基础设施的持续连接需求。凭借嵌入这些语言模型的大量常识知识,我们可以开发出更智能、更有用、更具弹性的应用程序——特别是在风险最高的时候尤为重要。
JamesLanday的评论
JamesLanday是斯坦福大学计算机科学教授、AnandRajaraman和VenkyHarinarayan工程学院教授以及斯坦福HAI的联合主任
DeepSeek对该领域来说是一件好事。他们公开了自己的研究成果,模型以开源权重发布,这意味着其他人可以修改并在自己的服务器上运行它。他们降低了AI的成本,这对推动AI研究和应用的发展是有益的。对AI最大的批评之一是训练大型基础模型和支持这些模型查询/推理的可持续性影响。DeepSeek展示了许多有用的优化措施,减少了这两方面的计算成本。这对整个领域都是有益的,因为其他公司或研究人员可以使用相同的优化(它们既在技术报告中记录,代码也是开源的)。
“通过技术报告和开源代码分享创新的做法延续了过去40年推动计算机科学发展的开放研究传统。”
这种通过技术报告和开源代码分享创新的做法延续了过去40年推动计算机科学发展的开放研究传统。作为研究领域,我们应该欢迎这种类型的工作。它将帮助每个人的工作变得更好。虽然许多美国公司倾向于专有模型,并且在数据隐私和安全方面仍存在疑问,但DeepSeek的开放方法促进了更广泛的参与,造福全球AI社区,促进迭代、进步和创新。
PercyLiang的评论
PercyLiang是斯坦福大学计算机科学副教授、基础模型研究中心(CRFM)主任和斯坦福HAI的高级研究员
DeepSeekR1表明先进的AI将广泛可用,并且难以控制,也没有国界。这也表明,除了拥有大量的计算资源外,聪明才智和工程设计同样重要。对于学术界而言,更多强大开源权重模型的可用性是一个福音,因为它允许再现性、隐私保护以及对先进AI内部的研究。
ChristopherManning的评论
ChristopherManning是斯坦福大学语言学和计算机科学系ThomasM.Siebel机器学习教授以及斯坦福HAI的副主任
人们将其视为某种突如其来的惊喜,但实际上如果你一直关注开源AI的话,这并不意外。DeepSeek已经公开发布开源模型和详细的技术研究报告超过一年。DeepSeekV3的训练成本在2024年12月公布;R1-Lite-Preview版本在2024年11月发布。
“长久以来作为一个推进开放科学和工程的开放国家,如今了解现代LLM设计和工程细节的最佳途径是阅读中国公司的详尽技术报告,这是一种可悲的状态。”
这次发布表明,所谓的美国“前沿”AI公司并没有巨大的技术护城河。现在有许多优秀的中国大型语言模型(LLMs)。最多这些公司领先六个月,也许只有OpenAI真正领先。长久以来作为一个推进开放科学和工程的开放国家,如今了解现代LLM设计和工程细节的最佳途径是阅读中国公司的详尽技术报告,这是一种可悲的状态。
DeepSeek进行了一些非常好的数据工程,最小化了数据流并允许在fp8下进行高效稳定的训练。他们在技术上有适度的进步,使用了一种独特的多头潜在注意力形式、混合专家系统中的大量专家,以及他们自己简单高效的强化学习(RL)形式,这与一些人偏好基于规则的奖励方式不同。但这并不是完全下一代的技术。DeepSeek使用的方法和模型与其他公司相似,Deepseek-R1在迅速赶上并提供类似OpenAIo1质量的产品方面取得了突破。这不是一种新的能力突破。
然而,DeepSeek-R1的发布确实显著推进了开源LLM的前沿,并表明美国无法遏制强大的开源LLM的发展。这也可能意味着更多的美国公司将开始在其产品中使用中国的LLM,而在此之前,他们通常避免使用这些模型,更倾向于使用Meta的Llama模型或其他来自Databricks等公司的模型。
JulianNyarko的评论
JulianNyarko是斯坦福法学院教授和斯坦福HAI的副主任
大型语言模型(LLMs)是一种“通用技术”,用于许多领域。有些公司创建这些模型,而其他公司则将其用于特定目的。当前的一个关键辩论是谁应对有害模型行为负责——是开发这些模型的开发者还是使用这些模型的组织。在这种背景下,由中国初创公司开发的DeepSeek新模型突显了AI开发的全球性质如何使监管响应复杂化,特别是在不同国家有不同的法律规范和文化理解的情况下。虽然出口管制被认为是一个重要的工具,以确保领先的AI实现符合我们的法律和价值体系,但DeepSeek的成功凸显了当竞争国家能够独立开发和发布最先进的模型时,这类措施的局限性。DeepSeek开源发布的性质进一步复杂化了法律责任的问题。由于模型可以自由获取、修改和部署,认为模型开发者能够并且将会有效解决其模型带来的风险的想法可能会变得越来越不现实。相反,监管的重点可能需要转向模型使用的下游后果——可能将更多的责任放在那些部署模型的人身上。
AmyZegart的评论
AmyZegart是胡佛研究所MorrisArnold和NonaJeanCox高级研究员、弗里曼·斯波格利国际问题研究所高级研究员、斯坦福HAI教授(兼任)以及政治学教授(兼任)
过去几周,关于DeepSeek的讨论集中在芯片和护城河上。DeepSeek究竟囤积、走私或创新了多少以绕过美国的出口控制?鉴于DeepSeek的进步,研究人员现在需要多少以及什么样的芯片来在前沿领域进行创新?像OpenAI这样的美国超大规模公司最终是否花费了数十亿美元建立竞争护城河或仅仅是一个提供虚假安全感的马其诺防线?这些都是重要的问题,但答案需要时间。
“上个月撰写突破性R1论文的200名工程师中,几乎全部在中国大学接受教育,大约一半的人只在中国学习和工作过。这对美国政策制定者来说应该是一个警示。”
然而,三个严重的地缘政治影响已经显而易见:
1.本土人才的成功:DeepSeek成功利用了本土人才。上个月撰写突破性R1论文的200名工程师中,几乎全部在中国大学接受教育,大约一半的人只在中国学习和工作过。这对美国政策制定者来说应该是一个警示。在科技时代,人才是国家力量的重要来源。“美国吸引全球最优秀人才”的口号虽然常被提及,但越来越不准确。中国及其他地区高等教育水平的提升和高等教育机构的显著改进正在重新绘制知识权力地图。与此同时,美国的K-12教育系统处于混乱状态,美国15岁学生在最近一次国际测试中的数学成绩排名第34位,落后于斯洛文尼亚和越南。
2.模仿美国大学而非企业:DeepSeek模仿的是美国的大学,而不是企业。这家初创公司雇佣了年轻的工程师,而不是经验丰富的行业老手,并给予他们自由和资源去做“疯狂科学”,旨在长期发现,而不是为下一季度的产品开发。商业化是创新的重要组成部分,但突破往往始于没有明确产品或利润目标的基础研究。这种基础研究是大学的生命线,几十年来一直是美国创新领导地位的支柱,催生了从立方卫星到COVID-19疫苗的一切。然而,今天中国在基础研究上的投资速度是美国政府的六倍,如果当前趋势继续下去,中国将在十年内超过美国。这是一个至关重要的长期创新战场,而美国正在放弃它。
3.市场动荡:DeepSeek的宣布扰乱了美国市场,导致纳斯达克综合指数下跌3%,英伟达股价下跌17%,抹去了6000亿美元的价值。这是美国历史上单日最大的公司损失,这一数字相当于美国年度国防预算的65%。今天的意外后果可能是明天的故意行为。想象一下,一个对手故意宣布一项真实或欺诈性的技术进步,以惩罚特定公司或动摇另一个国家的资本市场。这种灰色地带经济武器可以精确打击或造成巨大影响,可能难以甚至无法归因于刻意活动。而且它在没有预警的情况下效果最佳。
DeepSeek不仅仅是发布了新的AI进展;它揭示了一个新兴的地缘政治时代的轮廓,这个时代有新的国家力量来源和新的战场。
结语
DeepSeek的发布不仅展示了中国在人工智能领域的强劲崛起,也引发了全球对开源、法律责任、地缘政治力量转移及隐私问题的重新思考。斯坦福大学专家们的多学科视角揭示了美国长期以来依赖封闭技术和出口控制的战略正在面临挑战。与此同时,DeepSeek的成功凸显了开放创新模式的优势和潜力,但也暴露了其在隐私保护和数据透明性方面的不足。
这种技术与政策层面的双重探讨,提醒我们在享受AI带来的便利时,必须更加关注其长远影响和社会责任。随着全球AI竞争的加剧,如何在全球范围内建立统一且有效的监管机制,确保技术创新与社会福祉并行不悖,将成为未来亟待解决的重要课题。DeepSeek的成功不仅是技术上的里程碑,更是对未来全球科技格局的一次深刻启示。这要求各国在追求技术突破的同时,也要加强国际合作与对话,共同应对这一新时代带来的机遇与挑战。
用户11xxx70
文皱皱,看得累