DeepSeek创始人梁文锋参加总理座谈会，这家杭州公司藏不住了

1月20日下午，中共中央政治局常委、国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会，听取对《政府工作报告（征求意见稿）》的意见建议。

座谈会上，张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。

有细心者发现，第四位发言的梁文锋，便是最近一段时间颇受关注的大模型DeepSeek的创始人。17岁考入浙江大学、30岁创办幻方量化、36岁管理千亿规模的私募基金……在金融和人工智能领域领域深耕多年的梁文锋有着十分亮眼的履历。

图片来源：央视新闻

在国内外互联网巨头接连提出“All in AI”，花高价买显卡、堆算力之际，他带领的DeepSeek却凭借对训练方法和模型架构的创新，使得训练出的模型在大幅度降低算力成本的同时，性能上直接赶超美国AI巨头OpenAI投入超百倍的顶级模型GPT-4o，也引得雷军拿出千万年薪招揽该项目团队的核心参与者。

在外界的关切之下，梁文锋却格外低调，这两年，他很少接受媒体的采访，也鲜少公开露面参加活动。昨天《新闻联播》播出的总理座谈会的画面，让许多人第一次看到了他的真实面孔。

一位“80后”的深度求索之路

梁文锋，1985年出生于广东省湛江市。2002年，这位对数学建模充满热情的年轻人考入浙江大学电子信息工程专业，并在随后的几年里继续深造，最终于2010年获得信息与通信工程硕士学位。

在校期间，他对金融市场产生了浓厚的兴趣。特别在2008年全球金融危机之际，他带领团队探索了机器学习技术在全自动量化交易中的应用潜力，这一经历为他日后的职业生涯奠定了坚实的基础。

毕业后，梁文锋将目光转向更广阔的金融市场。

2013年，他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司，两年后又成立了杭州幻方科技有限公司，致力于通过数学和人工智能进行量化投资。2015年的市场波动中，幻方依靠先进的高频量化策略取得了令人瞩目的成绩。

2016年是幻方的重要转折点。这一年，公司推出了首个基于深度学习的交易模型，并实现了所有量化策略的AI化转型。2018年，幻方正式确立了以AI为核心的发展战略。然而，随着业务的快速扩展，算力瓶颈逐渐显现。

为解决计算资源不足的问题，2019年，梁文锋带领团队自主研发了“萤火一号”训练平台，总投资近2亿元，搭载了1100块GPU。两年后，“萤火二号”的投入增加到10亿元，搭载了约1万张英伟达A100显卡。

2021年，幻方的资产管理规模突破千亿大关，跻身国内量化私募领域的“四大天王”之列。2023年，他宣布将正式进军通用人工智能领域，并创办了深度求索DeepSeek，专注于做真正人类级别的人工智能。

2024年5月，DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月，DeepSeek-V3问世，这款性能优越且性价比极高的大语言模型，被硅谷同行誉为“来自东方的神秘力量”。

“我们只是不小心成了一条鲶鱼”

DeekSeek的走红，源于业内一场残酷的大模型价格战。

2024年5月初，DeekSeek对外宣布，其开源模型DeepSeek-V2的推理成本被降到每百万token仅 1块钱，约等于GPT-4 Turbo的七十分之一。随后，智谱、豆包、通义千问、文心一言等国内排名靠前的大模型先后跟进，最高降幅甚至高达97%经此一役，DeepSeek解锁了一个新绰号——AI界的拼多多。

对于这场由自己掀起的价格战，梁文锋的回复云淡风轻。他说：“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。”他表示，没想到价格让大家这么敏感。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。

一家初创企业，为何能将大模型昂贵的推理价格极限压低？

这源自于DeepSeek对模型架构进行了全方位的创新。有研究者指出，它提出的一种崭新的机制架构，把显存占用降到了过去最常用架构的5%-13%，再加上独创的结构创新，最终促成了成本的下降。

对此，有位知名的科技博主打了一个形象的比喻：OpenAI的训练方法是“大水漫灌式”，拿来的数据放到“黑盒”里训练，反复训练直至成功，因此很烧钱；而DeepSeek是先一步利用算法，对数据进行总结和分类，然后输送给大模型。这意味着大模型的训练相比“黑盒”变得更加规律和透明化。

但是，DeepSeek出色的成就与其团队规模形成了鲜明的对比。根据公开报道，DeepSeek的员工规模不及OpenAI的1/5，百人出头的公司中，算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人，主要在北京分部，其余30多人在杭州总部，多为前端、产品以及商务人员。

让人惊奇的是，这家公司内并没有外界推论的高深莫测的奇才。梁文锋曾透露，员工都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。他说，在人工智能领域，“前50名顶尖人才可能不在中国，但也许我们能自己打造这样的人。”

在梁文锋看来，在这一波人工智能的浪潮中，DeepSeek的出发点，不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。他说：“过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现，但这并非是一种理所当然。”

“用最长期的眼光去回答最大的问题”

进入DeepSeek的官方微信公众号，一段简洁但有力的介绍语映入眼帘：

“投身于探索AGI的本质，不做中庸的事，带着好奇心，用最长期的眼光去回答最大的问题。”

从2023年11月2日开始更新以来，DeepSeek的公众号在1年多的时间里只更新了38篇文章，且大多数为新模型发布、升级以及招募各类人员的信息。从2024年12月底开始，公众号发出的三篇文章的阅读量均在10万+以上。

这也从侧面反映，外界对这家神秘的公司产生了强烈的好奇心。

一家量化基金为什么要做大模型？为什么给自己的定位是“做研究、做探索”？研究经费哪里来？对商业模式做了哪些推演和设想？2023年5月下旬，创业十余年后第一次公开接受“暗涌Waves”采访的梁文锋，集中回答了这些问题。

他说，通用人工智能可能是下一个最难的事之一。因此，“对我们来说，这是一个怎么做的问题，而不是为什么做的问题。”梁文锋表示，团队成员的研发激情源自于一种好奇心驱动。

对于企业的商业回报和盈利模式，他坦言道，“如果一定要找一个商业上的理由，它可能是找不到的，因为划不来。但现在比较确定的是，既然我们想做这个事，又有这个能力，这个时间点上我们就是最合适人选之一。”

最近一段时间，DeepSeek的动作不断。1月20日晚，它正式发布DeepSeek-R1，并同步开源模型权重。文中对产品的介绍如下：该模型在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

后文还写道：在此，我们将DeepSeek-R1 训练技术全部公开，以期促进技术社区的充分交流与创新协作。

此前，有媒体在采访过梁文锋之后，将这个团队的行为总结为“一个更极致的中国技术理想主义故事”。

但在极致的技术理想主义之外，低调少言的梁文锋也是一位冷静的现实主义者。他曾表示，英伟达的领先，不只是一个公司的努力，而是整个西方技术社区和产业共同努力的结果。因为，他们能看到下一代的技术趋势，手里有路线图。中国AI的发展，同样需要这样的生态。