DeepSeek创始人梁文锋参加总理座谈会,这家杭州公司藏不住了

斯子涵聊旅游 2025-01-22 13:27:05

1月20日下午,中共中央政治局常委、国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。

座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。

有细心者发现,第四位发言的梁文锋,便是最近一段时间颇受关注的大模型DeepSeek的创始人。17岁考入浙江大学、30岁创办幻方量化、36岁管理千亿规模的私募基金……在金融和人工智能领域领域深耕多年的梁文锋有着十分亮眼的履历。

图片来源:央视新闻

在国内外互联网巨头接连提出“All in AI”,花高价买显卡、堆算力之际,他带领的DeepSeek却凭借对训练方法和模型架构的创新,使得训练出的模型在大幅度降低算力成本的同时,性能上直接赶超美国AI巨头OpenAI投入超百倍的顶级模型GPT-4o,也引得雷军拿出千万年薪招揽该项目团队的核心参与者。

在外界的关切之下,梁文锋却格外低调,这两年,他很少接受媒体的采访,也鲜少公开露面参加活动。昨天《新闻联播》播出的总理座谈会的画面,让许多人第一次看到了他的真实面孔。

一位“80后”的深度求索之路

梁文锋,1985年出生于广东省湛江市。2002年,这位对数学建模充满热情的年轻人考入浙江大学电子信息工程专业,并在随后的几年里继续深造,最终于2010年获得信息与通信工程硕士学位。

在校期间,他对金融市场产生了浓厚的兴趣。特别在2008年全球金融危机之际,他带领团队探索了机器学习技术在全自动量化交易中的应用潜力,这一经历为他日后的职业生涯奠定了坚实的基础。

毕业后,梁文锋将目光转向更广阔的金融市场。

2013年,他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。2015年的市场波动中,幻方依靠先进的高频量化策略取得了令人瞩目的成绩。

2016年是幻方的重要转折点。这一年,公司推出了首个基于深度学习的交易模型,并实现了所有量化策略的AI化转型。2018年,幻方正式确立了以AI为核心的发展战略。然而,随着业务的快速扩展,算力瓶颈逐渐显现。

为解决计算资源不足的问题,2019年,梁文锋带领团队自主研发了“萤火一号”训练平台,总投资近2亿元,搭载了1100块GPU。两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

2021年,幻方的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年,他宣布将正式进军通用人工智能领域,并创办了深度求索DeepSeek,专注于做真正人类级别的人工智能。

2024年5月,DeepSeek发布混合专家语言模型DeepSeek-V2。同年12月,DeepSeek-V3问世,这款性能优越且性价比极高的大语言模型,被硅谷同行誉为“来自东方的神秘力量”。

“我们只是不小心成了一条鲶鱼”

DeekSeek的走红,源于业内一场残酷的大模型价格战。

2024年5月初,DeekSeek对外宣布,其开源模型DeepSeek-V2的推理成本被降到每百万token仅 1块钱,约等于GPT-4 Turbo的七十分之一。随后,智谱、豆包、通义千问、文心一言等国内排名靠前的大模型先后跟进,最高降幅甚至高达97%经此一役,DeepSeek解锁了一个新绰号——AI界的拼多多。

对于这场由自己掀起的价格战,梁文锋的回复云淡风轻。他说:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”他表示,没想到价格让大家这么敏感。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

一家初创企业,为何能将大模型昂贵的推理价格极限压低?

这源自于DeepSeek对模型架构进行了全方位的创新。有研究者指出,它提出的一种崭新的机制架构,把显存占用降到了过去最常用架构的5%-13%,再加上独创的结构创新,最终促成了成本的下降。

对此,有位知名的科技博主打了一个形象的比喻:OpenAI的训练方法是“大水漫灌式”,拿来的数据放到“黑盒”里训练,反复训练直至成功,因此很烧钱;而DeepSeek是先一步利用算法,对数据进行总结和分类,然后输送给大模型。这意味着大模型的训练相比“黑盒”变得更加规律和透明化。

但是,DeepSeek出色的成就与其团队规模形成了鲜明的对比。根据公开报道,DeepSeek的员工规模不及OpenAI的1/5,百人出头的公司中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人,主要在北京分部,其余30多人在杭州总部,多为前端、产品以及商务人员。

让人惊奇的是,这家公司内并没有外界推论的高深莫测的奇才。梁文锋曾透露,员工都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他说,在人工智能领域,“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

在梁文锋看来,在这一波人工智能的浪潮中,DeepSeek的出发点,不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。他说:“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。”

“用最长期的眼光去回答最大的问题”

进入DeepSeek的官方微信公众号,一段简洁但有力的介绍语映入眼帘:

“投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。”

从2023年11月2日开始更新以来,DeepSeek的公众号在1年多的时间里只更新了38篇文章,且大多数为新模型发布、升级以及招募各类人员的信息。从2024年12月底开始,公众号发出的三篇文章的阅读量均在10万+以上。

这也从侧面反映,外界对这家神秘的公司产生了强烈的好奇心。

一家量化基金为什么要做大模型?为什么给自己的定位是“做研究、做探索”?研究经费哪里来?对商业模式做了哪些推演和设想?2023年5月下旬,创业十余年后第一次公开接受“暗涌Waves”采访的梁文锋,集中回答了这些问题。

他说,通用人工智能可能是下一个最难的事之一。因此,“对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”梁文锋表示,团队成员的研发激情源自于一种好奇心驱动。

对于企业的商业回报和盈利模式,他坦言道,“如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。但现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上我们就是最合适人选之一。”

最近一段时间,DeepSeek的动作不断。1月20日晚,它正式发布DeepSeek-R1,并同步开源模型权重。文中对产品的介绍如下:该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

后文还写道:在此,我们将DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。

此前,有媒体在采访过梁文锋之后,将这个团队的行为总结为“一个更极致的中国技术理想主义故事”。

但在极致的技术理想主义之外,低调少言的梁文锋也是一位冷静的现实主义者。他曾表示,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。因为,他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。

0 阅读:2