高盛指出,中国开发的模型正变得越发灵活,计算成本显著降低(比如 DeepSeek 模型的推理成本大幅下降),这为后续更广泛的 AI 应用及 AI 普及提供了更大空间。
过去一周,DeepSeek R1、字节跳动的豆包 -1.5 Pro 以及 Moonshot 的 Kimi k1.5 模型几乎同步发布,引发投资者高度关注。这背后反映出中国 AI 领域参与者在基准性能方面与全球同行相比不断取得进步,同时大幅降低了训练和推理成本,以及对计算资源的需求。
虽然我们不对各模型的具体性能发表看法,但留意到近期模型改进和成本优化可能源于以下几方面:
1. 专家混合(Mixture of Expert,MoE)架构,该架构在每项任务中使用的激活参数更少;
2. 对后训练阶段的重视(例如引入深度思考模式和推理能力);
3. 成本优化举措,像是采用资源高效的训练方法。尤其在高端芯片供应受限或存在不确定性的背景下,中国从业者更加注重实现效率最大化;
4. 模型具备强化学习(RL)功能,这些模型能够随时间不断自我完善,这是通用人工智能(AGI)的一个关键要素。
此外,我们还注意到,包括 DeepSeek R1/V3 和阿里巴巴的 Qwen 等中国开源模型,因其具有较高透明度且每 token 价格明显更低,自发布后吸引了众多开发者的关注。
各位朋友,对于中国 AI 模型的这些发展变化,你们有什么看法呢?欢迎点赞、评论分享你们的观点,记得关注我,获取更多相关资讯!