高盛指出,中国开发的模型正变得越发灵活,计算成本显著降低(比如DeepSeek

赣州刘云 2025-01-28 21:30:19

高盛指出,中国开发的模型正变得越发灵活,计算成本显著降低(比如 DeepSeek 模型的推理成本大幅下降),这为后续更广泛的 AI 应用及 AI 普及提供了更大空间。

过去一周,DeepSeek R1、字节跳动的豆包 -1.5 Pro 以及 Moonshot 的 Kimi k1.5 模型几乎同步发布,引发投资者高度关注。这背后反映出中国 AI 领域参与者在基准性能方面与全球同行相比不断取得进步,同时大幅降低了训练和推理成本,以及对计算资源的需求。

虽然我们不对各模型的具体性能发表看法,但留意到近期模型改进和成本优化可能源于以下几方面:

1. 专家混合(Mixture of Expert,MoE)架构,该架构在每项任务中使用的激活参数更少;

2. 对后训练阶段的重视(例如引入深度思考模式和推理能力);

3. 成本优化举措,像是采用资源高效的训练方法。尤其在高端芯片供应受限或存在不确定性的背景下,中国从业者更加注重实现效率最大化;

4. 模型具备强化学习(RL)功能,这些模型能够随时间不断自我完善,这是通用人工智能(AGI)的一个关键要素。

此外,我们还注意到,包括 DeepSeek R1/V3 和阿里巴巴的 Qwen 等中国开源模型,因其具有较高透明度且每 token 价格明显更低,自发布后吸引了众多开发者的关注。

各位朋友,对于中国 AI 模型的这些发展变化,你们有什么看法呢?欢迎点赞、评论分享你们的观点,记得关注我,获取更多相关资讯!

0 阅读:4
赣州刘云

赣州刘云

感谢大家的关注