A股正宗豆包语音大模型概念股梳理（名单），建议查看。 2025年1月20日，字

A股正宗豆包语音大模型概念股梳理（名单），建议查看。 2025年1月20日，字节跳动推出了豆包实时语音大模型。这一模型属于语音理解与生成一体化的大模型，达成了端到端的语音对话功能。相较于传统的级联模式，豆包实时语音大模型在多个方面展现出卓越性能。在语音表现力上更为出色，能够以更生动、自然的方式进行语音输出；在控制力方面更强，可精准地按照使用者的意图进行语音交互；在情绪承接上也表现得更为优秀，能很好地延续对话中的情绪氛围。而且，该模型具有低时延的特性，在对话过程中，使用者可以随时打断，操作更加灵活便捷。在数据收集环节，团队精心筛选并细致整理了大量富含丰富情感的语音数据，这些数据覆盖了各种各样的场景以及不同的情绪状态。到了预训练阶段，团队针对各模态交织的数据展开深入的训练，从而能够精确地捕捉海量语音信息，并对其进行高效压缩。通过Scaling（缩放）操作，最大程度上促使语音能力与文本能力深度融合，进而实现能力的涌现。在后训练阶段，团队运用高质量的数据并结合强化学习（RL）算法，进一步提升模型的高情商对话能力，同时保障模型的安全性，使得该大模型既具备“智商”又拥有“情商”。在架构方面，豆包团队研发出端到端的框架，这个框架将语音与文本模态深度融合，专门面向语音生成和理解构建统一的联合模型，从而达成多模态输入和输出的效果，包括语音到语音（S2S）、语音到文本（S2T）、文本到语音（T2S）、文本到文本（T2T）等多种模式。该模型涌现出多种能力：在声音控制方面，模型不只能依据基础的指令输出语音，还能够遵循复杂的指令进行输出；在声音扮演方面，模型目前所呈现出的部分方言和口音，主要是预训练阶段数据泛化的结果，而非专门性的训练所致。此外，这个模型还支持实时联网功能，能够依据提问动态获取最新的信息，回答问题时时效性很强。从测评结果来看，豆包实时语音大模型在情绪理解和情感表达方面有着明显的优势。在整体满意度方面，豆包实时语音大模型的评分为4.36，而GPT - 4o的评分为3.18，可见豆包模型的表现更为优异。 ToB和ToC端大模型齐飞，重视字节跳动等相关产业链投资机会。以下是A股豆包语音大模型概念股梳理：

0 阅读：1