贝铂智能申请多语言场景下基于AI大模型的语音合成专利,提升生成语音波形的连贯性和自然度

金融界 2025-01-18 17:13:21

金融界2025年1月18日消息,国家知识产权局信息显示,深圳市贝铂智能科技有限公司申请一项名为“多语言场景下基于AI大模型的语音合成方法、装置以及设备”的专利,公开号CN119314466A,申请日期为2024年12月。

专利摘要显示,本发明提供了一种多语言场景下基于AI大模型的语音合成方法、装置以及设备,包括:对输入的多语言待合成文本,进行文本特征提取,得到待合成文本特征;基于融合特征模型对待合成文本特征进行语音合成参数生成;其中,预先训练完成的所述融合特征模型中具有语音合成参数和文本的映射关系,所述语音合成参数包括基频参数、时长参数、频谱参数;将所述语音合成参数输入到预先训练完成的声码器中,基于所述声码器将所述语音合成参数中的多个参数处理为中间特征向量,将所述中间特征向量转换为离散的语音样本点,将所述离散的语音样本点转换为连续的语音波形,得到多语言待合成文本对应的合成语音。在本发明中,提升生成语音波形的连贯性和自然度。

天眼查资料显示,深圳市贝铂智能科技有限公司,成立于2015年,位于深圳市,是一家以从事计算机、通信和其他电子设备制造业为主的企业。企业注册资本500万人民币,实缴资本500万人民币。通过天眼查大数据分析,深圳市贝铂智能科技有限公司共对外投资了1家企业,参与招投标项目1次,知识产权方面有商标信息16条,专利信息70条,此外企业还拥有行政许可9个。

本文源自:金融界

0 阅读:0