文 | 刘士武(36氪游戏)
10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型「MaskGCT」正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,MaskGCT采用掩码生成模型与语音表征解耦编码技术,在声音克隆、跨语种合成、语音控制等任务环节中能够快速落地。
测试结果(来源:MaskGCT)
据了解,相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,在三个TTS基准数据集上都达到了SOTA效果。其显著特点如下:
秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。
更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的高度一致。
高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,实现中英日韩法德6种语言的跨语种合成。
MaskGCT的研发工作由港中大(深圳)、趣丸科技人工智能联合实验室成员完成。作为一个大规模的零样本TTS模型,MaskGCT采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测,其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。 MaskGCT大模型翻译《黑神话:悟空》动画片段(视频来源:趣丸千音) 根据官方实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前绝大部分的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。 MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布 值得一提的是,MaskGCT是一个两阶段模型。在第一阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;在第二阶段,模型基于这些语义标记预测声学标记(遵循掩码预测学习范式)。 在训练过程中,MaskGCT学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的标记。通过对10万小时的自然语音进行实验,结果表明MaskGCT在质量、相似度和可理解性方面优于其他现有的零样本TTS系统。 目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规的前提下,趣丸科技开发了多语种速译智能视听平台“趣丸千音”,可实现一键上传视频即可快速翻译成多语种版本,并包含字幕修复与翻译、语音翻译、唇音同步等功能,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的新选择。 视频来源:趣丸千音 《2024年短剧出海白皮书》显示,2023年海外市场规模高达650亿美元,约为国内市场的12倍,短剧出海正成为蓝海新赛道。基于MaskGCT的趣丸千音,有机会帮助国产短剧以更低成本、更快捷的方式“走出去”,提升中国文化内容的出海效率。