周五(3月29日),Open AI公司推出一款人工智能语音工具——“语音引擎”(Voice Engine),能够以惊人的准确性模仿人类的声音。
Open AI发布了Voice Engine早期测试的样本,可以用随便一个人15秒的语音样本,来生成他说话和朗读的长篇语音。生成的语音与原始人声的相似度令人惊叹,而且语速、语调和情绪还可以进行变化。
Voice Engine这类人工智能语音生成器具有一系列潜在应用,比如在辅助功能服务方面。它们可以帮助翻译,帮助儿童阅读或帮助那些失去说话能力的人。
不过,这种高准确性的智能语音模拟技术存在很大的应用风险。网络诈骗分子和集团可能将其用于模拟亲友和目标人进行通话,进而开展诈骗行为。
因此,OpenAI公司表示,Voice Engine目前仅开放给“一小群值得信赖的合作伙伴”使用,包括教育和卫生技术公司。它将使用它们的测试情况来确定是否或如何更广泛的应用。
OpenAI称,这些测试人员已同意在未经他们明确同意的情况下不重现人们的声音,并向听众明确表明他们听到的是人工智能产生的语音。
另外,OpenAI在周一还宣布,它正在向人们开放ChatGPT,任何人无需注册即可使用该服务。这可能是面临其他公司同类产品竞争的缘故。
OpenAI表示,它可能会使用加载到ChatGPT中的任何文本来改进其模型。如果不想要这个功能的话,即使没有账户,也可以通过设置来关闭。然而,如果没有账户,用户将无法保存或查看聊天历史记录或访问其他各种功能,包括语音对话和自定义说明。
OpenAI的Voice Engine抢在了之前已经披露的视频生成工具Sora之前发布,显示出其公司在人工智能研发方面突飞猛进的进展。
现在OpenAI的ChatGPT、Voice Engine和Sora三个人工智能工具分别在文本、语音和视频方面齐头并进的快速发展,都取得了重大成果,形成了全方面的人工模拟状态。
这种生成式人工智能更加可怕的地方是,它会自学习。不但可以集中式灌输学习,还能通过与使用者的沟通来不断吸取知识。以这种速度,可能在一两年之能就能把人类几千年的知识吸收完毕,还能不断及时的吸收新的知识。
更甚至更恐怖的是它可能可以学习自己研究出来的知识。
现在文字、语音和视频的人工智能模型都达到了比较实用的水平,其实对一般性的白领办公室工作已经形成了很强的替代作用。
我们已经处在第四次工业革命的进程之中。