发新帖

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音? 行业新闻

威尔德编辑 8月前 63213

“通过克隆,把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。”

与小米的最近一次合作中,深声科技为其提供了声音克隆技术,应用在其最新发布的小爱同学定制声音功能上,能让米粉合成自己的、甚至是父母、儿女、恋人的声音,同时还支持音色分享功能。比如,明星将自己音色分享给粉丝后,就能通过声音实现明星和粉丝的“常相伴”。

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

智能语音助手这个颇具想象力的AI应用,正逐渐成为智能终端的基础功能,包括智能手机、智能家居、车载、陪伴机器人等,其普及率有了较大提升,而声音克隆技术的应用,很可能会加速整个进程。

说到声音克隆技术,并非深声科技所独有的,但与竞争对手相比,深声科技CEO周俊明表示:“声音克隆技术上,我们在音色还原度、发音准确率、音质清晰度等方面,具有明显的优势,手机语音助手是我们首个落地场景。” 

声音克隆面临哪些技术挑战?

2020年1月中旬,深声科技声音克隆产品正式上线。在此期间,深声团队在众多竞争者中成功拿下了小米方的需求标的。作为与小米小爱同学的一次深度合作,深声科技将为之提供声音克隆核心技术支持。

包括双方的需求对接、内部评估,再到交付,前后用了1个多月时间。

与传统语音合成相比,声音克隆面临更大的技术挑战。首先,声音克隆需要C端用户配合录音,就不能对其录音环境和设备有过分要求。

我们会建议用户选择一个尽可能安静的地方,使用手机完成录音过程。 

其次,考虑用户的体验,需要尽可能缩短录音的时长。

这就对我们有很高的要求,传统的语音合成需要几十分钟到几个小时的语音数据,相比之下,声音克隆的数据量少,对声学模型的训练有更高的要求,比如发音模糊、发错音、音素覆盖等一系列问题。当然,最重要的还是音色还原度的问题。

现在,用户只需配合朗读20句话短文本,大约录音90秒的语音数据,就能快速克隆出自己的声音,将个人的情感表达、发音特点等信息迁移到合成声音中,就连口音也能很好地克隆出来。

再次,在实际应用中,还要考虑海量用户发起声音克隆请求的高并发问题。为了节约成本,提升用户体验,就要解决模型切换、模型并发数,以及合成延迟等一系列挑战。

海量用户对声音克隆的频繁调用时,模型间的切换逻辑非常重要。

最后,因为采集到的用户数据会上传到服务器进行模型训练,考虑到用户隐私安全的保护,团队提供了私有化部署的方案,以确保用户数据不外泄。

是否迎来大规模商业化? 

过去一段时间,百度、讯飞、搜狗等公司也曾推出声音克隆服务,但似乎并未赢得用户市场的关注。为什么深声科技此次声音克隆技术的上线,会在用户市场引起如此大的反响呢?

周俊明表示,声音克隆大规模商业化需要具备几个条件:

一是克隆的声音有较高的音色还原度,跟真人声音无差异;

二是用户使用门槛不能太高,例如录音条件、发音标准等不能有太高要求;

三是对计算资源的消耗,需要具备个人都能用得起的基础;

四是具备创造出真正的价值,能够提升人们的生活品质。

从这个角度来讲,深声科技与小米的合作开始,就已经具备了将声音克隆技术大规模商业化的能力。

在谈到与普通语音合成的差异时,周俊明表示:

普通语音合成,解决的是如何将语音内容很好地传递出去、更容易地被接收的问题。而声音克隆,体现了用户的社会属性,能够让用户通过声音来服务于他人。这就意味着,每个人的声音的价值能够得到充分体现,在包括亲子互动、情感陪伴、泛娱乐在内的各种场景中具有巨大的应用价值。

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

安全问题如何解决?

将声音克隆引入智能语音助手,会不会引发更多语音诈骗案件的发生?

目前可能普通存在这样的担忧:合成技术的水平发展越高,合成语音与人声的差异就越小,技术鉴定的难度就越大。对此,周俊明也指出,

不必过度担心。问题在于人耳的敏感度不够高,才会对克隆声音没有发觉。但应用技术手段进行区分还是毫无压力的,克隆出来的声音在语谱图中跟真人的声音有明显区别,克隆声音中的很多特征信息已经丢失了。

作为技术服务的输出方,深声科技也十分关注如何规避这项技术的非法应用,在推出之前就考虑了到法律伦理的问题,并给出了三点应对方案:

  • 一是将声音克隆能力只授权给那些有控制能力的企业客户,对于C端用户来讲,只有选择音色的权限,没有自定义克隆声音内容的权限;

  • 二是加强对内容安全的严格审核。不支持用户用随意一段语音进行克隆,要求用户对指定文本进行录音,从而降低声音被利用的风险;

  • 三是通过身份认证、结合生物识别等技术,以限制声音克隆的使用。

关于深声

深声科技是一家专注于“智能语音”技术研发和业务落地的人工智能公司,于2018年在广州天河成立。深声科技拥有一支顶级的人工智能技术团队,自主研发了行业领先的语音合成、声音定制、声音克隆等语音AI技术。

深声的语音AI技术已在众多场景中落地,包括语音助手、智能客服、有声阅读、车载语音、AI教育、动漫等。深声提供的“文字转语音”技术服务,支持的语言也从中文、英文,逐步扩展到了国内方言和海外语种。除了持续不断的技术突破,深声的语音数据制作效率也有了大幅度提升,比如三天交付客户专属定制声音, 两个月支持一门新语种。

让声音服务好每个人的生活,深声致力于将语音AI技术融入人们生活的点滴之中,赋予企业和用户以创新与科技力量来创造更美好的世界。

对深声科技智能语音技术感兴趣的读者,可前往深声科技的官网http://www.deepsound.cn/ 或微信小程序“深声AI”亲身体验。

注:本文转载自雷锋网,如需转载请至雷锋网官网申请授权,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除。

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加- 版权声明 1、本主题所有言论和图片纯属会员个人意见,与成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加立场无关。
2、本站所有主题由该帖子作者发表,该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加享有帖子相关版权。
3、成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加的同意。

这家伙太懒了,什么也没留下。
最新回复 (0)
只看楼主
全部楼主
    • 成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加
      2
        立即登录 立即注册 QQ登录
返回
免责声明:本站部分资源来源于网络,如有侵权请发邮件(673011635@qq.com)告知我们,我们将会在24小时内处理。