Voice Imprint

Commits:2

Star:784

Contributor:0

Watch:54

Fork:11

PR:12

信息概览

Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发,拥有多个优秀功能。实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉。


(一)捐赠主体

武汉简视科技有限公司

(二)技术特点

Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。

该技术基于VALL-E X语言模型而开发,拥有多个优秀功能:

零样本语音克隆: 仅需 3~10 秒的声音prompt,即可原滋原味的复刻原声音的各种声线特点。

语音情感控制: 可以合成与原声音具有相同情绪的语音。

跨语种语音合成: 可以将某一语种的声音,合成为其他不同的语言,并且保留原声音的特色和语调情绪。

口音控制: 可以合成带有口音的声音,比如说带有英语口音的中文等。

多语言合成: 实现英语、中文和日语 ,三种语言的自然而富有表现力的语音合成。


VALL-E X模型的基本构架原理


首先将需要合成语音的文本,及某些效果提示词,如开心、舒缓等,输入文本转音素模块,进行音素转换。

然后录入3秒钟的声音,输入声音编码器。

这两种数据,都输入到“神经编解码器语言模块”中,通过算法进行合成。

最后通过声音解码器,输出我们需要的具有个性化的语音。

(三)项目sponsor

王正航 武汉简视科技 CTO

(四)项目价值

随着短视频、短剧蓬勃发展,无论文化传播需要,还是庞大的市场需求,内容出海越来越迫切。然而,传统的译制方式,周期冗长,成本高昂,优秀的配音演员也日渐稀缺;另外,简单的机器翻译和配音,声线种类单调,声音僵硬缺乏情感,大大降低了了国外观众的观感。

基于VALL-E X语言模型而开发的声音印记技术,实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉,非常适合当下庞大的短视频、短剧的配音需求,有利于文化的持续输出。不仅如此,该技术还可以应用于其他众多领域,如有声小说、视频配音、车载助手、人机交互、在校教育、新闻播报等。

(五)项目简介

Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发,拥有多个优秀功能。实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉,

(六)项目的开发团队介绍

声音印记由武汉简视科技团队开发,武汉简视科技致力于打造全球最大的视频字幕生产、翻译、配音、视频内容出海运营的智能传播平台。业务涵盖外宣、影视剧集、游戏、科技、金融、医学、体育等众多领域。