信息概览
Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发,拥有多个优秀功能。实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉。
(一)捐赠主体
武汉简视科技有限公司
(二)技术特点
Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。
该技术基于VALL-E X语言模型而开发,拥有多个优秀功能:
零样本语音克隆: 仅需 3~10 秒的声音prompt,即可原滋原味的复刻原声音的各种声线特点。
语音情感控制: 可以合成与原声音具有相同情绪的语音。
跨语种语音合成: 可以将某一语种的声音,合成为其他不同的语言,并且保留原声音的特色和语调情绪。
口音控制: 可以合成带有口音的声音,比如说带有英语口音的中文等。
多语言合成: 实现英语、中文和日语 ,三种语言的自然而富有表现力的语音合成。
VALL-E X模型的基本构架原理
首先将需要合成语音的文本,及某些效果提示词,如开心、舒缓等,输入文本转音素模块,进行音素转换。
然后录入3秒钟的声音,输入声音编码器。
这两种数据,都输入到“神经编解码器语言模块”中,通过算法进行合成。
最后通过声音解码器,输出我们需要的具有个性化的语音。
(三)项目sponsor
王正航 武汉简视科技 CTO
(四)项目价值
随着短视频、短剧蓬勃发展,无论文化传播需要,还是庞大的市场需求,内容出海越来越迫切。然而,传统的译制方式,周期冗长,成本高昂,优秀的配音演员也日渐稀缺;另外,简单的机器翻译和配音,声线种类单调,声音僵硬缺乏情感,大大降低了了国外观众的观感。
基于VALL-E X语言模型而开发的声音印记技术,实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉,非常适合当下庞大的短视频、短剧的配音需求,有利于文化的持续输出。不仅如此,该技术还可以应用于其他众多领域,如有声小说、视频配音、车载助手、人机交互、在校教育、新闻播报等。
(五)项目简介
Voice Imprint(声音印记)是一种跨语种声音复刻技术,仅需要 3~10 秒的声音片段和文字,即可让用户说出多种语言,让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发,拥有多个优秀功能。实现了语音合成自然流畅、饱含情感,品质直追传统译制片。同时,制作周期短、成本低廉,
(六)项目的开发团队介绍
声音印记由武汉简视科技团队开发,武汉简视科技致力于打造全球最大的视频字幕生产、翻译、配音、视频内容出海运营的智能传播平台。业务涵盖外宣、影视剧集、游戏、科技、金融、医学、体育等众多领域。