Voice Imprint-天工开物开源基金会|Chance Foundation

Voice Imprint

Commits:2

Star:784

Contributor:0

Watch:54

Fork:11

PR:12

信息概览

Voice Imprint（声音印记）是一种跨语种声音复刻技术，仅需要 3~10 秒的声音片段和文字，即可让用户说出多种语言，让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发，拥有多个优秀功能。实现了语音合成自然流畅、饱含情感，品质直追传统译制片。同时，制作周期短、成本低廉。

（一）捐赠主体

武汉简视科技有限公司

（二）技术特点

Voice Imprint（声音印记）是一种跨语种声音复刻技术，仅需要 3~10 秒的声音片段和文字，即可让用户说出多种语言，让语言不再成为内容出海的障碍。

该技术基于VALL-E X语言模型而开发，拥有多个优秀功能：

零样本语音克隆: 仅需 3~10 秒的声音prompt，即可原滋原味的复刻原声音的各种声线特点。

语音情感控制: 可以合成与原声音具有相同情绪的语音。

跨语种语音合成: 可以将某一语种的声音，合成为其他不同的语言，并且保留原声音的特色和语调情绪。

口音控制: 可以合成带有口音的声音，比如说带有英语口音的中文等。

多语言合成: 实现英语、中文和日语，三种语言的自然而富有表现力的语音合成。

VALL-E X模型的基本构架原理

首先将需要合成语音的文本，及某些效果提示词，如开心、舒缓等，输入文本转音素模块，进行音素转换。

然后录入3秒钟的声音，输入声音编码器。

这两种数据，都输入到“神经编解码器语言模块”中，通过算法进行合成。

最后通过声音解码器，输出我们需要的具有个性化的语音。

（三）项目sponsor

王正航武汉简视科技 CTO

（四）项目价值

随着短视频、短剧蓬勃发展，无论文化传播需要，还是庞大的市场需求，内容出海越来越迫切。然而，传统的译制方式，周期冗长，成本高昂，优秀的配音演员也日渐稀缺；另外，简单的机器翻译和配音，声线种类单调，声音僵硬缺乏情感，大大降低了了国外观众的观感。

基于VALL-E X语言模型而开发的声音印记技术，实现了语音合成自然流畅、饱含情感，品质直追传统译制片。同时，制作周期短、成本低廉，非常适合当下庞大的短视频、短剧的配音需求，有利于文化的持续输出。不仅如此，该技术还可以应用于其他众多领域，如有声小说、视频配音、车载助手、人机交互、在校教育、新闻播报等。

（五）项目简介

Voice Imprint（声音印记）是一种跨语种声音复刻技术，仅需要 3~10 秒的声音片段和文字，即可让用户说出多种语言，让语言不再成为内容出海的障碍。该技术基于VALL-E X语言模型而开发，拥有多个优秀功能。实现了语音合成自然流畅、饱含情感，品质直追传统译制片。同时，制作周期短、成本低廉，

（六）项目的开发团队介绍

声音印记由武汉简视科技团队开发，武汉简视科技致力于打造全球最大的视频字幕生产、翻译、配音、视频内容出海运营的智能传播平台。业务涵盖外宣、影视剧集、游戏、科技、金融、医学、体育等众多领域。

开源项目