2小时就能训练出一个明星?AI版孙燕姿技术分析

波币钱包App — 私钥自管,资产永不丢失

波币钱包App — 私钥自管,资产永不丢失 > 新闻及媒体 > 2023

2小时就能训练出一个明星?AI版孙燕姿技术分析

2023-05-22

近日,,,AI“孙燕姿”爆火,,,其翻唱的《发如雪》《下雨天》短短几天就突破百万播放量,,,一度登上各大平台热搜榜首位,,,成为“新晋顶流”。。。在B站在搜索框输入“AI”后,,,第一个词条就是“AI孙燕姿”。。。除了孙燕姿外,,,还有周杰伦、、、王心凌、、、许嵩、、、Lady Gaga等歌手也被网友制作出了「AI替身」。。。有人说,,,这是2023年最火的声音,,,有人说,,,这是对真人歌手赤裸裸的侵权,,,还有人说,,,这是AI技术的新高度,,,AI将成为音乐创作的新工具。。。


元境科技人工智能专家解读“AI孙燕姿”背后原理


“AI孙燕姿”凭什么能够如此爆火,,,让网友们喜爱不已,,,又是怎么做到如此拟真,,,实现接近原唱效果的呢?为了搞明白背后的技术原理,,,小编特意请教了元境科技人工智能方面的专家。。。了解到“AI孙燕姿”正是利用了当下最热门的人工智能技术,,,通过建立神经网络模型,,,经过大量音乐数据集训练,,,使得AI虚拟歌手的声音与真人歌手无异。。。


“AI孙燕姿”使用的核心技术来源于Sovits4.0歌声转换模型,,,基于so-vits-svc的开源项目制作。。。歌声转换模型通过SoftVC内容编码器提取歌曲的音调、、、音高等特征,,,然后将每段音频做成几秒到十几秒不等的切片,,,然后将翻唱者的声音数据丢给算法拾取出来,,,再和歌曲的切片对应。。。最后,,,再对生成的歌曲进行后期优化,,,比如加入混响或简单修音,,,一首AI翻唱歌曲就制作完成了。。。

微信截图_20230601170449.png


Sovits4.0模型介绍


Sovits4.0模型是一种歌声转换模型,,,它可以将一个人的声音转换成另一个人的声音,,,具有极高的准确性和逼真度。。。这意味着“AI孙燕姿”可以通过该模型学习并模仿孙燕姿的音色和唱腔特点,,,从而创造出逼真的孙燕姿风格歌曲。。。


模型的核心技术是SoftVC内容编码器,,,它基于深度学习和神经网络技术,,,使用了一种称为变分自动编码器(Variational Autoencoder,,,VAE)的架构,,,结合了条件生成对抗网络(Conditional Generative Adversarial Network,,,CGAN)的思想。。。SoftVC内容编码器的目标是学习并提取人声中的内容信息,,,即与语义相关的特征,,,而忽略与说话人个体有关的特征,,,这样的分离可以确保在进行歌声转换时,,,保留源音频的音乐内容,,,并将其转换为目标歌手的声音特征。。。在这个过程中需要大量的训练数据和不断反复迭代的训练,,,以使生成的效果尽可能接近目标歌手。。。


外国模型遇到中文歌,,,多少有些“水土不服”


不过虽说Sovits4.0模型生成的音乐在专业人员的调音后,,,有着不错的效果,,,但是模型本身未对中文歌曲做针对性优化,,,在国内使用多少有些“水土不服”。。。生成中文歌曲时不时会出现小瑕疵,,,需要大量的手工精调才能出曲,,,对于普通用户来说门槛过高。。。如果想要实现比较好的效果,,,甚至还需要对模型进行Fine tuning。。。同时也对训练的数据集要求非常严苛(需要歌手咬字清晰),,,一些唱法比较“飘逸”的歌手(不是在说咱周董哈~)学习效果就不是很理想了。。。


之所以“AI孙燕姿”成为最火的AI歌手,,,成功出圈,,,也正是因为孙燕姿的歌曲吐词清晰,,,适合作为训练数据集,,,所以模仿的效果最好。。。目前Sovits4.0对训练数据集要求过严、、、使用门槛过高、、、中文歌曲生成效果不佳是该模型存在的显著问题。。。


「MetaSurfing-元享智能云平台」华语AI音乐最佳选择


要说最了解咱们华语音乐的,,,那自然还得是咱们中国人自己。。。正好最近波币钱包子公司元境科技的「MetaSurfing-元享智能云平台」免费开放,,,其内置的AI音频模块集成了元境科技自研的声学模型,,,该模型学习了大量中文曲目,,,针对华语音乐做了海量优化,,,把使用门槛降低到了“有手有嘴就行”(为此算法工程师小哥哥的头发都快掉光了)。。。表现效果达到了世界第一梯队水平。。。用了元享智能云平台,,,AI版的你说不定就是下一个华语乐坛“新晋顶流”。。。


不过元享智能云平台真的能达到无门槛的上手难度吗?实践是检验真理的唯一标准,,,小编决定亲自体验一番。。。没想到从下载到生成歌曲,,,我这样没有任何音乐细胞和计算机基础的新手小白竟然也能轻松玩转。。。下面小编来教大家如何使用元享平台创作AI歌曲。。。


小白教程

第一步 打开元享,,,录制一段二十分钟左右的文稿,,,这是为了给模型生成一段可以学习音色、、、音调等特征的素材。。。让元享生成我们自己的声音模型。。。

第二步 把这段录音上传到“元享智能云平台”,,,然后喝上一杯咖啡,,,等待约半个小时左右的训练时间(云端训练,,,不占用本地资源哦~硬件层面也实现了无门槛),,,我们自己的个性化音色特征码就生成好了~

第三步 生成自己的AI音乐,,,分享到B站、、、抖音、、、朋友圈,,,让自己AI作品刷屏社交网络。。。

「MetaSurfing-元享智能云平台」,,,简易的操作步骤,,,先进的计算模型,,,省去了AI翻唱歌曲所需的大量繁琐工作,,,无需数据的预处理、、、格式转换、、、文本转换、、、去噪、、、音量平衡等诸多操作,,,只需要将数据丢给元享智能云平台,,,稍等片刻就好了~

动起手来,,,创作属于你的音乐吧!

对于咱们普通人来说,,,如果对音乐创作有兴趣,,,在元享这样的低门槛数字内容创作平台的加持下,,,动手原创出一首属于自己的歌曲已经非常容易。。。所以不妨现在就动起手来!也许不到2小时你就能训练出一个AI明星~