Meta的人工智能音乐生成器可能是新的合成器

它由三个人工智能模型组成,全部解决声音生成的不同领域。MusicGen采用文本输入来生成音乐。该模型接受了“Meta拥有的或专门为此目的授权的20,000小时音乐”的训练。AudioGen根据书面提示创建音频,模拟狗叫或脚步声,并接受了公共音效方面的培训。Meta的EnCodec解码器的改进版本可以让用户创建具有更少伪影的声音-这就是当您过多地处理音频时会发生的情况。

该公司让媒体聆听一些使用AudioCraft制作的音频样本。产生的口哨声、警报声和嗡嗡声听起来很自然。虽然歌曲中的吉他弦感觉很真实,但它们仍然感觉很人造。

Meta是解决音乐与人工智能相结合的最新成果。谷歌提出了MusicLM,这是一种大型语言模型,可以根据文本提示生成几分钟的声音,并且只有研究人员才能访问。然后,一首“人工智能生成”的歌曲,其声音与Drake和TheWeeknd相似,在被下架之前就在网上疯传。最近,一些音乐家,比如格莱姆斯,鼓励人们在人工智能创作的歌曲中使用自己的声音。

当然,音乐家们长期以来一直在尝试电子音频。EDM和Ultra之类的音乐节并不是凭空出现的。但计算机生成的音乐听起来通常是根据现有音频进行处理的。AudioCraft和其他人工智能生成的音乐仅根据文本和庞大的声音数据库创建这些声音。

现在,AudioCraft听起来像是可以用于电梯音乐或库存歌曲,可以插入来营造某种氛围,而不是下一个热门流行歌曲。然而,Meta相信它的新模式可以引领新一波歌曲,就像合成器流行后改变音乐一样。

该公司在博客中表示:“我们认为MusicGen可以变成一种新型乐器,就像合成器首次出现时一样。”Meta承认创建能够制作音乐的人工智能模型很困难,因为音频通常包含数百万个点,模型在这些点上执行动作,而Llama2等书面文本模型仅包含数千个点。

该公司表示,AudioCraft需要开源,以使用于训练的数据多样化。

“我们认识到用于训练模型的数据集缺乏多样性。特别是,所使用的音乐数据集包含大部分西式音乐,并且仅包含音频文本对以及用英语编写的文本和元数据,”Meta说。“通过共享AudioCraft的代码,我们希望其他研究人员能够更轻松地测试新方法,以限制或消除生成模型的潜在偏见和滥用。”

唱片公司和艺术家已经对人工智能的危险敲响了警钟,因为许多人担心人工智能模型会采用受版权保护的材料进行训练,从历史上看,他们是一群好打官司的人。当然,我们都记得Napster发生的事情,但最近,Spotify面临着一场价值数十亿美元的诉讼,该诉讼基于自自动钢琴时代以来就存在的法律,而就在今年,法院必须就EdSheeran是否抄袭做出裁决马文·盖伊的《大声思考》。

但在Meta的“合成器”开始巡演之前,必须有人想出一个提示来吸引那些想要更多机器制作的歌曲而不仅仅是穆扎克的歌迷。