Meta开源神器 | 不懂音乐,也可以AI生成音乐了!

作者:FancyPig | 发布时间: | 更新时间:

相关阅读

视频讲解

想象一下,只需几秒钟,你就能在电脑上用人工智能生成无版权的音乐。太酷了吧?本期视频,我将带你领略MusicGen的神奇魔力,一款免费的开源AI工具,通过输出一行文字就能创造出全新的音乐,甚至将已有旋律转换为完全不同的风格!背后的开发者竟然是… Facebook!是的,这款神奇的MusicGen模型正是由Facebook团队打造的,现在你可以免费在自己的电脑上使用它。准备好你的耳机,让我们一起揭开AI音乐魔法师的神秘面纱。我们将手把手教你如何在Windows系统上安装和使用这款软件。不用担心,即使你没有强大的GPU,我们也为你准备了Google Colab的运行环境。

相关资料

图文讲解

用MusicGen在你的电脑上用人工智能生成无版权的音乐,只需几秒钟。这……这太酷了。大家好,我是k,你的AI霸主,今天我要向你展示MusicGen,一个免费的开源AI工具,可以让你从一行文字中创造新的音乐。或者更好的是,将已经存在的旋律转换为完全不同的风格。而这一切都在你自己的电脑上。

哇,这真是太疯狂了。所以说,坐下来,放松,准备好你的耳机,我们开始吧。所以,MusicGen,一个开源的语言模型,可以从一行文字或一个低音旋律中产生高质量的音乐,由…创建。Facebook。

是的,这就对了。一个为Facebook工作的团队实际上是那个MusicGen模型的幕后推手。自从他们向公众发布了一切,我们现在可以在自己的电脑上免费使用它了。我将向你展示如何使用。现在在我们开始安装之前,我们到底需要什么?好吧,在这个视频中,我将向你展示如何从Windows安装。所以,如果你有Linux或Mac,我不太确定这个安装会对你有用。而你需要的第二件硬件是一个强大的GPU。现在在GitHub页面上,他们说你需要一个至少有16GB内存的GPU,

但实际上,在实践中,你实际上不需要这么多VRAM。实际上,你可以用大约4到5GB的VRAM在本地使用它。

然而,不用担心,即使你没有这么多的VRAM,我稍后会告诉你如何在没有任何GPU的情况下完全免费使用它。所以基本上不用担心,即使你没有强大的电脑,即使你没有强大的GPU,你也不会错过任何东西。而这是非常酷的。现在在我们开始安装之前,你需要一些东西。第一个是Git。所以如果你还没有安装它,那就非常容易了。只要点击这个按钮就可以下载到Windows、然后按照安装过程将其安装在自己的计算机上。

接下来,你需要 Python。所以再说一遍,如果你还没有,你要来到这里,向下滚动,然后点击 Windows 安装程序,然后接下来,按照安装过程进行。

不要忘记勾选 "将Python添加到路径 "的选项,因为否则,它不会工作。

然后你需要做的是安装PyTorch 2.0.1。我个人在使用该Torch版本时遇到了很多错误和问题,但我通过使用这个命令卸载了所有东西,然后使用以下命令重新安装了带有CUDA的PyTorch 2.0.1。基本上,如果你不知道怎么做,你要点击这里来复制这整行代码。

在你的启动菜单中,你要寻找命令提示符,然后按Ctrl V把这个命令粘贴在这里,然后按Enter键。

pip uninstall torch torchvision functorch tinycudann

你要等待所有的东西都被卸载掉,然后你要对第二行代码做同样的事情。现在很明显,我不会这么做,因为我之前已经做过了,但如果你没有安装PyTorch 2.0.1,你绝对需要先做这个。

pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

否则,很明显,它将无法工作。最后,一旦一切都安装完毕,在你的电脑上,你要创建一个新的文件夹。我把我的文件夹称为 "音乐",

然后一旦你进入该文件夹,你要点击你的文件夹路径,输入cmd,按回车键,

这将带来命令提示符窗口,然后你要复制并粘贴这个命令行,你会在下面的描述中发现。

git clone https://github.com/facebookresearch/audiocraft.git

然后你可以按回车键。这将在你自己的电脑中克隆资源库,创建一个新的 AudioCraft 文件夹。

如果我们进入里面,你会看到一堆文件。

从这里开始,同样的,你要点击文件夹路径,输入cmd,按回车键,

然后你要复制并粘贴这一行,你会发现在GitHub页面上,或者下面的描述中,

你当然要粘贴到命令提示符窗口,然后按回车键。

pip install -e .

这基本上会下载运行该工具所需的所有要求。而现在,好了,我们已经完成了。

是的,没错,就是这么简单。现在,如果你想运行网络用户界面,你所要做的就是输入python app.py,或者你可以直接复制和粘贴命令,你会在下面的描述中再次找到。这样一来,你就不必再输入任何东西了。然后按回车键。

现在,如果你看到这个小Triton错误,这绝对是好的。这绝对是正常的。这对结果的质量绝对没有影响。

你会在这里看到一个本地的URL,你可以通过按住Ctrl键,然后左键访问。

你就可以了。现在,我们在MusicGen网页用户界面内,我们可以立即使用。所以现在,你会看到一堆不同的区域。所以这里,例如,是你要输入文字的地方。所以我们说,例如,我想要一首平静、冥想、禅修风格的音乐,融入了爵士乐元素,还有流畅的萨克斯风独奏。

所以在这里,你可以选择不同的音乐模式。而你有四个模型可以选择,旋律、中、小、大。当然,模型越大,它要使用的VRAM就越多。所以,举例来说,如果你只有5GB的VRAM、你可以,例如,使用小模型。而且它将完全正常工作。所以在这里,你可以选择你的音乐的持续时间,这基本上是多长的音乐生成将是。而就现在而言,目前的限制是30秒左右。现在,将来可能会产生超过30秒的音频。但就目前而言,30秒是最大的限制。但在这个例子中,我只打算选择10秒左右。这将是绰绰有余。然后在这里,你有一堆的参数来控制生成的质量。现在,这有点复杂,但基本上,top k意味着,数字越大,生成的变化就越多。然后top p与top k非常相似,除了这次,它更像是一个百分比和基于概率。温度,你已经知道了,它基本上是生成的随机性和可预测性的程度。所以数字越大,随机性就越大。而无分类指导基本上是控制一切,引导它向某个方向发展。现在,所有这些都是非常复杂的解释。所以,要么让一切都保持默认,要么就玩一玩。但基本上,一旦你输入了文本,一旦你输入了提示,你所要做的就是点击提交,等待你的音乐生成。

现在,当你第一次生成音乐时,它将开始下载你在这里选择的模型。所以你第一次做的时候,可能需要几分钟时间来下载模型和生成音乐。但在那之后,它就会变得非常非常快。然后我们就开始了。正如你所看到的,在大约40秒内,我们从头生成了一个全新的音乐。如果我们听它,我的意思是,它是相当不错的。我的意思是,这绝对是我所要求的。平静、冥想的禅宗曲目,在流畅的萨克斯风独奏中注入了爵士乐元素。我的意思是,这正是我得到的东西。你想让我说什么?现在,我现在就要告诉你。我不是一个大的音乐专家。我对音乐完全一无所知。我自己甚至没有听过很多音乐。这就是为什么我有点需要你的意见,在下面的评论中告诉我,如果一个音乐是好还是不好。

因为接下来,我们要用这个工具玩一下,产生一些很酷的音乐,我肯定会需要你的意见。因为正如我所说的,我在这方面真的非常非常糟糕。现在,还有一件事我没有给你看,就是这里的这个小选项。上面写着Melody Condition。这是你可以把一个音频文件放在这里,并使用该旋律作为基础来创建你的音乐。这就是你实际上可以使用你在其他地方下载的或自己创造的旋律的地方,然后将其转化为完全不同的风格。

像,你有几个例子就在这里。所以,如果我点击它,它会从后面的这个低音音乐,这听起来像这样。然后通过使用下面的提示,一首80年代的驱动流行歌曲,背景是沉重的鼓和合成器垫,使用旋律模型,如果现在我点击提交,大约40秒后,我们得到这样的东西。这简直是疯了。

因此,正如你所看到的,我们基本上是以古典音乐作品为基础,然后将其转换成80年代的驱动流行歌曲。而这一切都在几秒钟内完成。我的意思是,这简直是疯了。因为对我来说,生成的质量看起来真的非常非常好。

现在我得告诉你,这个工具对于YouTube和Twitch上的小创作者来说绝对是不可思议的。因为如果你知道YouTube是如何运作的,或者如果你自己有一个YouTube频道,你知道在YouTube上有一个很大的问题,当它涉及到内容ID和版权索赔。而且我认为你们大多数人都知道,如果你想在YouTube上的视频中使用受版权保护的音乐,那么,你不能。因为如果你这样做了,你就会遭到版权打击,并失去视频的赚钱功能。这就是为什么这么多Youtube网友使用不同的服务,并提前支付使用一堆无版权的音乐,他们可以在他们的视频中使用。

然而,使用这样的工具可以让你产生任何你想要的音乐,在任何你想要的风格,完全免费。因此,如果你是一个小的YouTube创作者,我的意思是,这个工具是必须的。这是一个改变游戏规则的工具。因为找到一个适合某种风格的音乐,或传达某种情感,是真的,真的很难找到。而且有时会花费很多钱。但是,如果你能生成你自己的音乐,在任何风格,并传达任何情感,你想,在几秒钟内免费,好了,我得说,这是相当不可思议的。因为你在这里生成的每一首音乐,都是100%无版权的。所以,再见版权要求,欢迎赚钱。然而,我知道你们中的一些人也会说,好吧,好吧,这很好,但是我没有一个强大的GPU能够运行这个。我怎么能免费运行这个工具?嗯,答案非常简单。我们将使用一个免费的谷歌Colab Doc。

这就对了,就这么简单。为此,我们将使用camenduru提供的免费谷歌Colab Doc。当涉及到Google Colab Doc时,它又有点像一个国王。我想他对几乎所有存在的东西都有一个Google Colab Doc。这真的令人印象深刻。但如果你想使用Google Colab Doc,你要点击下面描述中的链接,你要到达这个页面,然后你要点击这里的小图标。

这将打开一个非常简单和非常容易使用的Google Colab Doc,你可以通过点击这里的这个小单元来运行。然后点击无论如何运行。

然后你要等待一切安装完毕,可能需要几分钟,所以要有耐心。最后,这将给你一个公共的URL,如果你点击它,将启动音乐Genwave用户界面。

完全就像这是在你自己的电脑上本地运行一样。

就这么简单。当然,你也可以用完全相同的方式来使用它。只要输入一个文本,选择一个模型,然后点击提交。而最后,这就是你得到的东西。听起来很不错。

如果你想下载音乐,别忘了点击这里的小图标。

所以现在让我们真正有一点点的乐趣。让我们生成一些人工智能音乐,看看它们到底有多好。所以对于第一个例子,我将从一个意大利西部主题开始,变成一个寒冷的松散的嘻哈曲调,用于学习和放松。我选择大型模型,和30秒的限制。现在如果我点击提交,大约2分钟后,我们得到这样的东西。我的意思是,是的,我的意思是,不坏。我的意思是,再次让我知道你在评论中的想法。但我认为这听起来很不错。现在,我的意思是,正如我所说,我绝不是一个音乐专家。像,完全不是。但是,我的意思是,我不知道,这对我来说听起来不错。那么来点更不同的东西怎么样?也许像8位视频游戏的音乐,也许这次让我们只用,比如,也许10秒。然后点击提交,而我们得到的是这样的东西。我的意思是,再次,是的,真的不坏。这真的让我想起了我的童年,与所有那些可怕的游戏,我曾经玩,基本上都有非常相似的音乐。所以,是的,我的意思是,这听起来真的,真的很好。现在我想做的最后一个测试,是实际输入一个旋律作为低音。为此,我基本上选择莫扎特的开头,第11号钢琴奏鸣曲,那基本上听起来是这样的。

现在,我想你们大多数人都知道这段音乐,我想我要把它改造成,我想把它改造成一个充满活力的、复古的80年代合成波。不要忘记选择旋律模式,30秒,然后点击提交。然后我们就开始了,我们从这个,到这个。

我的意思是,我不知道你,但这听起来真的,真的很好。我其实真的希望我们能产生超过30秒的时间,因为我肯定会想听听这首歌的其余部分。我认为这个,我想我会保留它。所以我的意思是,我得说,Facebook的研究最近,对开源社区有一个疯狂的影响。首先,随着Llama的发布,每个人都用了几个月的LLM模型作为基座,然后是发布段任何东西,基本上可以分析一个图像,并为该图像中的每个元素创建不同的遮罩,非常非常精确。

现在我们有了MusicGen,是现在使用AI生成音乐的最佳工具。就这么简单。而且我简直不敢相信,你现在就可以免费使用这个工具。我的意思是,这绝对是疯狂的。这真是太酷了。正如我之前所说,它不仅是一个很酷的工具,可以生成任何你想要的音乐,只是为了好玩,但如果你是YouTube上的内容创作者,你将永远不必担心版权索赔。而这真的很奇妙。我是说,我能说什么呢?一定要试试,找点乐子。就这样,朋友们,非常感谢你们的观看。不要忘了订阅、疯狂点赞以支持YouTube算法,也非常感谢我的Patreon和YouTube的支持者,你们绝对是了不起的。你们是支持我的人,所以我才能为你们制作这些视频,所以非常感谢你们。我们下期再见。再见!

标签:facebook, youtube, 音乐, 免费, gpu, Windows系统, AI音乐魔法师, 无版权音乐, MusicGen, 音乐生成, 开源AI工具, 安装使用, 网页用户界面, 音乐特点, 音乐模式, 持续时间, 内容创作者, 版权纠纷, 生成音乐, 旋律转换, 音乐风格