如何使用Runpod或者Google Colab运行大语言模型(LLM)

作者：FancyPig | 发布时间：2023-05-30 10:33:27 | 更新时间：2023-05-30 10:34:13

视频讲解

🤔 没有强大的电脑，怎么运行最新的LLM模型呢？别担心，我帮你解决这个问题！💪🌐 在这期视频中，我将向你展示如何在云端使用文本生成web界面，轻松运行几乎所有的本地LLM模型，使用Google Colab完全免费，或使用RunPod每小时仅需几美分。💸 无论你是谁，无论你的预算多少，都能实现你的AI梦想！🌟
🎯 这个视频对未来很多视频都至关重要，因为强大的LLM模型需要大量显存，即使拥有最强大的GPU（如3090或4090），有些模型仍然无法运行。😵因此，本期视频我们将带大家学习如何使用Runpod或者Google Colab在线上运行大语言模型

备用播放线路

图文讲解

你没有强大的电脑，但你仍然想运行最新的LLM模型，好吧，我已经为你提供了解决方案！大家好，我是K，你的AI霸主，今天我将向你展示如何在云端使用文本生成web界面内运行几乎所有的本地LLM模型，完全免费或使用RunPod每小时几美分。

因此，在这个视频之后，不管你是谁，也不管你的预算是多少，你都能够运行几乎所有你想要的本地LLM模型，即使没有强大的计算机。因此，既然如此，我们开始吧!好吧，在我们开始之前，让我说，这个视频对我未来的很多视频都非常重要。这是因为如果你想运行一个强大的LLM模型，需要大量的显存，即使你有一个非常强大的GPU，如3090，有24G的显存，仍然有一些模型你不能运行。

比如说，如果你想运行llama 650亿个参数的模型，一个简单的3090只有24G的显存是不够的。

但问题是，3090或4090是消费者现在能买到的最强大的GPU，这意味着你只能用24G的显存来限制。但是，如果现在你使用像RunPod这样的网站，允许你以每小时仅几美分的价格租用GPU，这种限制现在完全消失了。因为比如说我想运行一个非常强大的模型，需要40G的显存，比如说我可以上RunPod，租一个48G的显存的GPU，每小时只需要79美分，用这个超级强大的GPU运行这个大模型。我可以告诉你，每小时只需支付79美分，与实际购买完整的GPU相比，

将会，是的，会便宜很多，这真的让像RunPod这样的网站来自上帝的礼物。当然，你不一定需要使用RunPod，你可以使用其他网站，如vast.ai，

但我个人已经使用RunPod差不多一年了，它真的很好，它真的很便宜，它很容易使用。现在，我显然需要说这一点，但我不是由RunPod赞助的，他们没有付钱让我说他们公司的好话，我真的只是喜欢使用他们的服务，在购买3090之前，我每天都在使用这个网站。因为比如说，租3090只需要29美分一小时，

所以我的意思是，是的，这是一个便宜货，绝对比自己买便宜。但我喜欢RunPod而不是其他网站的真正原因是，在这里，他们有一堆模板。因此，只需点击一下，你就可以自动安装一个应用程序，例如，你可以安装Stable Diffusion，或Invoke AI，或Cobalt AI，以及其他一堆由社区制作的应用程序。

当然，最好的事情之一是，他们有一个文本生成web界面应用程序。

因此，只需点击一下，你就可以轻松地在你租用的GPU上安装oobabooga文本生成web界面。然而，问题是，就目前而言，它使用的是像旧版本的Web UI，所以你不会真正拥有所有最新的功能。然而，有一件好事是，它预装了Pygmalion6B模型。因此，如果你喜欢使用Pygmalion 6B模型，并且你不介意使用旧版本的web界面，那么，你可以简单地使用这个模板。但不要担心，因为现在我将向你展示如何使用最新版本的Web界面，这样你就可以运行任何你想要的模型。而我真的是指任何模型。好的，所以你要做的第一件事是，你要进入下面的描述，然后你要点击前两个链接。第一个链接是RunPod.io网站的链接，第二个链接是一个粘贴库的链接。在那个粘贴库中，你会看到一堆命令。而我为你准备了所有这些命令，因为这些都是你需要使用的东西，这样你就可以在最新版本中运行Web界面。现在，我知道这看起来有点复杂，但不要担心，这实际上是非常，非常容易。现在，你需要做的第二件事，是选择一个GPU。对于这一点，你可以选择安全云或社区云。

基本上，它们之间的区别是，安全云基本上更快一点，反应更快，而社区云则稍慢一点，但也更便宜一点。因此，如果对你来说重要的是价格，而不是连接速度，你可以简单地从社区云中选择一个GPU。现在，这是在纸面上，因为在现实中，当你使用它们时，你并没有真正看到很多差异。只有当你需要，例如，下载一个大模型时，你才会看到下载速度上的差异。这就是为什么在这个视频中，我将简单地从安全云选项中选择一个GPU。当然，我强烈建议你选择一个至少有24GB 显存的GPU，如3090或A5000，因为我个人认为，这是最划算的。因此，在这里，例如，我将选择一个3090，然后我将点击部署。

接下来，它将要求你选择一个模板。

当然，你要点击这里，向下滚动，直到你看到RunPod Next Generation UI。

你要点击它。而在这里，正如我所说的，如果你不介意使用旧版本的Web界面，你不一定需要做任何其他事情。而你将简单地点击继续，这样你就可以使用Web界面与Pygmalion 60亿参数模型相结合。然而，这并不是我想要的而且我想使用最新版本的Web界面。因此，对于这一点，你要点击这里，在编辑模板覆盖，

在容器图像下，你要把oobabooga 1.0.1改为1.1.0。

然后在这里，在容器磁盘下，而不是只有5GB，你要输入类似50GB的东西。

这是你将在你的磁盘上拥有的空间量，这样你就可以下载更大的模型。因为是的，只有5GB的空间将不足以下载像130亿参数的模型。所以，当你完成后，你要点击设置重写，然后点击继续。

然后它将给你你的定价摘要，在我们的例子中，将花费我们大约44美分一小时。

所有这些都是为了3090。我的意思是，来吧，这是很便宜的。因为我的意思是，如果你看一下新的3090的价格，它的价格差不多是1500美元，这基本上相当于使用3350小时的GPU租赁，这基本上是139天的不间断使用。

因为你不会一天24小时，一周7天都在使用这个，所以租3090肯定会便宜很多。好吧，那么在我们完成之后，你将会点击部署。正如你所看到的，现在你的Pod正在被构建。

所以现在如果我点击我的Pods，你可以看到现在它正在下载和安装oobabooga文本生成web界面。

现在它可能需要一些时间，所以要有耐心。可能需要2到5分钟的时间来准备一切。但是对于这一步，你不需要做任何事情，你只需要等待。所以还是那句话，要有耐心。然后就可以了。所以几分钟后，我们的平台现在完全准备好了。然而，我们不能按原样使用它。因为举例来说，如果你点击连接，

并点击通过HTTP连接，

你会看到一切都在工作，但我们仍然在使用旧版本的Web UI。

所以如果你想要拥有所有的功能，并且能够使用任何你想要的模型，这里是你需要做的。因此，首先，你要点击连接，点击启动网络终端，然后连接到网络终端。

然后你会看到下面的黑色屏幕。

现在不要担心，如果你以前没有使用过这个，这基本上有点像你在电脑上的命令提示窗口。这听起来可能非常复杂，非常可怕，但这是我的命令发挥作用的地方。

因为你现在需要做的就是选择每一行，点击复制，然后进入web终端内部，然后点击粘贴。然后你要按回车键。现在你要对每一行做同样的事情。所以是的，真的没有那么难。所以在这里、例如，我们使用第一行，也就是git pull，它基本上将网页用户界面更新到了最新版本。

git pull

现在我们要使用第二行，即pip install requirements，这基本上会安装运行最新版本所需的所有需求。

pip install requirements

所以再次，我要把它粘贴起来，然后按回车。

同样，你需要有点耐心，它可能需要几分钟时间来下载所有东西。所以，如果你认为这卡住了，不要惊慌，它只是在安装它需要的一切。就这样，现在所有的要求都已安装完毕。现在我们要对每一行做同样的事情。现在对于这个区块，例如，你实际上可以使用这整个区块，只要点击复制，然后粘贴，那么它就会在setup_cuda.py的安装上停止，你只需要再次按回车键，继续安装。这里，可能需要一些时间。

所以还是要有耐心，只是你知道的，不要惊慌，一切都很好。一旦你做了一次，你就会一直这样做所以再说一遍，如果你觉得这东西卡住了，不要害怕，它只需要几分钟。所以就等着一切安装完毕。

然后我们就开始了。现在我们要对其他部分做同样的事情。所以选择，点击复制，然后点击右键，粘贴，然后按回车。

现在，好了，我们基本完成了，因为我们只剩下一行了。所以现在再来一次，就像其他的一样，右击复制，

然后右击粘贴，按回车键，如果你做的一切正确，应该给你一个公共的URL，如果你点击它，将加载最新版本的Web界面。

恭喜你！现在你正在你租用的3090GPU上运行最新版本的oobabooga 文本生成web界面

但现在从技术上讲，我们仍然没有完成，因为我们需要下载一个我们想要使用的模型。因此，让我们举个例子，你想使用Pygmalion130亿参数模型，这样你就可以做一些性感的schmexy的角色扮演。

好吧，你可以点击下面描述中的链接，你就会到达这个页面，然后你要点击这里的小图标，复制整个名称。然后在模型标签下，在下载自定义模型或LoRa下，你要在这里粘贴这个名字，然后点击下载。

这将开始下载你的模型。现在再次强调，要有耐心，可能需要一些时间，毕竟这是一个7GB的模型，

但下载速度相当不错，所以应该是相当快。是的，就这样，在大约1分钟内，我们为Pygmalion 130亿模型下载了个8GB的文件。

现在，如果你想加载模型，首先你要取消对自动加载模型的勾选，这很烦人，然后你要点击这里来刷新列表，然后选择Pygmalion 130亿模型。确保你已经激活了自动设备，这里的GPTQ参数，你要选择WBITS为4，组大小为128，模型类型为Lama。然后你要点击加载模型的按钮。经过几秒钟的加载，我们的Pygmalion 130亿模型现在已经完全加载并准备使用。

就这么简单。当然，你可以用同样的方法下载和使用任何你想要的模型，也可以用同样的方法使用任何你想要的GPU。在这里，我只选择了3090，因为它是一种最便宜的选择，也是性价比最高的。但是，如果你想要更强大的东西，而且你不介意支付一点，你可以租用像80GB 显存的GPU，以获得更多的性能。、

因此，现在你真的可以有一些乐趣，如果你知道我的意思。好吧，那么现在让我们说，你没有一分钱可以花在GPU租赁网站上。你可以完全免费地运行网络用户界面吗？嗯，你当然可以。因为只是为了你，我做了一个Google Colab Doc，你可以完全免费使用这个Google Colab Doc来运行Web UI，这甚至会下载Pygmalion的130亿参数模型，所以你可以立即使用它。

而所有的事情都是为了让每个人都能非常容易地使用它。非常感谢camenduru提供的代码。

实际上，我使用了他为Google Colab Doc提供的完全相同的代码，但我只是稍微修改了一下，以便它使用最新的web界面版本而要运行这个，当然是非常容易的。首先，你需要做的是只要按这里，运行第一个单元，然后按播放，这样Google Colab就不会断开你的连接。

然后你要按这里的按钮来运行第二个单元。这基本上会自动安装Web UI和Pygmalion 130亿参数模型。

你不需要做任何事情。你只需要等待，直到一切都完成，直到一切都安装好，直到你得到一个公共的URL，就像我们与RunPod一样。

所以还是那句话，要有耐心，直到一切都完成。然后就好了。几分钟后，web界面就安装好了，Pygmalion的130亿参数模型也被下载和安装。在这里，就像RunPod一样，你会看到一个公共的URL，如果你点击它，将加载Web界面和Pygmalion 130亿参数模型，你现在就可以使用。

就这么简单。当然，就像RunPod一样，你可以在这里输入另一个模型的名称，并下载任何你想要的模型，并使用它，就像这是在你的本地计算机上一样。然而，你可能会想，好吧，那么我为什么要使用RunPod并付钱，而我可以完全免费地使用Google Colab Doc？嗯，这是因为你在Google Colab Doc的免费版本上收到的GPU通常是具有15G左右显存的GPU，这意味着如果你想运行更大、更强大的模型，你将很快耗尽内存。

因此，基本上所有超过130亿的参数模型与4位量化的模型，当然不能在Google Colab Doc上运行。然而，如果你不在乎，如果你只是想用它来和你的人工智能女友交谈，使用Pygmalion 130亿参数模型，那么，在这种情况下，你可以简单地使用Google Colab Doc。你不需要为此使用RunPod。但如果你想使用一个更大的模型，一个更强大的模型，我明天可能会给你看，那么，在这种情况下，你将需要一个非常强大的GPU，这就是为什么像RunPod这样的网站真的是上帝的礼物。

这真的是超级有用。所以是的，就这样，伙计们。现在我认为，无论你是谁，来自哪里，你的预算是多少，你应该能够完全免费地运行网络用户界面，没有任何限制，并享受一些性感的角色扮演，不受任何审查。所以请尽情享受吧。这就是今天的节目了，谢谢大家的收看。别忘了订阅并点赞，这对于YouTube算法来说非常重要。同时，非常感谢我的Patreon支持者们一直以来对我视频的支持。你们真的太棒了！正是你们的支持，我才能为你们制作这些视频。所以真的非常感谢你们，下次再见！拜拜！

标签：web技术, 显存

如何使用Runpod或者Google Colab运行大语言模型(LLM)

相关阅读

视频讲解

相关资料

图文讲解