开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

推荐平台	链接	平台介绍
币安网	注册链接	币安是全球领先的区块链生态系统，推出了一系列产品，其中包括最大的加密货币交易平台。我们的使命是在未来成为全球性加密货币基础架构供应商。
欧易OKX	注册链接	欧易是全球著名的数字资产交易平台之一，主要面向全球用户提供比特币、莱特币、以太币等数字资产的币币和衍生品交易服务。
HTX火币	注册链接	火币全球专业站，是火币集团旗下服务于全球专业交易用户的创新数字资产国际站，致力于发现优质的创新数字资产投资机会。

AI 大模型开发公司 MosaicML 近日发布了新的可商用的开源大语言模型 MPT-30B，拥有 300 亿参数，其功能明显比前一代 MPT-7B 语言模型（70 亿参数）更强大，并且性能优于 GPT-3。

图片来源：由无界AI生成

此外，他们还发布了两个经过微调的模型：MPT-30B-Instruct 和 MPT-30B-Chat，它们构建在 MPT-30B 之上，分别擅长单轮指令跟踪和多轮对话。

MPT-30B 模型具有的特点：

该模型已扩展到 NVIDIA H100 上的 8k token 上下文窗口，使其成为第一个在 H100 上训练的LLM。

MPT-30B 强于 GPT-3?

MPT-30B 是商业 Apache 2.0 许可的开源基础模型，强于原始的 GPT-3，并且与 LLaMa-30B 和 Falcon-40B 等其他开源模型具有竞争力。

开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

（上图）MPT-30B 与 GPT-3 在九项上下文学习 (ICL) 任务上的零样本准确度。 MPT-30B 在九个指标中的六个指标上优于 GPT-3。

MosaicML 用 2 个月的时间训练了 MPT-30B，使用英伟达的 H100 GPU 集群进行训练。

如下图，MPT-30B 的训练数据：

开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

MPT-30B 通过数据混合进行预训练，从 10 个不同的开源文本语料库中收集了 1T 个预训练数据 token，并使用 EleutherAI GPT-NeoX-20B 分词器对文本进行分词，并根据上述比率进行采样。

开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

MPT-7B 与 MPT-30B 的对比

MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示，MPT-30B 的训练成本为 70 万美元（约 502.44 万元人民币），远低于 GPT-3 等同类产品所需的数千万美元训练成本。

训练定制的 MPT-30B 模型需要多少时间和金钱？让我们从基本模型开始。

开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

上图显示了使用 A100 或 H100 GPU 从头开始预训练 MPT-30B 的时间和成本。借助 MosaicML 基础设施，您可以在 2 周内使用 1T token 从头开始训练您自己的自定义 MPT-30B。

如果您不想从头训练，只想微调现有模型呢？

下图详细列出了每个 1B token 微调 MPT-30B 的时间和成本。借助 MosaicML 基础设施，您可以对 MPT-30B 模型进行全面微调，而无需担心系统内存限制，而且只需几百美元！

开源且可商用，300 亿参数的 MPT-30B 大模型的成本仅为 GPT-3 的零头

MosaicML 公司表示，将模型扩展到 300 亿参数只是第一步，接下来他们将以降低成本为前提，推出体积更大、质量更高的模型。

参考资料：

推荐平台	链接	平台介绍
Gate芝麻开门	平台介绍	Gate.io芝麻开门创立于2013年，是全球真实交易量TOP10的加密货币交易平台，向全球数千万用户提供安全可靠、真实透明的数字资产交易服务。
Bitget	注册链接	Bitget的背后是一群区块链技术的早期接受者，也是区块链未来发展的信仰者，一直致力于提供安全、一站式的交易解决方案，帮助用户更聪明地交易。
Bybit	注册链接	Bybit通过数字资产与传统金融的结合，引领数字资产的生态发展。提供一流的流动性，致力于打造业内最安全、公平、高效及人性化的交易服务平台。
派网	注册链接	派网提供多样化的量化交易机器人，用户可依照自身交易需求和策略选择最适合的机器人。同时派网也提供合约交易与合约网格机器人，给予更方便的合约交易体验。