你对他们感兴趣吗 OFFERED？使用我们的优惠券节省 WHATSAPP o 电报!

什么是Mamba，旨在彻底克服GPT的架构。人工智能新时代？

一月18 2024

今天我想讲更多技术性的内容。我们每天都在谈论人工智能，但了解它的基础是什么以及它如何工作是正确的。对此我想向大家介绍一下曼巴，一种有望改变我的新架构语言模型正如我们今天所知道的那样。与 GPT 相比，Mamba 的功能以及它允许您执行的操作都极其优越。

曼巴是人工智能的新天地

Transformer 架构，2016 年通过论文“注意力就是你所需要的”由谷歌开发，代表了语言模型的突破，使它们能够在交互中保持上下文。简而言之：架构 Transformer 是一种 AI 模型，用于创建 GPT 等模型 （生成预训练变压器）。

Transformer 架构如何工作

Transformer架构的核心是“注意“，这使得模型能够在生成或处理另一文本的同时专注于一个文本的特定部分。这种机制使得 Transformer 在理解文本中的上下文和复杂关系方面特别有效。在实践中，基于Transformer架构的模型，例如GPT， 他们通过两个阶段学习生成和理解语言 主要有：training（训练）和inference（文本生成）。
在训练，该模型在大型文本数据集上进行训练，以理解语言结构、单词之间的关系、上下文等。处于阶段推理，该模型使用所学到的知识来生成新文本、回答问题、翻译语言和其他语言处理任务。

然而，曼巴的出现可能标志着一个新时代的开始。该架构有望成为 效率更高，能够克服 GPT 等当前模型面临的一些关键挑战。具体来说，三个关键方面使 Mamba 成为一个有前途的架构：

降低推理成本：Mamba 的一个关键方面是推理成本的显着降低。正如我之前所说，推理是人工智能模型在经过训练后将其学到的知识应用到新数据、生成文本或图像的过程。在 GPT-3 或 GPT-4 等复杂模型中，此过程可能会占用大量计算资源。曼巴承诺 将这些成本降低多达五倍 与基于 Transformer 的模型相比，这可能会产生重大影响，特别是对于需要快速响应生成或处理庞大数据集的应用程序；
线性注意力计算成本：Mamba 的第二个优势涉及计算注意力的效率。在 Transformer 模型中， 成本增加 实质上 （准确的说是力量层面，不是修辞手法）随着文字长度的增加。这意味着文本越长，处理它所需的资源就越多，从而限制了模型在某些应用中的实用性。 Mamba 提出了一个解决方案，其中 成本线性增长 与注意窗口的大小相比，使长文本的处理更易于管理并且计算量更少；
极大的输入：Mamba 可以处理最大输入窗口 最多 1 万个代币n，比 Transformer 架构所能实现的要多得多。这意味着理论上曼巴可以， 分析和理解极长的文本，例如整本书，保持上下文的连贯性和细节。例如，他可能会分析整部小说，同时从头到尾保持对人物、情节和主题的清晰理解。

尽管曼巴做出了承诺，纸索列瓦 对其可扩展性的怀疑，特别是与 GPT-4 等拥有 175 亿个参数的大规模模型相比。可扩展性，简单来说，是指 系统在不丧失有效性的情况下处理工作增加或规模扩大的能力。想象一下一家小餐馆，顾客很少，生意却很好。如果餐厅变得受欢迎并开始拥有更多顾客，它应该能够在不影响服务或食物质量的情况下应对这种增长。如果成功，那么它就是“可扩展的”。

曼巴目前的状态已经过测试 仅具有 3 亿个参数。因此，当规模扩大时，其性能和效率是否能够保持或提高仍然不确定。