安排数据标签咨询

为您的 AI 项目解锁高质量数据
满足您的特定需求的个性化工作流程
具有领域知识的专家注释者
可靠的 QA 可获得准确的结果
立即预约咨询以优化您的 AI 数据标签 >
预约咨询
返回博客
/
Text Link
This is some text inside of a div block.
/
回首和窥探人工智能中的变形金刚

回首和窥探人工智能中的变形金刚

4.17.2024

在人工智能(AI)方面,很少有发展能像变形金刚架构那样具有影响力。变形金刚在2017年颇具标志性的论文《注意力就是你所需要的》中提出,它从根本上重塑了人工智能行业,成为各个领域无数突破的基本结构。

变形金刚的胜利:人工智能的飞跃

故事始于2017年,当时一个由八名成员组成的谷歌研究小组共同撰写了开创性的论文《注意力就是你所需要的》。这项工作引入了变压器架构,这是一种深度学习方法,彻底改变了自然语言处理 (NLP)。在变形金刚出现之前,循环神经网络 (RNN) 在自然语言处理领域占据主导地位。但是,RNN 按顺序处理数据,这阻碍了它们捕获文本中长期依赖关系的能力。

变形金刚的关键创新在于其注意力机制。与 RNN 不同,转换器可以同时分析给定文本输入的所有部分。这种并行化使他们能够掌握单词之间的关系,无论它们在序列中的距离如何,从而对文本有更全面的理解。

变压器的好处不仅限于提高精度。它们的并行处理使它们的计算效率比 RNN 更高。此外,变压器具有卓越的可扩展性,这意味着它们可以在建造时使用更多参数,从而进一步增强其功率和通用性。

这些优势将变形金刚推向了人工智能的最前沿。如今,从 GPT-3 和 ChatGPT 到 Bard 和 Bing Chat,所有主要的 NLP 模型都建立在变压器架构之上。变形金刚的影响超越了自然语言处理;它们推动了计算机视觉、机器人甚至计算生物学的进步。

《变形金刚》的共同创作者之一阿什什·瓦斯瓦尼恰当地总结了其重要性:“变形金刚是一种同时捕捉任何输入不同部分之间互动的方式。这是一种捕捉句子中片段、音乐中的音符、图像中的像素或部分蛋白质之间相互作用的通用方法。它可以用于任何任务。”

变形金刚之阿喀琉斯之踵:局限性与挑战

尽管取得了不可否认的成功,但变形金刚并非没有限制。以下是一些为新架构的出现铺平道路的关键缺点:

  • 高计算成本:训练尖端的变压器模型需要长时间运行数千个 GPU,从而产生大量的计算费用。这甚至引发了全球芯片短缺,因为硬件制造商难以跟上对人工智能处理能力不断增长的需求。

  • 随序列长度进行二次缩放:变压器的一个显著缺点是它们会随序列长度进行二次缩放。随着输入序列长度的增加,处理该序列的计算要求呈指数级增长。这使得变形金刚不太适合处理非常长的序列,例如整本教科书或基因组。

  • 无法持续学习:电流互感器模型具有静态参数。一旦经过训练,这些参数将保持不变,从而阻碍了模型学习和适应部署期间遇到的新信息的能力。

  • 缺乏可解释性:变形金刚复杂的内部工作原理使理解其推理和决策过程变得困难。对于需要高透明度和安全性的应用来说,这是一个主要障碍,尤其是在医疗保健领域。

下一代 AI 架构

变压器的局限性推动了对旨在超越其能力的替代架构的研究:

次二次架构

这些架构,如 Hyena,都在努力克服困扰变形金刚的二次缩放瓶颈。Hyena 利用卷积和逐元素乘法代替注意力,从而实现了长序列的高效处理。初步结果令人鼓舞,显示出与变压器相当的性能,同时需要的计算能力要低得多。
液态神经网络

受 C. elegans 蠕虫大脑生物结构的启发,液体 神经网络 提供独特的优势。由于其概率权重和较小的规模,这些网络具有持续学习能力。此外,与变形金刚相比,它们更简单的架构使它们更易于解释。虽然目前仅限于时间序列数据,但液态神经网络在机器人应用中显示出前景。

Sakana AI 的方法

Sakana AI 由 “注意力就是你所需要的” 论文的合著者创立,倡导一种以自然为灵感的人工智能方法。他们设想了一个由多个协作模型组成的系统,从进化论和集体智慧原理中汲取灵感。这种方法优先考虑从数据中学习,而不是依赖手工设计的功能,这有可能导致更具适应性和更强大的人工智能系统。

前进之路:人工智能的多面未来

不可否认,变压器革命改变了人工智能。但是,对更强大、用途更广的人工智能架构的探索仍在继续。此时,人工智能架构的未来可能会以以下两种方式之一发生:

  1. 特定领域架构:可能会回归专业化,不同的架构在特定领域占据主导地位。变形金刚可能会继续在语言处理中占据主导地位,而像Hyena这样的次二次结构则在需要长序列分析的任务中表现出色,例如蛋白质建模或视频理解。液态神经网络侧重于持续学习和可解释性,在自动驾驶汽车等安全关键应用中可能特别有价值。
  2. 通用继任者:或者,可能会出现一个单一的卓越架构,在所有领域都超过变压器。理想情况下,该架构将结合当前竞争者的优势——亚二次架构的效率、液体神经网络的持续学习能力以及安全关键应用所需的可解释性——同时保持或超过变压器的整体性能。

未来几年对于确定人工智能架构的发展轨迹至关重要。随着研究的进展和这些新架构的成熟,我们将见证变形金刚是保持其主导地位还是屈服于新一代的人工智能模型。

变压器架构的技术细微差别

变形金刚通常使用编码器-解码器架构构建。编码器处理输入序列,捕获其含义和单词之间的关系。然后,解码器利用编码信息生成输出序列,将含义转换为新形式(例如,翻译、摘要)。

变形金刚的核心创新在于注意力机制。这种机制允许模型专注于输入序列中与当前处理步骤最相关的特定部分。计算注意力权重以量化每个输入元素的重要性,从而使模型能够有选择地关注对手头任务至关重要的信息。

变形金刚中使用的注意力主要有两种形式:自我注意力和隐蔽注意力。自我注意力使模型能够同时关注输入序列的所有元素,从而促进对句子中单词间关系的更深入理解。另一方面,隐蔽注意力用于诸如机器翻译之类的任务,在这些任务中,模型必须预测序列中的下一个单词,而不必偷看未来的单词。这是通过在解码过程中屏蔽后续单词来实现的,从而确保模型仅依赖先前处理过的信息。

变形金刚采用一种称为多头注意力的强大技术。这种方法利用多个独立的注意头,每个注意力头都集中在输入序列的不同方面。然后,将这些磁头的输出串联起来,以更丰富的输入表示形式。

由于变压器缺少捕获序列中单词顺序的内置机制,因此引入了位置编码。该技术将有关每个单词位置的信息添加到输入嵌入中,使模型能够理解句子中单词的相对顺序。

变形金刚生态系统:工具和资源

许多预训练的变压器模型,例如BERT、RobertA和T5,随时可用。这些模型是在海量文本和代码数据集上训练的,在对特定应用程序进行微调时,它们能够高精度地执行各种自然语言处理任务。

TensorFlow、PyTorch 和 Hugging Face Transformers 等开源库为构建和部署变压器模型提供了用户友好的工具。这些库提供预训练的模型、微调功能以及核心变压器架构的有效实现。

谷歌云人工智能平台、亚马逊SageMaker和微软Azure等主要云提供商为训练和部署变压器模型提供基于云的解决方案。这些平台提供对强大的 GPU 和 TPU 的访问,使用户无需大量硬件投资即可训练大型模型。

使用 Sapien 微调基于变压器的模型

变压器革命凸显了大型语言模型(LLM)彻底改变各个行业的巨大潜力。但是,即使是最强大的 LLM 也可能受到偏见或限制 幻觉 在训练数据中,缺乏可解释性。这就是Sapien的核心专业知识——人类在环(HIL)标签变得必要的地方。

使用自定义数据训练 LLM 是任何模型的基石。Sapien的数据标签服务使您能够根据专家的人工反馈微调预训练的变压器模型或定制的LLM。我们全面的标签解决方案解决了与LLM开发相关的关键挑战:

  • 缓解偏差:在海量数据集上训练的变压器模型可以继承和放大社会偏见。Sapien的多元化标签员工队伍有助于通过多层方法缓解偏见,确保您的LLM在平衡且具有代表性的数据集上接受培训。
  • 可解释性和透明度:LLM,尤其是变形金刚,其推理可能不透明。通过将人工反馈纳入培训过程,Sapien可以帮助您构建具有更高解释性的LLM,使您能够了解他们的决策过程并增强对他们产出的信任。
  • 特定领域的专业知识:LLM 的真正力量在于他们适应特定领域的能力。Sapien的全球标签商网络包括来自各个行业的主题专家,从医疗保健和金融到法律和教育。这种专业知识可确保根据特定领域的数据和细微差别对您的LLM进行微调,从而在您的独特用例中最大限度地提高其性能。

Sapien的数据标签平台提供了可扩展且灵活的解决方案,以满足您的LLM开发过程不断变化的需求。无论您是需要一支由讲西班牙语的贴标人员组成的专门团队来执行聊天机器人项目,还是需要利用北欧野生动物专家来微调图像识别模型,Sapien都有足够的资源和专业知识可以提供。

准备好释放基于变形金刚的 LLM 的全部潜力了吗?

预约咨询 今天与 Sapien 专家一起探讨我们的人性化标签服务如何帮助您构建高性能、合乎道德且可解释的人工智能模型。

查看我们的数据标签的工作原理

安排咨询我们的团队,了解 Sapien 的数据标签和数据收集服务如何推进您的语音转文本 AI 模型