
在过去的几年中,一类被称为基础模型的大型神经网络的开发呈爆炸式增长。GPT-4、PaLM 和 Wu Dao 2.0 等基础模型在语言、语音和视觉领域表现出了令人印象深刻的能力。这些模型的特点是规模庞大,包含数十亿或数万亿个参数,这使他们能够从训练数据中获得有关世界的广泛知识。
但是,伴随这些模型的规模而来的是几个关键的可靠性挑战,必须先解决这些挑战,然后才能负责任地将其部署到现实应用中。
核心挑战:幻觉、准确性和透明度
Sapien已经确定了当前基础模型的三个核心技术挑战:
幻觉和验证:模型通常会自信地输出合理但不正确的信息,需要机制来检测和验证输出。
精度和校准:性能仍然不可靠,尤其是对于分布不足的输入,需要进行增强。
透明度和诊断:这些模型仍然是黑匣子,阻碍了诊断测试和改进。
LLM 背后的技术背景
模型架构
大多数主要的基础模型都基于瓦斯瓦尼等人最初在2017年提出的变压器架构。Transformer 完全依靠自我注意力机制来建模全局依赖关系,从而避免了复发和卷积。一些关键架构组件包括:
嵌入层: 将离散的输入标记转换为连续的矢量表示
编码器: 由多头自我注意力和前馈子层组成的层,用于模拟输入元素之间的交互。
解码器(仅限自回归模型): 与编码器类似,但为了保持自动编码顺序而掩盖了未来的注意力。
人头:在自我注意力模块中使用不同的转换组,以提供输入的多种 “表示”。
基础模型的比例放大了所有组件,提高了输入嵌入映射的分辨率以及注意力机制的能力。例如,GPT-3 包含 96 个图层,头部为 96 个,尺寸为 12,288 个,生成超过 1750 亿个参数。
预训练目标
无监督的预训练目标提供了学习信号,使模型能够在特定任务微调之前发展语言理解:
自回归语言建模(GPT 线): 使用因果转换器对下一个代币预测能力进行建模。
掩码语言建模(BERT 系列): 模型使用双向上下文来预测随机屏蔽的输入标记。通常辅以下一句预测任务。
多任务学习:一些模型同时对多个目标进行预训练,例如 PaLM 同时进行掩码和因果语言建模训练。
优化目标是将训练分布压缩为参数,以便可以准确地生成或预测新的示例。但是,这可能会过度拟合无法概括的统计规律。
关键挑战 #1-输出验证
幻觉问题
大型基础模型的一个主要可靠性问题是它们倾向于产生幻觉,即输出自信但完全不正确或没有根据的陈述。例如,Chowdhery等人2022年发现,在测验实验中,有70%的自信的 GPT-3 预测是错误的,这突显了幻觉的普遍性。这严重限制了问答、总结和语言翻译等任务在现实世界中的适用性。
产生幻觉的原因
有几个因素导致模型输出中出现幻觉:
虚假相关性
自监督目标允许模型发现代币之间的意外规律,这些规律会导致错误的推断。例如,数据中可能存在一种模式,即在出口Y的背景下经常讨论X国。然后,该模型可能会过度概括,指出X国是Y货物的主要出口国,即使这种关系不成立。
采样错误
大多数模型的训练不是为了精确预测代币,而是为了估计词汇表中的概率分布。在每个步骤中,生成过程都会从该分布中抽取样本。但是,偶尔会对不太可能的代币进行抽样,将漫长的文本跨度组合成看似合理的虚假声明。
接地不足
由于与现实世界状态无关,模型没有锚点来确定推断的关系是否真正反映了现实。在自信地断言某件事之前,没有任何机制可以验证某件事是否没有根据。
有前途的解决方案
值得庆幸的是,对幻觉的广泛关注催生了各种解决幻觉的方法:
置信度评分和不可能性检测:通过在每个生成步骤对模型的(不确定性)进行评分,可以标记难以置信的输出以供验证。也可能捕捉到不太可能的 n 语法和语义转换。
多模型一致性检查:由于错误可能因模型而异,因此生成多个输出并检查一致性可以帮助确定可信的主张。人们还可以查询外部模型进行事实核查。
半监督式虚假检测:可以训练显式分类器使用人类判断和对抗干扰因素来区分真实输出和幻觉输出。
因果分析:来自因果推断的技术可以检测出在现实中缺乏因果依据的模型所利用的统计模式。介入稳健性检查也可能有助于诊断这些模式。
但是,尽管如此,输出验证仍然是一项悬而未决的挑战。跨训练目标、模型架构和输出分析程序的多管齐下的方法似乎是实现可靠的生成基础模型所必需的。评估幻觉的基准任务的持续进展可能会促进未来几年的进展。
关键挑战 #2-精度改进
精度问题
尽管基础模型在训练数据的分布范围内进行预测时表现出强劲的性能,但它们难以保持分布外输入的准确性。例如,在较长的文本上下文、复杂的推理任务和数据有限的领域中,性能可能会迅速降低。如果没有可靠性保证,现实世界的利用率仍然有限。
精度限制的原因
有几个因素导致了精度的脆性:
数据集偏差
该模型无意中对反映在预训练数据中的偏斜规律和选择偏差进行了编码。这导致了超出根深蒂固的假设范围的表述无法概括。
简化假设
架构选择和目标隐含地简化了正在建模的领域。例如,像 GPT-3 这样的模型的单序列设计无法明确地对复杂的关系推理进行建模。
有前途的解决方案
目前的许多研究领域都有望提高分布外的准确性:
数据集扩展和增强
创建能更好地覆盖目标域广度的训练集可以增强稳健性。数据增强技术可以以编程方式增加多样性。
自我监督的预训练
通过在不同的语料库上对密集的无监督预测任务进行预训练,模型可以在规格之前学习更扎实的表示形式。
混合模型
将神经模块与结构化知识库和数据库相结合,可以补充核心模型在推理和基础方面的局限性。
正式担保
根据程序综合和验证文献,一些人提议使用证明系统为各类输入生成模型性能的认证界限。
尽管仍然存在重大问题,但准确性不可靠的挑战激发了研究人员对为大型语言模型开发更严格的循证基础的强烈关注。进展可能涉及跨模型家族、目标和形式分析技术的整体解决方案。
关键挑战 #3-诊断和可解释性
透明度问题
基础模型的庞大规模和复杂性意味着它们在很大程度上像黑匣子一样运行,几乎无法了解其内部运作情况。这种缺乏透明度的状况给模型开发和使用带来了问题:
- 模型开发人员缺乏诊断技术来追踪建筑组件的交互中如何出现的特定行为。这阻碍了提高模型性能的定向努力。
- 由于推理过程仍然不透明,最终用户无法确定模型依据是否可信。这降低了医疗保健、金融和治理等敏感应用程序的可部署性。
不透明的原因
尽管不透明,但大型语言模型的黑匣子性质源于其技术基础:
大规模参数化
由于有数十亿到数万亿的参数调节着一个非线性相互作用网络,因此任何特定模型输出的来源在天文学上都变得难以分离。从参数到函数没有明确的一对一映射。
紧急陈述
注意力层学习的表示不是直接编程的,而是通过参数优化间接产生的。因此,这些潜在表现形式的起源既神秘又对模型功能至关重要。
有前途的解决方案
已经引入了各种技术来解构模型的黑匣子性质:
注意力分析
注意力热图为参数交互提供了一些可见性,显示了哪些输入会影响输出。但是,其可解释性仍有争议。
模块化组件解析
通过仔细消融或修改特定的编码器模块、层、磁头和神经元,研究人员可以测量对某些功能的孤立贡献。
概念瓶颈模型
通过离散分类瓶颈强制表示可以显式操纵模型概念的使用,从而促进分析。
反事实评估
系统地操纵输入和检查对输出的影响,可以凭经验追踪依赖和敏感度模式,而不会完全透明。
我们预计,随着下一代模型规模的持续膨胀,模型复杂性和可解释性之间的战场将刺激向透明度的军备竞赛升级。可解释性研究对于确保这些模型保持可诊断、可调试和安全仍然至关重要。
从人类反馈中强化学习的作用
强化学习 (RL) 为代理人提供了一个框架,使他们可以通过对人工训练师的动作进行交互式评估来学习行为。这种方法最近也被应用于大型语言模型,使用人工反馈来提供额外的调整信号。
在该系统中,模型生成文本输出,然后培训师通过评级、更正或其他形式的审查对其进行批评。反馈被转换为奖励信号,该信号会更新模型参数以强化有用的行为并阻止不良行为。
通过连续的互动,模型可以学会根据训练者的喜好生成更高质量、更安全、更可靠的文本。
与被动学习相比的优势
与传统的监督或无监督目标相比,来自人类反馈的 RL 具有多种优势。
丰富的评估信号
模型不是从静态历史数据中学习,而是从人类对特定模型行为的直接判断中学习。这提供了更丰富、更有针对性的信号。
安全探索的潜力
模型可以探索培训师的编辑建议,将能力扩展到历史数据的限制之外。但是,人为监督可以实现更安全的实验边界。
可扩展的数据收集
模型无需完整的数据集注释,而是可以从实时交互的环境中学习,从而提高可扩展性。
RLHF 面临的挑战
但是,围绕从人类反馈中采用 RL,仍然存在许多研究挑战:
反馈质量和可靠性
与固定的历史数据集不同,对人工反馈的质量控制可能很困难,因为培训师可能会不同意或犯错误。缓解不可靠的信号是一个悬而未决的问题。
样本效率
相对于模型量表,由于互动次数有限,最大限度地从每种人类判断中学习是至关重要的,但并非易事。需要更有效的算法。
奖励游戏和操纵
模型可能会在反馈机制中发现意想不到的漏洞,从而在不改善基础性能的情况下实现回报最大化。确保协调仍然具有挑战性。
与现有范式集成
将 RL 目标与监督、半监督和自监督训练无缝结合是一项开放式架构挑战,可能性很多。
随着研究不断调和这些紧张局势,从人类反馈中获得的强化学习表明,有望通过协同的人工智能交互来提高模型性能和可靠性,这就是Sapien将精力集中在这一解决方案上的原因。
RLHF 的未来和 LLM 面临的最复杂的技术挑战
在Sapien,我们认为要取得进展,就需要在四个相互关联的战线上做出承诺:
目标:通过人类反馈进行强化学习和自我监督的预测任务等训练计划除了主要的预训练目标外,还可以提供有用的辅助信号。混合方法可能是必要的。
建筑:用于推理、验证和基础的专业模块应补充核心生成基础架构。更结构化的架构可以增强可解释性。
数据:需要覆盖目标分布的庞大多域语料库。应采用数据增强和合成技术,以实现更全面的表述。
分析:正式验证系统和改进的诊断协议对于解释模型行为和提供性能保证至关重要。
预约 Sapien 演示,了解有关适用于 LLM 的可扩展数据标签的更多信息
在本文中,我们试图阐明大型语言模型现有训练范式的局限性,包括数据覆盖范围不足、样本效率限制和数据质量保证。值得庆幸的是,像Sapien这样的专业数据标签提供商正在崛起,以帮助解决这些障碍。
Sapien通过法律到医学等领域的全球领域专家网络提供安全、可定制的数据标签。我们的Human-in-the-Loop平台使模型能够从文本、图像和语音数据输出的实时反馈中进行交互式学习。质量保证流程最大限度地提高了信号的清晰度和相关性。
我们的服务可以直接解决围绕模型幻觉、分布不畅的精度限制以及我们所涵盖的强化学习环境中的安全探索等挑战。通过扩展高保真标签数据的生成,可以增强下一代模型的可靠性和透明度。正如扩展模型架构推动进步一样,可扩展的数据基础设施有望在人工指导下释放人工智能的全部潜力。
要详细了解我们的 LLM 解决方案, 预订演示 来自 Sapien 来探索我们的平台。