GPT

您所在的位置:网站首页 翻译报告翻译过程 GPT

GPT

2023-05-26 05:16| 来源: 网络整理| 查看: 265

摘要

我们宣布开发了GPT-4,这是一个大规模的多模型模型,可以接受图像和文本输入,并生成文本输出。虽然在许多实际场景中不如人类能力强,但在各种专业和学术基准测试中,GPT-4表现出与人类水平相当的性能,包括在模拟的律师考试中获得了约前10%的考生得分。 GPT-4是一个基于Transformer的模型,预先训练以预测文档中的下一个标记。后训练对齐过程可提高其事实准确性和符合所需行为的表现。该项目的核心组件是开发基础架构和优化方法,这些方法在各种规模下表现出可预测性。这使我们能够根据使用的计算资源不到GPT-4的1/1,000来准确预测GPT-4的某些方面的性能。

1 介绍

本技术报告介绍了GPT-4,一种能够处理图像和文本输入并生成文本输出的大型多模态模型。这些模型是一个重要的研究领域,因为它们有潜力用于各种应用,例如对话系统、文本摘要和机器翻译。因此,它们近年来受到了广泛的关注和进展[1-28]。

开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和微妙的场景中。为了测试其在这种场景下的能力,GPT-4在一系列最初设计给人类的考试中进行了评估。在这些评估中,它表现得非常好,经常超过绝大多数人类考生的得分。例如,在模拟的律师考试中,GPT-4的得分属于前10%的考生。这与GPT-3.5相反,后者的得分属于后10%。

在一系列传统的自然语言处理基准测试中,GPT-4超过了先前的大型语言模型和大多数最先进的系统(这些系统通常具有基准测试特定的训练或手工工程)。在MMLU基准测试[29, 30]中,这是一套覆盖57个主题的英语多项选择题,GPT-4不仅在英语中比现有模型表现好得多,而且在其他语言中也表现出强大的性能。在翻译版本的MMLU中,GPT-4在考虑的26种语言中有24种超过了英语的最先进水平。我们在后面的部分详细讨论了这些模型能力结果以及模型安全改进和结果。

本报告还讨论了项目的一个关键挑战,即开发可在各种规模下可预测的深度学习基础设施和优化方法。这使我们可以基于类似方式训练的小型运行来预测GPT-4的预期性能,并对最终运行进行测试以增加我们的训练信心。

尽管GPT-4具有很强的能力,但与早期的GPT模型[1, 31, 32]相似,它并不是完全可靠的(例如可能会遭受“幻觉”),具有有限的上下文窗口,并且不能从经验中学习。在使用GPT-4的输出时应谨慎,特别是在可靠性重要的情况下。

GPT-4的能力和局限性会带来重大且新颖的安全挑战,我们认为认真研究这些挑战是一项重要的研究领域,考虑到其可能产生的社会影响。本报告在附录后包括一个广泛的系统卡,描述了我们预见到的一些风险,如偏见、虚假信息、过度依赖、隐私、网络安全、扩散等等。它还描述了我们为缓解GPT-4部署可能带来的潜在危害所采取的干预措施,包括与领域专家进行对抗性测试和一个基于模型的安全管道。

2 本技术报告的范围和限制

本报告重点关注GPT-4的能力、限制和安全性质。GPT-4是一种Transformer风格的模型[33],经过预训练来预测文档中的下一个标记,使用了公开可用的数据(例如互联网数据)和来自第三方供应商的数据许可。然后,使用人类反馈的强化学习(RLHF)[34]进行微调。考虑到竞争态势和像GPT-4这样的大规模模型的安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。

我们致力于对我们的技术进行独立审计,并在附带的系统卡中分享了一些初步的步骤和想法。我们计划向其他第三方提供进一步的技术细节,以便他们就如何权衡上述竞争和安全考虑与进一步透明度的科学价值进行咨询。

3 可预测的扩展性 3.1 损失预测

大型语言模型的最终损失被认为可以很好地近似为使用的训练计算量的幂律函数[35,36,2,14,15]。 为了验证我们的优化基础设施的可扩展性,我们使用与训练GPT-4相同的方法,但仅使用最多比GPT-4少10,000倍的计算量来训练模型,在我们的内部代码库(不是训练集的一部分)上拟合一个具有不可约损失项的比例定律(与Henighan等人[15]相同):L(C)= aCb + c。这个预测是在开始运行后不久进行的,没有使用任何部分结果。拟合的比例定律高精度地预测了GPT-4的最终损失(图1)。

3.2 人类评估(HumanEval)的能力扩展

在训练模型之前了解模型的能力,可以改善有关调整、安全和部署的决策。除了预测最终损失外,我们还开发了一种方法来预测更可解释的能力指标。其中一个指标是在HumanEval数据集[37]上的通过率,该数据集衡量了综合不同复杂度的Python函数的能力。我们成功地通过从使用至多1,000倍的计算资源训练的模型中推断来预测HumanEval数据集的通过率(图2)。

在HumanEval中的一个单独问题上,性能可能会随着规模的增加而变差。尽管存在这些挑战,我们发现近似的幂律关系−EP [log(pass_rate(C))] = α∗C−k,其中k和α是正常数,P是数据集中问题的一个子集。我们假设这个关系对数据集中的所有问题都成立。实际上,非常低的通过率很难或不可能估计,因此我们限制在问题P和模型M上,使得在一些大的样本预算下,每个模型至少解决每个问题一次。

在训练完成之前,我们基于训练前可用的信息对GPT-4在HumanEval上的表现进行了预测。除了最难的15个问题外,其他问题被分成6个难度桶,这是基于较小模型的表现。图2展示了第3个最容易的难度桶的结果,表明在我们能够准确估计几个较小模型的log(pass_rate)的HumanEval子集中,预测结果非常准确。对其他五个桶的预测表现几乎一样好,主要的例外是GPT-4在最容易的桶上表现不如我们的预测。

有些能力仍然很难预测。例如,逆比例缩放奖 [38] 提出了几个任务,模型的性能会随着规模的增加而降低。与魏等人最近的结果 [39] 类似,我们发现GPT-4打破了这一趋势,如图3所示,这是在一项名为Hindsight Neglect [40] 的任务中展示的。

我们认为准确预测未来能力对于安全至关重要。未来,我们计划完善这些方法,并在大型模型训练开始之前注册各种能力的性能预测,希望这成为该领域的共同目标。

4 模型的能力

我们在各种基准测试中测试了GPT-4,包括模拟最初为人类设计的考试。我们没有针对这些考试进行特定的训练。在这些考试中,少数问题在训练期间被模型看到;对于每个考试,我们运行一个变体,将这些问题移除,并报告其中较低的分数。我们认为这些结果是代表性的。有关污染(方法和每个考试的统计信息)的进一步详细信息,请参见附录C。

考试是从公开可用的材料中获取的。考试问题包括多项选择和自由回答问题;我们为每种格式设计了单独的提示,并在需要时在问题输入中包含图像。评估设置是根据在验证考试中的表现设计的,并且我们报告了在保留的测试考试上的最终结果。通过使用每个考试的公开可用的方法,将多项选择和自由回答问题的分数组合起来确定了总分。有关考试评估方法的进一步详细信息,请参见附录A。

GPT-4在大多数专业和学术考试中表现出与人类水平相当的表现。值得注意的是,它在模拟版本的普通律师考试中获得了成绩,排名在前10%的考生中(见表1,图4)。

模型在考试中的能力主要源于预训练过程,不受RLHF的影响。在多项选择题中,基础的GPT-4模型和RLHF模型在我们测试的考试中平均表现相同(详见附录B)。

我们还对预训练的基础GPT-4模型在旨在评估语言模型的传统基准测试中进行了评估。对于每个基准测试,我们都对出现在训练集中的测试数据进行了污染检查(有关每个基准测试的完整详细信息,请参见附录D)。在评估GPT-4时,我们使用了few-shot prompting方法。

GPT-4的表现远远超过了现有的语言模型,以及以前的最先进系统,这些系统通常具有特定于基准测试的技巧或附加的训练协议(表2)。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的能力,我们使用Azure翻译将MMLU基准测试[29,30](一个跨越57个学科的多项选择问题套件)翻译成多种语言(请参见附录F中的示例翻译和提示)。我们发现,在我们测试的大多数语言中,包括低资源语言(如拉脱维亚语、威尔士语和斯瓦希里语),GPT-4的表现优于GPT 3.5和现有的语言模型(Chinchilla [2]和PaLM [3])(图5)。

GPT-4在遵循用户意图方面显着提高,超过了以前的模型[57]。在由ChatGPT [58]和OpenAI API [41]提交的5,214个提示数据集上,GPT-4生成的响应被70.2%的提示所青睐,优于GPT-3.5生成的响应。

我们开源了OpenAI Evals [7],这是我们创建和运行基准测试的框架,可以逐个样本检查性能。Evals与现有的基准测试兼容,可以用于跟踪模型在部署中的性能。我们计划随着时间的推移增加这些基准测试的多样性,以代表更广泛的故障模式和更难的任务。

4.1 视觉输入

GPT-4可以接受包含图像和文本的提示,这与文本输入相似,让用户可以指定任何视觉或语言任务。具体来说,模型会在任意交错的文本和图像输入上生成文本输出。在各种领域中,包括包含文本和照片、图表或屏幕截图的文档中,GPT-4表现出与仅文本输入相似的能力。在图3可以找到GPT-4的视觉输入示例。使用图像和文本时,与语言模型相关的标准测试时间技术(例如少样本提示、思维链等)同样有效 - 请参见附录G中的示例。

在GPT-4博客文章[59]中可以找到有关狭窄学术视觉基准测试的初步结果。我们计划在后续工作中发布更多有关GPT-4视觉能力的信息。

5 限制

尽管具有先进的能力,GPT-4仍与先前的GPT模型具有类似的限制。最重要的是,它仍然不是完全可靠的(它会“产生幻觉”和犯下推理错误)。在使用语言模型输出时,应格外小心,特别是在高风险的情况下,应根据具体应用的需要采取确切的协议(如人工审核、附加上下文信息的支持,或完全避免高风险用途)。有关详细信息,请参阅我们的系统卡片。

相对于先前的GPT-3.5模型(这些模型本身随着不断迭代而改进),GPT-4显著降低了产生幻觉的可能性。在我们内部的对事实准确性的对抗性设计的评估中,GPT-4的得分比我们的最新GPT-3.5模型高出19个百分点(见图6)。

GPT-4在像TruthfulQA [60]这样的公共基准测试中取得了进展,该测试检验了模型区分事实和对抗选择的一组不正确陈述的能力(图7)。这些问题与事实上不正确的答案配对,这些答案在统计上很有吸引力。GPT-4基础模型在此任务上仅比GPT-3.5略好;然而,经过RLHF后训练,我们观察到相对于GPT-3.5有大幅度的提高。表4显示了一个正确答案和一个错误答案。GPT-4会避免选择常见的说法(你无法教会老狗新把戏),但它仍然可能会错过细节(Elvis Presley不是演员的儿子,因此Perkins是正确答案)。

GPT-4通常缺乏有关其预训练数据在2021年9月之后发生的事件的知识,并且不能从其经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与其在许多领域的能力不符,或者在接受用户明显错误的陈述时过于轻信。它可能会在处理难问题时失败,就像人类一样,例如在其生成的代码中引入安全漏洞。

GPT-4也可能在预测中自信地犯错,没有仔细检查工作,当它很可能犯错时。有趣的是,预训练模型高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,在后训练过程中,校准降低了(图8)。

GPT-4的输出存在各种偏差,我们已经努力进行了纠正,但需要一些时间来完全描述和管理。我们的目标是使GPT-4和我们构建的其他系统具有合理的默认行为,反映广泛用户价值观的一大片段,并允许在某些宽泛范围内对这些系统进行定制,并获得公众对这些范围的意见。有关更多详细信息,请参见OpenAI [62]。

6 风险和缓解措施

我们投入了大量精力来改进 GPT-4 的安全性和对齐性。在这里,我们强调了我们使用领域专家进行对抗性测试和红队演习、我们的模型辅助安全管道 [63],以及相对于先前模型的安全度量改进。

通过领域专家进行对抗性测试:GPT-4 与较小的语言模型存在类似的风险,例如生成有害建议、有错误的代码或不准确的信息。然而,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的范围,我们邀请了来自长期 AI 对齐风险、网络安全、生物风险和国际安全等领域的 50 多名专家进行对抗性测试。他们的发现特别让我们能够测试模型在需要具有专业知识才能评估的高风险领域中的行为,并评估对于极其先进的 AI(如追求权力的 AI)将变得相关的风险。这些专家收集的建议和培训数据被用于改进我们的缓解措施和模型改进;例如,我们收集了额外的数据来提高 GPT-4 拒绝有关合成危险化学品的请求的能力(见表 5)。

模型辅助安全流程:与之前的GPT模型一样,我们使用强化学习与人类反馈(RLHF)来微调模型的行为,以产生更符合用户意图的回复。然而,经过RLHF后,我们的模型仍可能在不安全的输入上表现脆弱,并且有时会在安全和不安全的输入上展现出不期望的行为。这些不期望的行为可能出现在奖励模型数据收集过程中标注者指令不充分的情况下。当给定不安全的输入时,模型可能会生成不良内容,比如给出犯罪建议。此外,模型还可能对安全的输入过于谨慎,拒绝无害请求或过度回避。为了更细粒度地引导我们的模型向适当的行为方向发展,我们在很大程度上依赖于模型本身作为工具来处理安全问题。我们的安全方法包括两个主要组件,即额外的与安全相关的RLHF训练提示和基于规则的奖励模型(RBRMs)。

我们的基于规则的奖励模型(RBRMs)是一组零样本GPT-4分类器。这些分类器在RLHF微调期间为GPT-4策略模型提供额外的奖励信号,以针对正确的行为,例如拒绝生成有害内容或不拒绝无害请求。 RBRM采用三个输入:提示(可选),策略模型的输出以及人工编写的规则(例如,多项选择风格的规则),用于评估该输出应该如何评估。然后,RBRM根据规则对输出进行分类。例如,我们可以提供一个规则,指示模型将响应分类为:(a)以期望的方式拒绝,(b)以不希望的方式拒绝(例如,回避或冗长),(c)包含不允许的内容,或(d)安全的非拒绝响应。然后,在要求有害内容的一组安全相关的训练提示上,我们可以奖励GPT-4拒绝这些请求。相反,我们可以奖励GPT-4在一部分保证安全且可回答的提示上不拒绝请求。这项技术与Glaese等人[65]和Perez等人[66]的工作相关。这与其他改进结合使用,如计算最佳的RBRM权重和提供额外的SFT数据以针对我们想要改进的领域,使我们能够将模型引导更接近期望的行为。

安全指标的改进:我们的缓解措施显著提高了GPT-4的许多安全性能。与GPT-3.5相比,我们将模型响应不允许的内容的倾向减少了82%(表6),并且GPT-4按照我们的政策更频繁地回答敏感请求(例如医疗建议和自残)29%(图9)。在RealToxicityPrompts数据集上[67],GPT-4仅有0.73%的生成物是有毒的,而GPT-3.5则有6.48%的生成物是有毒的。

总体而言,我们在模型层面的干预增加了引发不良行为的难度,但仍然可能存在。例如,仍然存在“越狱”(例如,对抗系统消息,请参见系统卡的图10以获取更多详细信息),以生成违反我们使用指南的内容。只要存在这些限制,就重要要辅以部署时的安全技术,例如监测滥用以及快速迭代模型改进的流程。

GPT-4及其后续模型有可能以积极和消极的方式显著影响社会。我们正在与外部研究人员合作,改进我们对潜在影响的理解和评估,并构建针对未来系统可能出现的危险功能的评估。我们很快将发布关于社会应该采取哪些措施来准备应对人工智能的影响以及关于预测人工智能可能产生的经济影响的初步想法的建议。

7 结论

本文对GPT-4进行了全面的描述,它是一个具有人类水平表现的大型多模态模型,在某些难度较高的专业和学术基准测试中表现出色。GPT-4在一系列自然语言处理任务上优于现有的大型语言模型,并超过了绝大多数报告的最先进系统(通常包括任务特定的微调)。我们发现,改进的能力通常以英语为基础,但也可以在许多不同的语言中展示。我们强调了可预测的扩展性如何使我们能够准确预测GPT-4的损失和能力。

由于能力增强,GPT-4带来了新的风险,我们讨论了一些方法和结果,以了解和提高其安全性和对齐性。虽然还有许多工作要做,但GPT-4代表了迈向广泛有用和安全部署的AI系统的重要一步。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3