[PDF] Training language models to follow instructions with human feedback

您所在的位置:网站首页 readpaper使用 [PDF] Training language models to follow instructions with human feedback

[PDF] Training language models to follow instructions with human feedback

#[PDF] Training language models to follow instructions with human feedback| 来源: 网络整理| 查看: 265

论文的结果是关于对齐人工智能系统反馈与用户意愿的一小部份,如何将这一成果/方法论应用到其他的人工智能领域,是可以深入探索的。同时,由于方法论中涉及人类反馈,对于标注人员而言,是否需要生成人类反馈标准(消除种族差异,社会文化差异等),也是值得深入研究的内容。

提出问题:

论文研究结果是否存在局限性?局限性是什么?

论文的研究是存在局限性的。–方法论:由于文章数据集的标注工作由承包商负责,而承包商的国家,社会文化,使用语言等社会因素都会一定程度上影响标注的结果,而这些承包商的标注员的主观判断显然不能代表使用这一模型的所有用户。–结果:论文的输出结果依然没有达到不输出危害性的言论,instructGPT依然会输出有毒/带有歧视色彩的结果。

在讨论人为排序输出的过程中,遇到不同危害性的输出结果(无效性,歧视性,刻板印象等),如何对这几个指标排序?

个人认为这是比较难解决清楚的涉及社会学层面的问题,可能需要更具模型调教的目标来设定指标的排序结果。如果是为了保证对齐输出结果的有效性,那么无效的回答会比可能带有歧视色彩的回答rank的更高(这一排序方式可能更适用于知识问答类型的使用场景);而在考虑到例如主要目的是为了聊天的应用场景,消除模型回答的偏见/攻击性可能会更重要。这也是加入“人”的研究方法后,绕不开的如何统一主观标准的问题。

论文是如何尽量统一人类反馈的提供者的反馈的,即如何尽量保证输出结果的客观性的?

论文尽量选取了多样的标注商进行标注,同时测试了标注商标注人员之间对于同样样例的反馈,尽量选取了差异性较大的标注商;同时研究者提供给了标注人员专门的标注准则。在得到中期结果后,实验人员也用过将模型发布到playground让用户试用,获取真实用户的反馈,以消除反馈只来自标注人员的偏差。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3