斯坦福论文《Generative Agents》用 AI 角色模拟人类行为,能带来哪些应用?

您所在的位置:网站首页 eddie的意思 斯坦福论文《Generative Agents》用 AI 角色模拟人类行为,能带来哪些应用?

斯坦福论文《Generative Agents》用 AI 角色模拟人类行为,能带来哪些应用?

#斯坦福论文《Generative Agents》用 AI 角色模拟人类行为,能带来哪些应用?| 来源: 网络整理| 查看: 265

首先看完论文的第一感是大大超出预期,这是一篇完成度很高的工作,甚至可能是未来很多领域的开山之作,更难能可贵的是这样宏大的工作的作者居然只有六个人。

文章的大致思想正如其他回答所介绍的那样,但文章能带来的应用真的有巨大的想象空间。我们由近及远举例。

1 游戏领域的应用

(1)游戏自由度的提升

可以大大丰富了游戏中NPC的自由度,提升游戏的可玩性。过去僵硬的NPC将可以产生很智能的行为,同时游戏内与玩家的对话也可以大大提高交互性,玩家也可以从过去“选择选项”式的NPC沟通变为更接近真实世界的自然语言沟通,从而缩小不真实感。

(2)游戏设计成本的降低

可以大大降低游戏的研发时间与人力成本。过去依赖人类策划绞尽脑汁设计情节、依赖架构师/程序员费尽心机设计决策树/状态机的工作很可能一去不复返了。如果文章中的prompt技术得到优化,很有可能未来的游戏设计者只需要对NPC给定一个文本描述,然后NPC就可以自己决定自己在游戏中的决策与规划。

(3)文学周边类游戏的可行性大幅提升

在过去,如果要设计一款《水浒传》的周边游戏,难度是很大的。需要游戏策划团队非常熟悉对应的文学素材,深刻把握人物性格、人物情绪等因素,对于这种群像类的文学作品,这是非常大的挑战。

然而,如果文章中提出的技术可以大范围应用,我们在设计“武松”这个游戏角色时,可以直接将《水浒传》原文中的所有“武松”的相关描述作为背景资料喂给llm。这种方式的加持下,哪怕是非常边缘的游戏角色也将有非常丰富的细节与感情,同时没有人能比NPC自身更加贴近原著。

更重要的是,这种开发方式的可移植性很强,同样的算法架构,可以快速迁移到古今中外的所有文化周边游戏中,再小众的小说都可能低成本的开发成游戏。

(4)寓教于乐的可行性大幅提升

在过去,国内主流舆论对游戏行业颇有偏见,认为影响了青少年学习。

如果游戏中的NPC背后接入了足够强大的模型,那么一个精灵小镇里的铁匠可能真的读过人类历史上的所有冶铁史,从赫梯到亚述,从波斯到大秦,也许我能和游戏里一个毫不起眼的铁匠学一下午。

如果更疯狂的想象,一个咖啡馆角落里两个数学家NPC,也许真的在解哥德巴赫猜想; 游戏里路边随便的一个路人,其实都阅读过人类有史以来的所有文献,比当前人类的任何老师都更加渊博。这样的游戏,还有人敢断言是电子鸦片么?

2 其他领域的应用

除了游戏领域,文章中的方法在其他领域也可能会擦出耀眼的火花,例如:

(1)机器人领域

机器人,特别是家政机器人,很难的一个领域是任务规划与决策。之前工程师们设计的什么task-and-motion-planning之类的方法总是人工过多而智能不足,导致demo猛如虎,买回家原地杵。而文章中依赖chatgpt的自然语言级别的多层记忆浓缩+迭代式任务分解方法,很适合用在家政机器人上,比如:

针对人类提出的宏观任务,例如“给我倒杯水”,在上述框架下将会被作为prompt,与来自感知的当前环境的自然语言描述、以及来自自身log的过去历史行为一起,被扔进llm里,询问未来的长期decisions-chain以及更具体的针对每一个decision的短期planning。

更加贴心的是文章中甚至还设计了面对突发事件的打断及恢复机制,例如“倒水过程中碰到了椅子,该如何决策?”由于开放环境的corner cases无穷无尽,这对于过去的机器人技术栈简直是灾难,但这正是llm-based agent善于处理的情况。

这些并不是简单的遐想,其实微软已经在大规模的尝试类似的技术了:

(2)自动驾驶领域

自动驾驶领域,特别是决策规划部分,长期以来是learning-based方法的硬骨头。一个原因是从车端记录下的轨迹数据实在是太平凡了。大量毫无难度的平凡数据淹没了真正困难的决策数据,例如高速上,即使人类司机,可能几公里才进行一次变道,几百公里才面对一次挑战场景。想要从数据里学到关键的决策则颇为困难。

然而如文章里的大量实验所表现的那样,经过大量知识训练的语言模型,更擅长处理“决策”类行为,当能够以某种方式将当前状态翻译为自然语言表征后,也许可以期待从更加智能的角度产生出类人的决策。

当然,这方面目前看来由于自动驾驶天然的容错率低的特性,直接应用于实车为时尚早。但作为一种为NPC设计的算法,直接引入仿真作为智能车辆NPC则再合适不过了。甚至如果哪一天,开发者发现仿真里的陪练车比自车还智能,还安全的时候,就是它真正上车的时候了。

(3)社会实验领域

文章中的一个实验——竞选镇长与拉票/投票实验其实还是具有一定的社会实验的性质的。抛去敏感的信息不谈,即使从社会信息传播的角度来看,完全可能扩展为一个社会实验:

当下信息的发展带来了巨大的虚假信息,政府天天为辟谣忙得焦头烂额,同时一些不够严谨的公告成为谣言的来源,那么不妨畅想一种解决方案:

每次发布重大公告前,首先初始化一个庞大的虚拟人群,然后对在人群里投放公告,通过仿真迭代,测试不同版本的公告经过一定周期社会传播之后的保真程度,从而决定选择哪个版本的公告更不容易引起误解。

类似的,也可以测试面对一场已经流行起来的谣言,政府应该以什么样的投放文案/投放时间/投放人群可以起到更好的辟谣效果。从而为公共部门决策提供帮助。

(4)帮助前沿科学研究领域

文章中设计了一种有趣的memory->reflection->planning的框解,原文提到,这种方式很好的提高了NPC行为的目标性。直白的讲,通过对大量普通记忆的“浓缩”得到的核心记忆,可以很大程度上帮助智能体的行为不要太发散,不要脱离主线任务迷失自我。

其实gpt这个缩写里的'g'——'generative',本性就是发散的。在根据历史预测未来的过程中,每一步都是充满概率分支的。即使每一步都按照最大概率的分支前进,足够长的步长后也会逐渐发散。这也是导致chatgpt充满臆想的原因之一。

而浓缩记忆的这一步,其实是在做一个条件概率,条件就是过去的关键主干,迭代式地引入条件概率之后,可以大大降低预测模型的发散速度。

正如还是gpt3时一个有趣的"let's think step-by-step"实验一样,当模型给出错误答案后,要求它给出思考步骤,模型的正确率则会提高很多。

那么类似地,虽然当前的gpt哪怕是4.0,仍然无法在前沿数学、物理等领域给出实质性帮助,但如果能够设计类似本文中“记忆浓缩”的框架,也许可以让善于发散思维的模型在要求确定性推导的领域给我们更大的帮助。毕竟LLM模型的知识输入能力目前已经是有目共睹的,那么准确的推理输出能力也一定是箭在弦上。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3