【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧

您所在的位置:网站首页 分院测试准吗 【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧

【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧

2023-05-26 18:23| 来源: 网络整理| 查看: 265

各位老铁,现在,你应该已经不缺大模型了吧?

截止到目前为止,国内已经发布大模型的大厂有:

(按时间顺序)

百度-文心一格(准公测)

阿里-通义千问(邀请内测)

清华智源-GLM130(开源);GLM6B(可本地部署)

昆仑万维-天工(邀请内测)

科大讯飞(邀请内测)

复旦MOSS(开源)

加上chatgpt,GPT4,还有GOOGLE的Claude,以及国外已经冒出来的一大批基于META LLAMA迭代的百亿级模型,比如stablibityAI拿出来的stableLM,huggingface拿出来的huggingCHAT等一众开源模型,目前已经出现了30个以上的大型语言模型,可以说,大模型时代已经到来。

那么,把大模型当员工,至少是助手,已经是很板上钉钉的事情了,你想把AI当员工用吗?怎么样用好那么多大模型,变成了一个非常重要的题目。

工欲善其事

工欲善其事必先利其器,你要用好大模型,首先是粗略的了解这些模型。一个简单的原则是,我们既然要把大模型当员工用,也需要给大模型设计入职考试,也就是需要先给大模型评分,同时知道它的能力边界在哪里。

严格来说,给大模型评分有一套严密的标准。比如,微软就有一个公开的评分标准,按中英文混搭的方式,以高考题的标准给大模型出题;当初CHATGPT和GPT4也是按这个标准去赴考的。所谓GPT4比得上一个常青藤毕业生的说法,也是因为它在这些测试中过关了。

这里插一句,国内很多大科技号做的测评,出于读者兴趣考虑,最近测试出题的比例上以娱乐为主,比如弱智吧的题目,好玩是好玩,但实际上是不足以给大模型全面评分的。我不是DISS他们,而是事实上,应用级的需求还得真正在实际场景中测试。

我们目前使用的简单方法就是让GPT4作为考官/AI-HR给LLM们出题。比如,下面就是一组测试知识面广度的题目。

知模善用

总体来说,我们这里做了一些总结,比如:

我们假定大预言模型的能力是可以用分数来评价的。例如GPT-4是100分,GPT-3.5是90分,Claude是80分,文心一言是60分,各类开源小模型是50分。

这些评分可以进一步细化,比如,从能力角度再细分,则可以分成写作能力、编程能力、对话能力、材料分析能力。

对于多模态的模型,还有文生图的能力、识别图的能力……

假定我们的目标是把大模型当员工用,取代重复劳动力,那么就会有一个原则:知人善任~知模善用。

目前,众所周知的原因,CHATGPT大家用起来还是不稳定的,未来大家面对的,大概率是拿着一堆60-80分的模型,加上一两个GPT4来用。

有鉴于此,我们让GPT4给我们做了一个使用大模型的总体策略:

应用需求分析:首先,需要详细分析应用的需求,了解应用对于语言模型的基础分数和极限分数要求。这将有助于确定哪些模型适用于特定的应用。

模型分类:根据应用需求,将大型语言模型划分为不同的类别。例如:

低分模型(50-60分):适用于简单任务,如基本聊天、文本生成等。

中分模型(60-80分):适用于中等复杂度的任务,如智能问答、文章摘要等。

高分模型(80-100分):适用于高级任务,如AGI,指挥其他模型等。

多模型协同:结合多个模型的优势,提高整体效果。例如,可以将低分模型用于初级处理,高分模型用于深高级处理。这样可以有效降低计算成本,同时保证应用的性能。

动态调整:定期评估模型的性能和应用需求,根据实际情况调整模型组合。例如,随着技术进步和新模型的推出,可能需要升级或替换现有模型以提高性能。

从上面GPT4给出的策略也可以看出,现在GPT4的逻辑分析能力已经大幅提升。大哥就是大哥,如果要建造基于多个AI组合的“ AI团队”,那么GPT4一定是带头大哥。

优选模型

基于以上效率策略,我们可以在选择模型时,遵循以下原则:

优先选择达到基础分数要求的模型,确保应用的基本功能得以实现。

在基础分数要求满足的前提下,根据预算和性能需求选择逼近极限分数的模型。

如果应用无需进一步提高,选择分数适中的模型,以降低成本和计算资源需求。

简单举例来说明,GPT3.5和GPT4之间的文字能力差距不大;那么简单的文字工作可以交给GPT3.5,毕竟GPT4的token单价比GPT3.5贵20倍。

又比如,中文模型总体上肯定是国内的更好;但很多模型在多语态表现不佳,这时候往往我们可以精选一个中文模型当翻译,英文和多模态(比如画图)任务交给英文为主的国外LLM模型。

又比如,国内大模型访问畅通无阻,GPT4访问不稳定,那么可以用GPT4做时效性不强但需要准确度的工作;国内的便宜快速的大模型去做时刻需要快速响应的工作。

再比如,GPT4虽然强,但总是担心不够安全;有很多地方不能稳定上网,那就不配用LLM了?不存在的。能本地部署的LLM这个时候价值就大了。更何况,我们自己的测试结果表明,本地部署的LLM具有非常大的潜力,给予恰当的知识库辅助,在特定任务上不输给GPT3。

诸葛亮还是臭皮匠?

最后,就必须提一句4月份一直大火的AUTOGPT之类的工具,本质上,他们仍然是人类辅助的任务分配机制,但很明显这个方向也是对的。

下面这个图就是一个典型的AUTOGPT类型的LLM进化思维树。可以看到,经过多样化的任务分解,AI可以解决非常困难的专业性问题。

大模型不会一直堆数据(算力有限),多模型多任务组合分配,让AI和人类一样学会分工协作,是一条正确的道路。

在这个领域上,估计下个月会有比较成熟的产品和工具冒出来(毕竟,AI的迭代是以周和月为单位的),到时候,我们也会尽最大能力带来原创测试。

大模型测评

本实验室长期公开测试导航贴(腾讯在线文档,请将下列地址复制后浏览器打开访问):

【腾讯文档】AI赋能实验室--大模型长期测评(更新)

https://docs.qq.com/sheet/DR3RaSkpMeU1YZWJH?tab=BB08J2

相关测评文章:

开源+本地运行!效果最好的中文类CHATGPT大模型平台闻达测评

大模型观察

当类chatGPT大模型不再稀缺,新时代应用如何掘金?

大模型走向大白菜化?——对阿里华为京东等国产LLM模型的初步评估观察

OPENAI大面积封号,我们该怎么办?



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3