【AI赋能策略】你想把AI大模型当员工用吗？来看看GPT4给出的新时代法则吧

您所在的位置：网站首页 › 分院测试准吗 › 【AI赋能策略】你想把AI大模型当员工用吗？来看看GPT4给出的新时代法则吧

【AI赋能策略】你想把AI大模型当员工用吗？来看看GPT4给出的新时代法则吧

2023-05-26 18:23| 来源: 网络整理| 查看: 265

各位老铁，现在，你应该已经不缺大模型了吧？

截止到目前为止，国内已经发布大模型的大厂有：

（按时间顺序）

百度-文心一格（准公测）

阿里-通义千问（邀请内测）

清华智源-GLM130（开源）；GLM6B(可本地部署）

昆仑万维-天工（邀请内测）

科大讯飞（邀请内测）

复旦MOSS(开源）

加上chatgpt，GPT4，还有GOOGLE的Claude，以及国外已经冒出来的一大批基于META LLAMA迭代的百亿级模型，比如stablibityAI拿出来的stableLM,huggingface拿出来的huggingCHAT等一众开源模型，目前已经出现了30个以上的大型语言模型，可以说，大模型时代已经到来。

那么，把大模型当员工，至少是助手，已经是很板上钉钉的事情了，你想把AI当员工用吗？怎么样用好那么多大模型，变成了一个非常重要的题目。

工欲善其事

工欲善其事必先利其器，你要用好大模型，首先是粗略的了解这些模型。一个简单的原则是，我们既然要把大模型当员工用，也需要给大模型设计入职考试，也就是需要先给大模型评分，同时知道它的能力边界在哪里。

严格来说，给大模型评分有一套严密的标准。比如，微软就有一个公开的评分标准，按中英文混搭的方式，以高考题的标准给大模型出题；当初CHATGPT和GPT4也是按这个标准去赴考的。所谓GPT4比得上一个常青藤毕业生的说法，也是因为它在这些测试中过关了。

这里插一句，国内很多大科技号做的测评，出于读者兴趣考虑，最近测试出题的比例上以娱乐为主，比如弱智吧的题目，好玩是好玩，但实际上是不足以给大模型全面评分的。我不是DISS他们，而是事实上，应用级的需求还得真正在实际场景中测试。

我们目前使用的简单方法就是让GPT4作为考官/AI-HR给LLM们出题。比如，下面就是一组测试知识面广度的题目。

知模善用

总体来说，我们这里做了一些总结，比如：

我们假定大预言模型的能力是可以用分数来评价的。例如GPT-4是100分，GPT-3.5是90分，Claude是80分，文心一言是60分，各类开源小模型是50分。

这些评分可以进一步细化，比如，从能力角度再细分，则可以分成写作能力、编程能力、对话能力、材料分析能力。

对于多模态的模型，还有文生图的能力、识别图的能力……

假定我们的目标是把大模型当员工用，取代重复劳动力，那么就会有一个原则：知人善任~知模善用。

目前，众所周知的原因，CHATGPT大家用起来还是不稳定的，未来大家面对的，大概率是拿着一堆60-80分的模型，加上一两个GPT4来用。

有鉴于此，我们让GPT4给我们做了一个使用大模型的总体策略：

应用需求分析：首先，需要详细分析应用的需求，了解应用对于语言模型的基础分数和极限分数要求。这将有助于确定哪些模型适用于特定的应用。

模型分类：根据应用需求，将大型语言模型划分为不同的类别。例如：

低分模型（50-60分）：适用于简单任务，如基本聊天、文本生成等。

中分模型（60-80分）：适用于中等复杂度的任务，如智能问答、文章摘要等。

高分模型（80-100分）：适用于高级任务，如AGI，指挥其他模型等。

多模型协同：结合多个模型的优势，提高整体效果。例如，可以将低分模型用于初级处理，高分模型用于深高级处理。这样可以有效降低计算成本，同时保证应用的性能。

动态调整：定期评估模型的性能和应用需求，根据实际情况调整模型组合。例如，随着技术进步和新模型的推出，可能需要升级或替换现有模型以提高性能。

从上面GPT4给出的策略也可以看出，现在GPT4的逻辑分析能力已经大幅提升。大哥就是大哥，如果要建造基于多个AI组合的“ AI团队”,那么GPT4一定是带头大哥。

优选模型

基于以上效率策略，我们可以在选择模型时，遵循以下原则：

优先选择达到基础分数要求的模型，确保应用的基本功能得以实现。

在基础分数要求满足的前提下，根据预算和性能需求选择逼近极限分数的模型。

如果应用无需进一步提高，选择分数适中的模型，以降低成本和计算资源需求。

简单举例来说明，GPT3.5和GPT4之间的文字能力差距不大；那么简单的文字工作可以交给GPT3.5，毕竟GPT4的token单价比GPT3.5贵20倍。

又比如，中文模型总体上肯定是国内的更好；但很多模型在多语态表现不佳，这时候往往我们可以精选一个中文模型当翻译，英文和多模态（比如画图）任务交给英文为主的国外LLM模型。

又比如，国内大模型访问畅通无阻，GPT4访问不稳定，那么可以用GPT4做时效性不强但需要准确度的工作；国内的便宜快速的大模型去做时刻需要快速响应的工作。

再比如，GPT4虽然强，但总是担心不够安全；有很多地方不能稳定上网，那就不配用LLM了？不存在的。能本地部署的LLM这个时候价值就大了。更何况，我们自己的测试结果表明，本地部署的LLM具有非常大的潜力，给予恰当的知识库辅助，在特定任务上不输给GPT3。

诸葛亮还是臭皮匠？

最后，就必须提一句4月份一直大火的AUTOGPT之类的工具，本质上，他们仍然是人类辅助的任务分配机制，但很明显这个方向也是对的。

下面这个图就是一个典型的AUTOGPT类型的LLM进化思维树。可以看到，经过多样化的任务分解，AI可以解决非常困难的专业性问题。

大模型不会一直堆数据（算力有限），多模型多任务组合分配，让AI和人类一样学会分工协作，是一条正确的道路。

在这个领域上，估计下个月会有比较成熟的产品和工具冒出来（毕竟,AI的迭代是以周和月为单位的），到时候，我们也会尽最大能力带来原创测试。

大模型测评

本实验室长期公开测试导航贴（腾讯在线文档，请将下列地址复制后浏览器打开访问）：

【腾讯文档】AI赋能实验室--大模型长期测评（更新）

https://docs.qq.com/sheet/DR3RaSkpMeU1YZWJH?tab=BB08J2

【AI赋能策略】你想把AI大模型当员工用吗？来看看GPT4给出的新时代法则吧

【AI赋能策略】你想把AI大模型当员工用吗？来看看GPT4给出的新时代法则吧

今日新闻

推荐新闻