国产大模型竞赛白热化,国外开源大模型5月份又玩出了什么花样?

您所在的位置:网站首页 中科大开源软件下载 国产大模型竞赛白热化,国外开源大模型5月份又玩出了什么花样?

国产大模型竞赛白热化,国外开源大模型5月份又玩出了什么花样?

#国产大模型竞赛白热化,国外开源大模型5月份又玩出了什么花样?| 来源: 网络整理| 查看: 265

如题,今天我们借助Huggingface这个最大开源模型社区的排行榜来给个综述。

现在,全世界范围内每周发布的大量大型语言模型和聊天机器人,往往商业吹捧非常高调,很多模型发布者有着宏大的表现承诺,对用户来说,很难过滤出开源社区正在取得的真正进展以及哪个模型是当前最优秀的。

Open LLM Leaderboard旨在跟踪、排名和评估LLMs和聊天机器人的发布情况。通过从统一的Eleuther AI语言模型评估工具箱中测试生成语言模型的大规模不同评估任务,排行榜对这些模型在4个关键基准测试来自该领域的模型进行评估。

使用此领导板的一个关键优势是,只要它是Hub上的  Transformers模型并且权重已经加载,任何来自社区的人都可以提交模型进行自动评估。还支持非商业许可证模型的评估,如LLaMa。

以上模型经过4种测试集的测试。测试集分别是:

AI2 Reasoning Challenge (25题) - 一套小学科学问题集。HellaSwag (10题) - 一种常识推理测试,对于人类来说很容易(约95%),但对SOTA模型来说具有挑战性。MMLU (5题) - 一个测试,用于测量文本模型的多任务准确性。该测试涵盖了包括基础数学、美国历史、计算机科学、法律等在内的57项任务。TruthfulQA (0-shot) - 一个基准测试,用于衡量语言模型在生成答案到问题时是否真实。

选择这些基准测试,因为它们在0-shot和少样本设置下测试了各种推理和一般知识,涉及各个领域的广泛范围。

从上面表格的结果来看,国外的开源模型参数正在走向膨胀,最高的参数规模已经达到65B(650亿参数规模)。而且单机部署主流开始以13B和30B为主。

从表现来看,LLAMA体系占据主流,这里面主要包括LLAMA和它的进化体VICUNA13B,后者的表现显示,在参数规模下降到13B的时候,语言模型的输出体验仍然是不错的。

但总体来说,国外开源模型远远没有能够达到能支持日常工作的水准,比如虽然它们的常识题准确率已经普遍接近80%,但一旦进入多任务和考验回答准确度的时候,得分快速下降。

简单来说,还只是玩具,只有少数不那么追求准确度的领域(比如聊天谈恋爱)可以用这类模型。

大模型测评

下面是详细数据长期更新贴。可收藏。

大模型测评

清华交大联合发布大模型评估排行榜。来看看大模型考试到底结果如何?

GPT4如期升级!可以搜索,可用插件,来感受单纯的强大吧

昆仑天工模型实测体验:优点不够突出,限制比较明显

【长测】真干活行不行?国产大模型们和chatGPT结合AI绘画的真实工作体验

详测科大讯飞星火大模型(2):进步很明显,短板逐渐浮现

干货满满!非官方正经实测:GPT4出题,文心一言陪测,讯飞星火认知大模型到底行不行?

开源+本地运行!效果最好的中文类CHATGPT大模型平台闻达测评



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3