开源or闭源?企业在开发垂类模型时应如何选择大模型?

您所在的位置:网站首页 安卓开源和ios闭源区别 开源or闭源?企业在开发垂类模型时应如何选择大模型?

开源or闭源?企业在开发垂类模型时应如何选择大模型?

2023-11-24 12:01| 来源: 网络整理| 查看: 265

导读

2023年7月18日,META发布开源AI大模型——LLaMA 2,并宣布可以被免费地用于研究和商业,这引起了业界广泛的关注和热议。图灵奖得主、Meta 首席人工智能科学家Yann LeCun表示:“这将改变 LLM 市场的格局。”猎豹移动CEO傅盛对此表示:“这一下不知道多少公司笑醒在深夜,多少公司哭晕在厕所……”

那么,什么是大模型的开源与闭源?企业在开发垂类模型时应该如何选择?我们将在本文探讨。

什么是大模型的开源与闭源?

“开源”一词,起源于软件开发领域,其全称为“开放源代码”,在版权限制范围内,任何人都可以公开获取源代码,并进行修改甚至重新开发。与之相反,在闭源的情况下,只有源代码所有者掌握代码修改的权力,其他人只能向其购买软件。

在企业竞争中,开源和闭源是两种完全不同的竞争策略,如互联网时代下开源Linux和闭源Windows之争,移动互联网时代下开源Andriod和闭源iOS之争。

如今,人工智能大模型也出现了开源、闭源之争,大模型的开源和闭源主要是指模型的源代码和训练数据是否公开。大模型的闭源是指模型的源代码和训练数据不公开,只有模型所属企业企业才能使用和修改它们,如OpenAI的GPT-4。大模型的开源是指公开模型的源代码和训练数据,任何人都可以查看、使用。在实际应用中,很多企业选择部分开源,如Meta的LLaMA 2开放了源代码,但没有公开训练数据。

不同的大模型企业,开源、闭源的策略不尽相同。

第一,从开源走向闭源,最典型的即为OpenAI。2018年其发布的GPT-1完全对外开源;2019年发布GPT-2,分四次开源完整代码;2020年发布GPT-3,通过论文公开了技术细节,同时用户可通过调用API的方式使用模型资源,属于部分开源;2022年11月推出GPT-3.5,官方没有发布论文披露细节,2023年3月开放API;最近的GPT-4,目前也仅处于开放API状态,技术细节不得而知。

第二,坚持开源,最典型的即为Meta。2023年3月,Meta发布开源大模型LLaMA,可免费用于研究,研究人员向Meta提出申请和审核后即可使用;2023年7月,Meta发布LLaMA 2,公开了技术论文和源代码,可免费用于研究和商业。

第三,坚持闭源,最典型的即为华为。在发布盘古大模型3.0时,华为云公开表示,盘古大模型全栈技术均是由华为自主创新的,没有采用任何开源技术,盘古大模型在未来也不会开源。

第四,从闭源走向开源、闭源并行,最典型的即为智谱。根据智谱AI的官网,GLM2不限实例+不限推理或微调工具包的私有化报价此前是一年30万。2023年7月,智谱AI和清华KEG发布公告,称为了更好地支持国产大模型开源生态,ChatGLM-6B和ChatGLM2-6B权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。同时,ChatGLM2-12B、ChatGLM2-32B、ChatGLM2-66B、ChatGLM2-130B 等模型仍为闭源。

从我国大模型来看,超半数已开源。根据《中国人工智能大模型地图研究报告》,截至2023年5月28日,我国大模型数量已达79个,超半数已开源,如清华大学的ChatGLM-6B、复旦大学的MOSS。

部分国内外大模型企业的开源、闭源情况如下图所示。

表1 部分国内外大模型企业的开源、闭源情况

资料来源:作者整理

企业在开发垂类模型时选择开源还是闭源大模型?

任何一家企业如果自己从零开发大模型,对算力、数据的要求极高,研发投入很大。根据Meta发布的数据,参数量最大的LLaMA-65B模型,使用2048块A100-80GB的GPU,训练数据量1.4万亿tokens,耗时为21天;如果采取租用云计算方式来训练算法,按照Microsoft Azure以1.36美元/小时提供A100租用价计算,训练成本约140万美元。

因此,企业一般会选择基于已有大模型来开发针对某一垂直领域或垂直场景的垂类模型。这类模型通常基于通用大模型底座,用垂类数据进行训练,进行模型微调后形成。

图1 从通用模型到垂类模型

资料来源:北京大学人工智能研究院公众号

那么在这一过程中,模型底座选择开源大模型还是闭源大模型?通过访谈调研,我们发现大部分企业一般从以下几个维度综合考虑:使用成本、场景容错率、技术能力、客户响应、数据安全等。

1.使用成本:闭源大模型提供明确报价,开源大模型二次开发成本自主把控

在选择大模型时,企业需要根据自己的财务预算,结合闭源大模型和开源大模型的使用成本进行综合考虑。

一般来说,闭源大模型有直接的报价体系。如果直接调用大模型一般会衡量千token的费用,比如ChatGPT API接入的模型——GPT 3.5-turbo收费标准是0.002美元/1K tokens。1个token大约等于4个英文字符,大约等于3/4个单词,假定每天需要处理1000个小文本块,每个文本块对应一页文本(500个单词,约667个token),日均成本约为1.3美元。但如果每天需要处理上百万份这类文档,日均约1300美元,每年约50万美元。而中文要用的token数是英文数量的1.2到2.7倍。随着垂类企业用户量的攀升,这会成为一笔不小的费用。

也有一些闭源大模型也提供私有化服务,如智谱提供云端私有化服务,ChatGLM-12B、ChatGLM-32B、ChatGLM-66B、ChatGLM-130B的报价分别为25万元/年、50万元/年、100万元/年、120万元/年。同时,智谱也提供本地私有化服务,ChatGLM-12B、ChatGLM-32B、ChatGLM-66B、ChatGLM-130B的报价分别为180万元/年、680万元/年、1680万元/年、3960万元/年。

而对于开源大模型,企业主要需要考虑的则是二次开发成本,主要表现在迁移学习和微调的成本。对于迁移学习,以基于LLaMA-65B进行二次开发、训练拥有100亿tokens的行业数据的垂直大模型为例,如果采用租用云计算的方式,训练算力费用为:100/14000*140=1万美元。如果采用自有算力,前期算力集群初始投入费用会比较高(Nvidia DGX A100每台售价约20万美元),但此时单大模型的成本仅包含平摊的硬件成本和能耗这两部分费用,训练成本可大幅降低。对于微调,斯坦福大学发布的模型Alpaca,是基于LLaMA-7B底座,使用5.2万指令,8块80GB的A100微调,耗时仅3小时,总成本还不到600美元,由于性能接近GPT-3.5,有“平替版GPT-3.5”之称。

就目前而言,尚不能笼统定义开源、闭源的成本一定孰高孰低,不同企业的需求不同,所需成本也就不同。因此,对于企业来说,更重要的是根据预算标准和使用场景等诸多因素综合选择性价比较高的模型。

2.场景容错率:与闭源大模型相比,开源大模型更适合容错率更高的场景

现有的开源、闭源模型中,闭源模型的准确度均高于开源模型。如果企业垂类模型的应用场景容错率低、对大模型准确性要求较高,那么选择闭源大模型是更好的选择,反之可以选择开源大模型。

目前大模型技术最顶尖的即为OpenAI闭源的GPT-4,其率先解决了模型架构设计、调参方式及多模态的探索。Meta将Llama 2-70B 的结果,与GPT进行了比较,结果在MMLU和GSM8K上接近GPT-3.5,但在编码基准上,还存在显著差距,不少数据在多样性和质量方面有所欠缺。同时,Meta 在其研究论文中承认,LLaMA 2 和 GPT-4 之间在性能上仍有很大差距。由斯坦福大学计算机系研究团队发表的《Holistic Evaluation of Language Models》论文中,作者对国外30个主流语言模型在准确率、鲁棒性、公平性、推理等主要指标进行评测后发现,开源模型在大多数指标上表现弱于闭源或部分开源的模型,如下图所示。

图2 多数非开源模型准确率高于已完全开源模型

资料来源:《Holistic Evaluation of Language Models》

开源大模型虽然性能没有达到顶尖水平,但对于很多容错率较高的场景,也可以满足企业开发垂类模型的需求。开源大模型LLaMA 2-70B在MMLU(大模型评测数据集之一)和GSM8K(大模型评测数据集之一)上接近 GPT-3.5。正如美国斯坦福大学基金会模型研究中心主任 Percy Liang表示:“LLaMA 2不是GPT-4,但对于许多应用场景来说,你不需要GPT-4。相较于一个庞大、复杂的专有模型,一个更可定制、更透明的模型比如LLaMA 2,可能会帮助公司更快地创造产品和服务。”

3.技术能力:与闭源大模型相比,部署开源大模型对企业技术能力要求高

闭源大模型具有完整的工具链和工具平台,企业可以直接调用其接口,同时能够获得大模型企业及时的、高效的技术支持,例如,智谱为垂类企业提供了PLM、GLM等多个预训练大模型,同时能够提供模型微调、数据处理、模型训练、模型部署、模型推理等工具包,以及技术咨询服务等,因此对企业技术能力要求相对较低。

基于开源大模型,企业往往需要进行二次开发,对机器学习、自然语言处理、数据科学等方面的专业能力要求高。现在,一些大模型第三方服务商的出现一定程度上降低了企业对开源大模型的部署难度。如阿里云在国内推出针对Llama2全系列版本的训练和部署方案,便于开发者进行再训练,搭建专属大模型,并支持开发者在云上进行模型微调,通过Web UI及API的方式部署Llama2。

因此,企业在选择大模型时,应综合考虑自身技术能力水平和开发垂类模型的具体需求,选择与自身能力水平更适配的模型。

4.客户响应:与闭源大模型相比,开源大模型能够减小客户响应时间

与闭源大模型相比,基于开源大模型开发垂类模型能够有效减小客户响应时间。

大模型主要涉及两类延迟,一个是计算延迟,指模型处理输入和生成输出所需的时间;一个是网络延迟,指远程托管下数据传输所需的时间。如果垂类企业想要提升客户体验,对客户实时响应,这两类延迟越小越好。

如果用闭源大模型,企业无法控制延迟,模型提供者倾向于选择批处理请求,可能导致高延迟,还可能遇到违反速率限制导致的API延迟和中断。如果用开源大模型,企业可以通过优化模型来降低计算延迟,还可以改变批处理请求的设置以降低网络延迟,从而减小客户响应时间。此外,基于开源大模型,企业还可以构建参数更少的小模型,在保证模型准确率的情况下,提升客户响应速度。

5.数据安全:与闭源大模型相比,开源大模型可更好保护数据隐私

一些闭源大模型无法进行私有化部署,客户数据都会流经大模型企业的服务器,可能引发数据泄漏风险。例如ChatGPT产生的所有数据都会流经OpenAI和微软的公共服务器,据韩国媒体《economist》报道,三星引入聊天机器人ChatGPT不到20天,发生三起涉及ChatGPT误用与滥用案例,包括两起“设备信息泄露”和一起“会议内容泄露”。报道称,半导体设备测量资料、产品良率等内容或已被存入ChatGPT学习资料库中。

开源大模型可被垂类企业进行私有化部署,能够更好地保护数据隐私。数据成为生产要素之后,数据资产成为企业生产、经营、管理的命脉。开源大模型初创企业Huging Face表示,有大量客户希望把自己的私有数据或专业数据用来训模型,并不想把这些数据给到 OpenAI。开源大模型允许企业定制化开发、私有化部署、定向训练数据,不禁止用户修改模型后闭源,能够有效保护企业的数据隐私。如果企业在数据安全方面有较高需求,且自身数据安全保护做得相对较好,开源大模型不失为一种更好的选择。

小结

无论是开源还是闭源,都有其存在的价值与意义。中国大模型要高水平发展,既要有全球领先的闭源大模型打头阵,也要有具备世界影响力的大模型开源社区。

对于大模型企业来说,既可以开发闭源大模型,也可以开发开源大模型,就像百川智能;对于想要开发垂类模型的企业来说,既可以调用闭源大模型,又可以基于开源大模型进行私有化部署。开源与闭源并非企业必做的二选一的选择题,而是要结合实际情况,明确企业的具体需求,再做决策。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3