GitHub

2023-06-06 20:36| 来源: 网络整理| 查看: 265

CPM-Bee

百亿参数的开源中英文双语基座大模型

模型 • OpenBMB体系 • 性能表现 • 开源协议

✨ 模型介绍

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型，也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

👐 开源可商用：OpenBMB始终秉承“让大模型飞入千家万户”的开源精神，CPM-Bee基座模型将完全开源并且可商用，以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守开源许可协议的前提下，自由地在CPM-Bee基座模型上进行创新。

💫 中英双语性能优异： CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比，同时在中英双语上具有亮眼表现，具体可参见评测任务和结果。

📖 超大规模高质量语料： CPM-Bee基座模型在超万亿语料进行训练，是开源社区内经过语料最多的模型之一。同时，我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。

OpenBMB大模型系统生态支持： OpenBMB大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具，CPM-Bee基座模型将配套所有的工具脚本，高效支持开发者进行进阶使用。

🔨 对话和工具使用能力：结合OpenBMB在指令微调和工具学习的探索，我们在CPM-Bee基座模型的基础上进行微调，训练出了具有强大对话和工具使用能力的实例模型，API和内测将于近期开放。

Read this in English.

说明：CPM-Bee是一个基座模型，即从零开始通过预训练得来。我们鼓励用户在自己的场景和数据上适配/微调/对齐后再进行使用。例如，WebCPM 以CPM-Bee为基座，在人类网络检索的序列化数据上进行适配，获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。

📰 更新信息 [2023/05/27] 百亿参数，允许商用的中英双语基座模型CPM-Bee开源了，它是CPM-Live的第二个里程碑。 🚀 安装和使用

您需要克隆该仓库：

$ git clone -b main --single-branch https://github.com/OpenBMB/CPM-Bee.git

并确保您的环境符合要求：

- python>=3.7 - torch>=1.10

我们建议使用Anaconda管理环境并从PyPI安装其他依赖项：

$ cd src $ pip install -r requirements.txt 模型

模型权重下载链接

CPM-Bee的基座模型可以准确地进行语义理解，高效完成各类基础任务，包括：文字填空、文本生成、翻译、问答、评分预测、文本选择题等等。

"填空":{"input": "心理学领域的研究人员发现，做出重要决定的最好方法之一，比如选择一所大学或，都涉及到使用决策工作表。研究优化的心理学家将与理论理想决策进行比较，看看它们有多相似。工作表程序的支持者认为它会产生最优的，也就是说，最好的决策。虽然有可以接受，但它们在本质上都是相似的。","":{"":"","":"","":""}}, "文本生成": {"input": "今天天气很好，我和妈妈一起去公园，", "prompt": "往后写约100字", "": ""} "翻译": {"input": "北京是中国的首都", "prompt": "中翻英", "": ""} "问答": {"input": "NGC 6231是一个位于天蝎座的疏散星团，天球座标为赤经16时54分，赤纬-41度48分，视觉观测大小约45角分，亮度约2.6视星等，距地球5900光年。NGC 6231年龄约为三百二十万年，是一个非常年轻的星团，星团内的最亮星是5等的天蝎座 ζ1星。用双筒望远镜或小型望远镜就能看到个别的行星。NGC 6231在1654年被意大利天文学家乔瓦尼·巴蒂斯特·霍迪尔纳（Giovanni Battista Hodierna）以Luminosae的名字首次纪录在星表中，但是未见记载于夏尔·梅西耶的天体列表和威廉·赫歇尔的深空天体目录。这个天体在1678年被爱德蒙·哈雷（I.7）、1745年被夏西亚科斯（Jean-Phillippe Loys de Cheseaux）（9）、1751年被尼可拉·路易·拉卡伊（II.13）分别再次独立发现。", "question": "NGC 6231的经纬度是多少？", "": ""} "评分预测": {"input":"之前多次聚餐都选择这里，有各种大小的包房同时能容纳很多人，环境好有特色还有表演，整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊，口感真的不如从前，不过其他菜品都还是不错，烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。","question":"评分是多少？(1-5)","":""}, "选择题": {"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人，父母首先得从自己做起，要是连自己都做不到，又怎能要求孩子做到呢？", "options": {"": "少提要求", "": "降低标准", "": "自己先做好", "": "让孩子拿主意"}, "question": "教育孩子时，父母应该：", "": ""}

OpenBMB

基于OpenBMB的大模型系统生态，我们在训练CPM-Bee的过程中实现了全流程高效。同时提供了继续训练（基于BMTrain）、微调（基于OpenPrompt和OpenDelta）、工具使用（基于BMTools）、模型压缩（基于BMCook）、高效推理（基于BMInf）的全套脚本，可以协助开发者快速上手和使用CPM-Bee。

预训练

我们提供了基于BMTrain加速的预训练脚本，大幅提升预训练效率。

模型微调

基于OpenDelta，我们给出了两种微调方案：全参数微调和参数高效的增量微调，可以将CPM-Bee适配到各类下游场景中。

全参数微调： $ torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py 增量微调： $ torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py \ --use-delta \

任务流程要在特定任务上微调模型，您应该准备数据集并按如下方式执行：

调整数据格式。您可以将分类问题集成到选择题的格式中。有关数据格式的更多信息，您可以查看CPM-Bee数据格式应当注意，由于我们选定作为特殊token的标记，可能与文本中的{"input": "团队配合非常重要，如果不能做到，则可能会造成1+1

【本文地址】

GitHub

GitHub

今日新闻

推荐新闻