新手求问使用自己本地自定义多轮对话数据集,在dataset.py这个函数该怎么写呀 · Issue #111 · modelscope/swift · GitHub

您所在的位置:网站首页 for怎么写呀 新手求问使用自己本地自定义多轮对话数据集,在dataset.py这个函数该怎么写呀 · Issue #111 · modelscope/swift · GitHub

新手求问使用自己本地自定义多轮对话数据集,在dataset.py这个函数该怎么写呀 · Issue #111 · modelscope/swift · GitHub

2024-07-03 11:37| 来源: 网络整理| 查看: 265

可以看一下文档的部分哈

我这里复制一下文档中相关的内容:

DATASET_MAPPING 介绍 (数据集拓展) DATASET_MAPPING定义在utils/dataset.py中, 用于加载各种类型的数据, 例如: 单轮指令微调数据集, 多轮chat数据集, 多模态数据集等. 如果你需要拓展数据集, 你可以在这里面添加. 其中key表示dataset的唯一id, 例如: alpaca-en, alpaca-zh等. value是获取数据集的函数. 该函数不需要传入任何参数, 需要返回HfDataset或Tuple[HfDataset, HfDataset]. 第一种情况下, 数据集处理函数会切分一部分的数据集作为验证集 (根据命令行超参数dataset_test_ratio); 第二种情况下, 返回的两个数据集分别作为其训练集和验证集. 我们支持使用多个数据集进行微调. 我们会将各个子数据集的训练集和验证集部分分别进行拼接, 最终返回合并后的训练集和验证集.

函数返回的HfDataset需要符合一定的规范. 如果是指令微调(单轮对话)的情况下, 需包含query, response字段, 分别代表指令微调的用户询问和AI助手的回答, 具体可以参考alpaca-zh数据集. 如果是多轮对话, 则需要额外加上history字段, 代表对话的历史信息, 具体可以参考damo-agent-mini-zh数据集. 如果每个数据集样例具有不同的system, 则需要额外加上system字段, 具体你也可以参考damo-agent-mini-zh数据集. 我们只会对response部分进行loss的计算和优化.



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3