如何创建数据集和挂载数据集 |
您所在的位置:网站首页 › 阿里云盘文件目录怎么导出来 › 如何创建数据集和挂载数据集 |
背景信息 系统为使用公共资源组创建的DSW实例提供一定存储空间的云盘,用于持久化存储。如果该实例停机超过15天未开机,云盘的内容将被清空。而使用专有资源组创建的DSW实例则提供非持久化的本地存储。如果您需要持久化存储DSW数据,需要创建NAS、OSS或CPFS类型的数据集,并将数据集挂载到DSW指定的路径,以实现在DSW中读写数据集数据。 挂载模式DSW的挂载项不同,支持的挂载模式不同,详情请参见下表。 挂载项 支持的挂载模式 挂载自定义数据集 非OSS类型数据集 无挂载模式。 OSS类型数据集 快速读写:允许用户读写,读取速度快,但并发读写可能会出现数据不一致的问题,适合挂载训练数据和模型,不适合作为工作目录。 增量读写:在增量写入时能够保证数据一致性,覆盖原有数据会有一致性问题。读取速度略慢,适合保存训练的模型权重文件。 读写一致:在并发读写中能保持数据一致性,适用于对数据一致性要求高,可以容忍读取速度慢的场景,适合保存代码项目。 只读:仅允许读取,不允许写入,适合挂载公共数据集。 自定义配置:单击展开Jindo配置,可以自行配置Jindo属性和参数。 挂载公共数据集 挂载OSS路径 各挂载模式对应的Jindo配置详情如下,更多Jindo使用详情,请参见JindoFuse使用指南。 快速读写:允许用户读写,读取速度快,但并发读写可能会出现数据不一致的问题,适合挂载训练数据和模型,不适合作为工作目录。 { "fs.oss.download.thread.concurrency": "cpu核数2倍", "fs.oss.upload.thread.concurrency": "cpu核数2倍", "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink" }增量读写:在增量写入时能够保证数据一致性,覆盖原有数据会有一致性问题。读取速度略慢,适合保存训练的模型权重文件。 { "fs.oss.upload.thread.concurrency": "cpu核数2倍", "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink" }读写一致:在并发读写中能保持数据一致性,适用于对数据一致性要求高,可以容忍读取速度慢的场景,适合保存代码项目。 { "fs.jindo.args": "-oattr_timeout=0 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink" }只读:仅允许读取,不允许写入,适合挂载公共数据集。 { "fs.oss.download.thread.concurrency": "cpu核数2倍", "fs.jindo.args": "-oattr_timeout=7200 -oentry_timeout=7200 -onegative_timeout=7200 -okernel_cache -ono_symlink" } 使用限制多个数据集挂载的路径不能重复。 在OSS挂载的目录下,不建议进行频繁的写操作。 挂载自定义数据集步骤一:创建数据集在AI资产管理>数据集页面创建自定义数据集。由于DSW只能挂载目录,不能挂载文件,因此,属性只能选择文件夹。 具体操作,请参见创建及管理数据集。 步骤二:挂载数据集在模型开发与训练>交互式建模(DSW)页面创建DSW实例,或变更已有DSW实例配置。其中,数据集选择已创建的自定义数据集,挂载路径和挂载模式按需配置。 其他参数详情,请参见创建DSW实例。 说明如果配置了CPFS类型的数据集,需要设置网络配置,且选择的专有网络需要与CPFS一致。否则,DSW实例可能会创建失败。 如果配置了NAS类型的数据集,需要设置网络配置,选择安全组。 当资源组选择专有资源组时,因为OSS对fuse接口的支持不如NAS完善,DSW限制第一个数据集必须选择NAS类型数据集,并且该数据集会同时挂载到您指定的路径和DSW默认工作目录/home/admin/workspace下。 挂载公共数据集步骤一:创建数据集在AI资产管理>数据集页面创建公共数据集。具体操作,请参见创建数据集:公共数据集。 步骤二:挂载数据集在模型开发与训练>交互式建模(DSW)页面创建DSW实例,或变更已有DSW实例配置。其中,数据集选择已创建的公共数据集,挂载路径和挂载模式按需配置。 其他参数详情,请参见创建DSW实例。 挂载OSS路径步骤一:创建OSS Bucket开通OSS服务并创建Bucket,具体操作,请参见开始使用OSS和创建存储空间。 说明Bucket所属地域与PAI的地域一致。Bucket一旦创建,则无法更改其所属地域。 步骤二:挂载OSS路径在模型开发与训练>交互式建模(DSW)页面创建DSW实例,或变更已有DSW实例配置。其中,在挂载配置区域,OSS选择已创建的OSS Bucket路径,挂载路径和挂载模式按需配置。 查看挂载配置单击目标DSW实例操作列下的打开。 在DSW实例页面的顶部菜单栏中,单击Terminal页签。然后按照操作指引打开Terminal。 在Terminal中,输入以下命令,查看NAS及OSS类型的数据集是否挂载成功。 #查询NAS挂载路径 mount | grep nas #查询OSS挂载路径 mount | grep oss系统输出如下返回结果,说明数据集已成功挂载。 NAS数据集已挂载到/mnt/data_nas、/mnt/workspace和/home/admin/workspace目录。其中,/mnt/data_nas为创建DSW实例时指定的挂载路径,后两个路径为配置第一个NAS数据集时,被挂载的DSW的默认工作目录。后续只要您的NAS盘和服务正常运行,数据和代码就可以持久化存储。 OSS数据集挂载到DSW的/mnt/data_oss目录。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |