如何快速下载huggingface模型

您所在的位置:网站首页 chimpact2下载 如何快速下载huggingface模型

如何快速下载huggingface模型

2024-05-25 16:05| 来源: 网络整理| 查看: 265

原文发布于本人博客:如何快速下载huggingface大模型 - padeoe的小站这是博主第一次上知乎发文章,欢迎评论、交流!

Update: 推荐 huggingface 镜像站: https://hf-mirror.com 。Update: 推荐官方的 huggingface-cli 命令行工具、以及本人开发的 hfd脚本。

AI开发绕不过一个问题是,如何从hugging face下载模型/数据集,相关问题想必大家都没少搜过,方法五花八门,本人也曾在stackoverflow上回答过类似问题,然而很难见有文章将各类方法一次性讲全

其实网络快、稳的话,随便哪种方法都挺好,然而国内网络问题,断点续传、多线程下载 等特性就显得尤为必要了,否则动辄断掉重来、下载速度慢,浪费生命!基于这个考虑,本文集成官方方法、第三方奇技淫巧,做了个总结排序,以飨读者:

(以下方法也适用于数据集下载)

`方法类别推荐程度优点缺点基于URL浏览器网页下载⭐⭐⭐通用性好手动麻烦/无多线程多线程下载器(hfd/IDM等)⭐⭐⭐⭐⭐通用性好,鲁棒性好手动麻烦CLI工具git clone命令⭐⭐简单无断点续传/冗余文件/无多线程专用CLI工具huggingface-cli+hf_transfer⭐⭐⭐官方下载工具链,带加速功能容错性低huggingface-cli⭐⭐⭐⭐⭐官方下载工具功能全不支持多线程Python方法snapshot_download⭐⭐⭐官方支持,功能全脚本复杂from_pretrained⭐官方支持,简单不方便存储,功能不全hf_hub_download⭐官方支持不支持全量下载/无多线程

本文对上述方法进行详细介绍,文末介绍几个常见问题:

Q1: 如何下载 Llama 等需要登录的模型、数据集?Q2: 如何利用镜像站下载hf模型、数据集?Q3: 常见错误问答1. 浏览器网页下载

模型项目页的 Files 栏中可以获取文件的下载链接。无需登录直接点击下载,还可以复制下载链接,用其他下载工具下载。这一点比国内某些又要注册登录,还不给出直链的平台,开放太多。

偶尔下载个模型,网页也挺方便

2. 多线程下载器

常规工具如浏览器默认采用单线程下载,由于国内网络运营商线路质量、QoS等因素有时候会很慢,多线程加速是一种有效、显著提高下载速度的方法。

经典多线程工具推荐两个:IDM、Aria2。 IDM 适用于 Windows、aria2 适用于 Linux。本文头图就是 IDM 工具。因此获取URL后,可以利用这些多线程工具来下载。以我的一次实测为例,单线程700KB/s,IDM 8线程 6MB/s。千兆宽带下,利用IDM能跑到80MB/s+。

然而,手动获取仓库中所有 URL 再去用 IDM 下载比较麻烦,因此我专门写了一个专用的多线程下载脚本 hfd,见如下介绍。

专用多线程下载器 hfd

hfd 是基于 Git 和 aria2 实现的专用于huggingface 下载的命令行脚本: hfd.sh(Gitst链接)。hfd 相比 huggingface-cli ,鲁棒性更好,很少会有奇奇怪怪的报错,此外多线程控制力度也更细,可以设置线程数量。缺点是目前仅适用于 Linux 和 Mac OS

其原理是 Step1:Git clone 项目仓库中lfs文件之外的所有



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3