1.尝试下载大模型相关文件在huggingface镜像首页,可以看到如图: 
2.使用huggingface-cli下载文件2.1 首先激活自己的虚拟环境,然后安装环境,使用如下命令:pip install -U huggingface_hub
2.2 接着设置系统环境变量Linux使用如下命令: export HF_ENDPOINT=https://
Windows在powershell中输入: $env:HF_ENDPOINT = "https://"
注意:上述配置环境变量代码,每次下载前均需要配置。可以理解为配置下载对应文件时候要使用的源。如果要避免这个情况,请将上面这一行写入Linux中的 ~/.bashrc 。Windows环境没测试过。 2.3 下载指定的模型huggingface-cli download --resume-download gpt2 --local-dir gpt2
2.4 下载指定的数据集huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
3. 命令解释和其他情况3.1 下载全部文件,需要添加--resume-download 参数,此时将保存至/root/.cache/.../ 文件夹中3.2 当需要下载指定文件夹中,需要添加--local-dir 参数,此时将保存至wikitext文件夹中3.3 当需要下载指定文件时,使用如下命令:huggingface-cli download --repo-type dataset 指定数据目录 指定特定文件 --local-dir wikitext
3.4 当下载多个文件,且非数据文件时候,使用如下命令:huggingface-cli download 指定数据目录 指定文件A 指定文件B 指定文件C --local-dir wikitext
3.5 当想下载一个仓库的文件,一部分内容不下载,使用参数--include 和--exclude 命令,如下:huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin"
表示下载指定数据目录,以safetensors结尾的,不下载.bin结尾的文件。 为什么会要这么做,tmd下载一半电脑挂了,头大。 3.6 当下载时候需要token,则添加参数--token,命令如下:huggingface-cli download 指定数据目录 --include "*.safetensors" --exclude "*.bin" --token hf_****
注意:使用wget命令并不会得到下载好的大文件内容,这点需要注意。
|