分享

交通 | 单卡GPT个性化训练大模型部署方案(基于 LLaMA的Alpaca-LoRA)

 520jefferson 2023-04-11 发布于美国

chatGPT惊艳问世后,大模型部署话题一直高热不退,但是一方面GPT只有蛛丝马迹的论文,没有开源代码;另一方面GPT训练至少数千块80G A100的高昂算力成本,也让很多个人用户无法上手去学。经过不断尝试踩坑,终于调通啦最近Stanford 发布的基于 LLaMA的Alpaca-LoRA,70亿参数规模,只需要A5000,3090等24G显存的消费级的单卡GPU就可以训练,而且还可以更新语料库进行训练,无疑大大降低了大语言模型的上手入门的门槛,话不多说,我们接下来开始进行逐步讲解。

首先准备3090或A100的显卡机器一台,可以上http://www. 这个平台按小时去租一个单卡的机器,具体操作如下

书痴梦笔:低价长期稳定高性能整机GPU算力平台-海豹云GPU

https://zhuanlan.zhihu.com/p/560916333

机器配置如下:

拿到机器后,需要安装conda环境,下载一个miniconda就好,非常快

wget https://repo./miniconda/Miniconda3-latest-Linux-x86_64.sh

然后bash 命令安装,一路yes .

图片

安装完成后记得Ctrl+D退出,再重新登陆环境,这样就可以进入base环境了

下载Alpaca-LoRA项目代码

git clone https://github.com/tloen/alpaca-lora.git

创建虚拟环境,并安装项目所需的依赖

conda create -n alpaca python=3.9conda activate alpacacd alpaca-lorapip install -r requirements.txt

下载项目数据集

wget https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json

注意下载完后,要进行检查,下载好的数据集文件内容格式是如下这样的,这个数据集可以更换成自己的(这一步很重要):

如果不是,建议直接执行如下命令,clone 含该项目的数据集到本地,从中取出数据集文件

git clone https://github.com/LC1332/Chinese-alpaca-lora.git

数据集文件在data目录下trans_chinese_alpaca_data.json

进入项目目录,执行命令

python finetune.py \    --base_model 'decapoda-research/llama-7b-hf' \    --data_path '/path/to/trans_chinese_alpaca_data.json' \    --output_dir './lora-alpaca-zh'

其中命令中 --data_path '/path/to/trans_chinese_alpaca_data.json' 针对以上代码的 --data_path 后的路径参数,要换成自己刚才下载的数据集文件的实际路径。

如果发生如下报错:

AttributeError: /root/anaconda3/envs/alpaca/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cpu.so: undefined symbol: cget_col_row_stats

需要进入/root/anaconda3/envs/alpaca/lib/python3.9/site-packages/bitsandbytes 文件夹中 执行如下命令:

cp libbitsandbytes_cuda117.so libbitsandbytes_cpu.so

解决依赖冲突问题

顺利执行成功后,会进入训练页面

目测10个小时还是要的

24G的显存,吃了10G不到,这样看12G显存的3080Ti应该也可以试试。

这个期间,建议时刻关注自己机器租用的到期时间,及时在到期时间前进行续费,这样虚拟机不会停止,避免自己租用的机器训练到一半,租用到期,虚拟机停止,长时间的训练前功尽弃。

图片

彩蛋

图片

欢迎在训练模型过程中有GPU服务器算力需求的同学,在www.创建钱包后,通过微信号13599527985联系相关负责人(备注【运筹OR帷幄】),领取GPU算力充值福利。

微信公众号后台回复

加群:加入全球华人OR|AI|DS社区硕博微信学术群

资料:免费获得大量运筹学相关学习资料

人才库:加入运筹精英人才库,获得独家职位推荐

电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing...

加入我们:加入「运筹OR帷幄」,参与内容创作平台运营

知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流


图片

文章须知

文章作者:书痴梦笔

责任编辑:张云天

微信编辑:疑疑

文章由『运筹OR帷幄』原创发布

如需转载请在公众号后台获取转载须知

关注我们 

       FOLLOW US






图片


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多