中文多模态模型问世！IDPChat生成图像文字，只需5步单GPU

天承办公室 2023-04-17 发布于江苏

展开全文

新智元报道

编辑：桃子拉燕

【新智元导读】中文多模态模型IDPChat来了，快速上手教程在此。

中文多模态模型IDPChat和大家见面了。

随着GPT4、文心一言等的发布，预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。

我们认为，未来的AI应用将主要以大模型为核心基石。

而在大模型的领域，基于基础模型（Foundation model）构建领域或企业自有的大模型，会是近中期的重要发展趋势。

但在私有化大模型微调和应用方面，企业和机构仍面临着微调复杂、部署困难、成本较高等种种工程化挑战。

白海作为AI基础软件服务商，我们希望能够从AI Infra层面，提供端到端的大模型微调、部署和应用工具，降低大模型微调和应用的门槛。白海科技IDP平台目前提供了从大模型数据源接入到大模型微调训练、模型发布的全流程功能。

我们以IDP平台为工具支撑，以预训练大语言模型LLaMA和开源文生图预训练模型Stable Diffusion为基础，快速构建了多模态大模型应用IDPChat。开发者们可根据场景需求，便捷地对其进行微调优化。

项目地址：https://github.com/BaihaiAI/IDPChat

IDPChat 能做什么

IDPChat目前可以同时支持文字对话和图片生成。

首先是图像生成，我们可以让模型根据文字描述画一幅画。

基础的文字对话聊天示例，可支持中文。

IDPChat 快速上手

仅需简单的5步和单GPU，即可快速启用IDPChat。

操作步骤如下：

1. 修改 ./backend/app/stable_diffusion/generate_image.py 文件，设置 diffusion_path 的值为本地 stable-diffusion 模型存储路径，设置 trans_path 的值为本地中文翻译模型的存储路径

2. 修改 ./backend/app/llama/generate_text.py 文件，设置 load_model 的 base 参数值为本地 llama 模型的存储路径

3. 执行 build.sh 脚本进行编译

4. 编译成功后执行 run.sh 脚本启动服务

5. 服务启动成功后，在浏览器中打开http://127.0.0.1:8000

在应用之前，需要下载准备所需的模型，LLaMA、Stable diffusion和相应的翻译模型。

具体所需的环境、模型、和操作步骤可以参考https://github.com/BaihaiAI/IDPChat

目前发布IDPChat初步版本，打通模型微调的全流程。

后续我们会继续对模型进行优化和丰富，如多模态部分增加图像描述功能。

当然要实现特定领域更高质量、针对性的表现，还需要基于领域数据的finetune和优化。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天承办公室 > 《023新智元说》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章

天承办公室

关注对话

TA的最新馆藏

刘亦菲：风华绝代，演绎影视与时尚的完美融合
私募这五年
投资中那些看似简单的事，你根本做不到︱投资道
刘亦菲毕业答辩视频热传：从校园到银幕，每一步都闪耀着光芒！
金雷股份拟最高1.2亿元回购股份持续推进“铸锻一体化”毛利率增至33%|金雷股份
贝瑞基因2024年一季度扭亏为盈 2023年收获两款重磅新品迈出出海重要一步|贝瑞基因

喜欢该文的人也喜欢更多

热门阅读换一换

中文多模态模型问世！IDPChat生成图像文字，只需5步 单GPU

新智元报道

【新智元导读】中文多模态模型IDPChat来了，快速上手教程在此。

中文多模态模型问世！IDPChat生成图像文字，只需5步单GPU