分享

性能超过GPT3,不用联网也能和你的文档聊天

 微笑如酒 2023-06-30 发布于广东

项目链接:GitHub - mayooear/private-chatbot-mpt30b-langchain[1]

图片

1. 介绍

这是一个名为 'private-chatbot-mpt30b-langchain' 的开源项目,由 GitHub 用户 mayooear 托管。这个项目的主要功能是让用户能够通过 MPT-30b 模型私下与自己的数据进行对话。

MPT-30b 是一个强大的开源模型,训练上下文长度为8k,性能超过原始的 GPT-3。通过使用 MPT-30b 的量化版本,您可以在自己的计算机上,无需互联网连接,就可以与您的文档进行私人对话。

这个项目的系统需求是最低配置为32GB的内存和Python 3.10。安装过程包括安装 poetry,克隆仓库,安装项目依赖,复制 .env.example 文件到 .env,下载模型(大约19GB)。

这个项目支持的文档扩展名包括 .csv、.docx、.doc、.eml、.epub、.html、.md、.pdf、.pptx 和 .txt。您可以将想要'对话'的文档放入 source_documents 文件夹中,然后运行 ingest.py 脚本进行处理。处理完成后,您可以运行 question_answer_docs.py 脚本查询您的文档。

此外,如果您不想与文档进行对话,只是想简单地与 MPT-30b 聊天机器人进行交互,您可以跳过摄取阶段,直接运行聊天机器人脚本。

这个项目的优点是,您可以在无互联网连接的情况下使用这个聊天机器人。在摄取过程中,没有数据离开您的本地环境。您可以摄取尽可能多的文档,所有文档都会累积在本地嵌入数据库中。如果您想从一个空数据库开始,只需删除 db 文件夹即可。

2. 安装

步骤1:系统需求

确保你的系统满足最低配置要求,即32GB的内存和Python 3.10。

步骤2:安装 poetry 在命令行中输入以下命令来安装 poetry:

pip install poetry

步骤3:克隆仓库 在命令行中输入以下命令来克隆仓库:

git clone https://github.com/mayooear/private-chatbot-mpt30b-langchain

步骤4:安装项目依赖 进入项目目录,然后在命令行中输入以下命令来安装项目依赖:

poetry install

步骤5:复制 .env.example 文件 在命令行中输入以下命令来复制 .env.example 文件到 .env:

cp .env.example .env

步骤6:下载模型 在命令行中输入以下命令来下载模型(大约19GB):

python download_model.py

步骤7:准备文档 将你想要'对话'的文档放入 source_documents 文件夹中。支持的文档扩展名包括 .csv、.docx、.doc、.eml、.epub、.html、.md、.pdf、.pptx 和 .txt。

步骤8:处理文档 在命令行中输入以下命令来处理文档:

python ingest.py

步骤9:查询文档 在命令行中输入以下命令来查询你的文档:

poetry run python question_answer_docs.py

或者

make qa

步骤10:与文档进行对话 在命令行提示 'Enter a question:' 后,输入你的问题并按回车键。

注意:如果你不想与文档进行对话,只是想简单地与 MPT-30b 聊天机器人进行交互,你可以跳过步骤7、8、9,直接运行聊天机器人脚本:

poetry run python chat.py

或者

`make chat

买不起GPT4,不如白嫖这种LLM模型,从描述上来说,个人PC应该也能实现,主要还能自定义地喂给他数据或文档,可定制的程度还挺高的

参考资料

[1]

GitHub - mayooear/private-chatbot-mpt30b-langchain: https://github.com/mayooear/private-chatbot-mpt30b-langchain

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多