搜索

分享

QQ空间 QQ好友新浪微博微信

一个专门为GPT设计的爬虫脚本

风声之家 2024-02-08 发布于江苏

展开全文

原文地址

原创高治中心一信息 2023-12-12 19:33 山东

在GPT的时代，你或许已经很熟悉创建个人知识库。但是对于网上的各种知识，一点一点复制粘贴也很麻烦。这个时候，一个专门为GPT设计的爬虫脚本就显得非常方便。它可以轻松爬取一个网站上的所有内容，把它存到一个文件里，然后上传到GPT问答机器人，30秒就能完成。以下教程默认为在GitHub上有部署的经验基础，搭建好了Node和Git环境。这篇文章简单介绍如何复刻Github上的项目：如何复刻github的项目和共享自己的项目 | 高治中的个人空间 (x521.top)

今天要介绍的软件就是GPT crawler：GitHub – BuilderIO/gpt-crawler：抓取网站以生成知识文件，以便从 URL 创建自己的自定义 GPT，它的使用非常简单，也是开源免费的。在安装之前，需要确认电脑已经安装Node和Git。打开terminal，检查note和git的版本，如果版本过低或显示软件未安装，可以通过home brew进行安装。

安装GPT Crawler的步骤如下:

1. 在Github项目页面clone项目代码

2. CD进入项目目录，运行npm i安装Node依赖

3. 打开VS Code，找到config.ts文件，设置要爬取的网站URL

4. 设置要爬取的最大网页数量，保存文件

5. 命令行中运行npm start爬取网站

6. 等待爬取完成，项目目录下生成output.json文件

output.json就是我们的知识库了，比手动一个个页面复制要快得多，而且都有标题和链接方便查找。

同样的，我们也可以在Docker上部署。这是Docker上的readme：gpt-crawler/containerapp/README.md at main · BuilderIO/gpt-crawler · GitHub

最后，我们来创建GPT问答机器人，可以参考这篇costomGPT：如何在ChatGPT上创建customGPT | 高治中的个人空间 (x521.top)，利用output.json构建知识库:

1. 在ChatGPT创建新GPT，上传output.json文件

2. 进行知识库索引，然后就可以开始问答了

3. 同样可以在Assistant页面创建助手，添加output.json文件

4. 测试助手，可以看到它从文件中检索知识回答问题

这样我们就轻松利用爬虫获取知识，并快速创建了专属GPT问答机器人。不需要一点一点手动整理知识，非常方便高效。

相比其他爬虫，GPT Crawler更加轻量和易用，直接生成GPT可用的JSON文件。它可以帮助我们访问更多互联网信息，实现个性化问答服务。在知识爆炸的时代，这样的工具无疑大大提高我们的知识获取效率。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：风声之家 > 《python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

风声之家

关注对话

TA的最新馆藏

纯素：《西红柿香菇酱》、《简易韩国辣酱》
对方欠钱不还？四个不管！帮你拿回欠款！
白术，只用一味中药泡水喝，能解决很多脾胃病
辅行诀】透视经方配伍规矩，经方是可以用数学公式表达出来的
酸枣仁太贵了，这个药可以代替：理枣仁
国内首个白辣椒杂交种，连续8年获主推，亩产值3万元以上！

喜欢该文的人也喜欢更多

热门阅读换一换