分享

10倍提效,每天100篇,如何使用AI提取arXiv论文知识?

 Mixlab交叉学科 2024-03-16 发布于上海

arXiv

arXiv是国际上最有影响力的论文预发平台,在arXiv发表论文,已经成为科研圈的“潜规则”。arXiv创建于1991年,论文主要是理工科论文,包括数学、物理、计算机、统计、金融等领域。

目前收录论文数量已达200万篇。研究人员每个月会向arXiv提交约8000篇论文,平均每天提交250余篇。

arXiv每天更新量级已经不是普通人可以追更的体量了。

提到大量的信息,肯定有读者会想到用LLM来处理论文。

假设每天我们需要处理100篇英文论文,那需要消耗多少Token呢?需要消耗5百万Token,费用大约在1.25 ~ 600美元(不同模型价格不一样)。

计算逻辑:
假设一篇文档大概需要消耗4000Token(约等于3k单词),LLM每一轮输出消耗400 Token(输出约300字),那么10轮交互下来最少需要消耗5W Token。(每次交互都会把上下文输入LLM)。20篇需要消耗100W Token,如果是每天100篇,需要消耗500w Token。


不同模型的定价:
gpt-3.5-turbo-instruct
每百万Token 输入价1.5美元、输出价2美元。
gpt-4-32k
每百万Token 输入价60美元、输出价120美元。
claude opus
每百万Token 输入15美元、输出75美元
claude Haiku
每百万Token 输入0.25美元、输出1.25美元

100篇论文需要消耗1.25 ~ 600美元。

有没有更为经济(省钱)的方式?

使用本地的LLM,进行批量化处理,可以节省Token开支。

MixCopilot 提供了本地化解决方案,下载lm studio和通义千问-7B(Qwen-7B)模型,启动本地LLM服务,在MixCopilot接入后使用。

参考教程:

如何在个人电脑上使用千问大模型[教程]

如何使用谷歌的gemma新模型?

论文解读

使用MixCopilot最新功能,配置Arxiv论文、一键启动、使用本地LLM加工处理。

处理效率:128篇16分钟完成。

论文的知识加工

除了使用本地LLM来加工处理论文,还可以把pdf论文转为html。

为什么要转为html?

由于arXiv上的论文都是pdf格式,对视障人士的阅读产生不便。在去年12月,arXiv开始提供HTML格式的论文版本,HTML 格式的论文可以通过屏幕阅读器和其他技术更轻松、更准确地阅读,这可以帮助有阅读障碍(包括失明、视力低下等)的研究人员。

arXiv上的html服务 ar5iv.org
blog.arxiv.org/2023/12/21/accessibility-update-arxiv-now-offers-papers-in-html-format

有了html版本,我们就可以轻松地使用LLM来进行信息处理。

把论文的url在MixCopilot打开,右键调用chatbot,支持2种格式,pdf和html 。

( html有个好处就是可以直接拷贝图片 )

加工论文,转为markdown格式,生产内容,编辑后导出为pdf。


论文的可信度

由于arXiv平台并没有纠正科学性错误的义务。这意味着,我们在阅读arXiv论文时,需要有足够的甄别能力,对一些存在明显科学性错误的论文应该能够鉴别。

我们可以从哪些方面得到论文的可信度?

作者、著名期刊收录、搜索引擎


在知识库,可以点击作者直接调用搜索引擎,方便甄别信息。


通过chatbot总结搜索引擎的结果。我们还可以把这个prompt,制作成一个角色。

通过编辑器制作角色-搜索引擎助手,完成信息汇总,保留索引的角色设定,直接在chatbot种通过角色即可一键调用。

最佳实践

作为研究人员,你可以使用此方法制作技术趋势报告。

如果你是知识博主,你可以提供更为系统的论文解读给你的读者们。

如果你正在学习,你可以通过MixCopilot的帮助,高效率地完成最新论文的追踪和阅读。


入群交流


入群备注:MC

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多