GPT-4，文心一言之类的大语言模型适合档案系统吗？

细雨青衫 2023-05-19 发布于重庆

展开全文

大语言模型（LLM）掀起新一轮AI热潮

LLM带来AI开发新范式

LLM是否适合档案领域？

结语

PART 01

✦

大语言模型（LLM）

✦

掀起新一轮AI热潮

自去年11月Open AI发布ChatGPT以来，掀起了全球网民的狂欢浪潮，百度也紧随其后推出了“文心一言”新一代知识增强大语言模型（Large Language Model，LLM），这类模型能够与人对话互动，回答问题，协助创作，火速成为了人们关注的焦点。随后Open AI正式开放了GPT-3.5的API，企业可以付费接入，成本极低。如今，国内各家企业/机构的AI大模型也如同雨后春笋般纷纷问世。

GPT系列是Open AI为聊天机器人ChatGPT发布的大型语言模型，GPT的全称是Generative Pre-Trained Transformer，可以理解为：通过Transformer为基础模型，使用预训练技术得到通用的大型语言模型。免费的ChatGPT应用了GPT-3.5，最新付费版的ChatGPT Plus则应用了GPT-4。GPT-4是一个多模态模型，具有更强大的泛化能力和生成能力，可以更准确地解决用户难题。

PART 02

✦

大语言模型（LLM）

✦

带来AI开发新范式

LLM的出现，提供了强大、智能的交互方式，ChatGPT的问世也让文本生成展现出了作为生产力工具的潜质。可以说，以ChatGPT为代表的基于Prompt范式的LLM取得了巨大的成功，同时模型背后的指导训练方式——指示学习（Instruction Learning）和人工反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）也引起了广泛的关注。

从技术角度来看，LLM发端于自然语言处理（Natural Language Processing，NLP）领域，以谷歌的BERT、OpenAI的GPT和百度文心大模型为代表，参数规模逐步提升至百亿、千亿、万亿，同时用于训练的数据量级也显著提升，带来了模型能力的提高。而无论从学术研究角度看，还是从工业应用角度来看，LLM都代表了NLP领域的一个技术飞跃，带来了整个领域研究范式的转换，预计LLM的使用也会越来越流行。

※ 训练大模型“预训练精调”模式（来源：IDC&百度）

PART 03

✦

大语言模型（LLM）

✦

是否适合档案领域？

随着数字化转型需求不断增长，AI技术在政府和企业中的应用也越来越多，AI开发门槛高、应用场景复杂多样、对场景数据标注依赖等问题成为AI规模化落地的挑战，而LLM的出现则为AI带来了新的机遇与希望。一般认为，LLM作为政府和企业推进人工智能产业发展的重要抓手，在识别、理解、决策、生成等AI任务的泛化性、通用性、迁移性方面都表现出显著优势和巨大潜力。

显而易见，LLM对AI 档案应用系统的开发以及档案部门未来信息化的发展提供了一种新的思路，或引发革命性的变化。如果能够将LLM接入档案管理系统，可以实现文件自动分类归档、关键词提取、摘要生成、文本分析挖掘或者自动化处理优化，在功能上可体现为：文本摘要、档案分类、审核开放、智能搜索、辅助编研、关联推荐、知识图谱甚至是档案知识问答等AI 档案应用。

但是理想很丰满，现实可能很骨感，LLM能否在档案信息化领域实现应用落地才是当下首先需要思考的问题。GPT-4、文心大模型以及其他LLM当然可以用于自然语言处理和文本生成任务，但是它们并不是专门为档案信息化系统设计的工具，需要深入考虑档案业务需求以及行业应用的限制。

a. 我们需要一个LLM来完成什么任务？

b. GPT-4或其他LLM是否能够满足档案管理系统的需求？

c. 信息系统是否能够支持LLM的运行？

d. 局域网、政务网环境对LLM的限制因素有哪些？

e. 接入LLM，如何保证档案信息安全？

……

事实上，任何一个成功的AI应用离不开数据（Data）、算法（Algorithms）、算力（Computing power）与场景（Business scenario）的支持，被称为ABCD四要素。这四要素不断迭代并相互协作，在核心技术发展以及应用落地中起着至关重要的作用。如果将AI应用比喻成一辆汽车的话，数据相当于是汽油，算法相当于是引擎，算力相当于是车轮，应用场景相当于是方向盘。

在四要素中，大量的数据集、优秀的算法架构以及强大的计算资源是LLM实现的必要条件，业务场景则是LLM展示功力的舞台。而将LLM应用到档案信息化领域时，可能存在着数据量不足、计算资源有限、应用场景单一以及如何保证数据安全等问题。经过对各要素进行分析之后，笔者认为，现阶段将LLM应用到档案信息化系统中仍存在较大的局限性，分别从以下四个方面进行分析：

1、隐私和安全

由于LLM需要处理大量的数据，必然需要采取相应的隐私保护和安全防护措施，以确保档案数据和档案信息的安全。采用接口调用的方式也许适合互联网其他行业（能源、金融、制造、传媒等）应用LLM，然而档案系统的部署和使用大都在局域网或者政务网，由于档案数据的敏感性，安全和合规是首要问题，调用API的前提是信息安全要保证、数据权责要明确，政策制度要完善，数据使用要规范，因此直接接入外部LLM的方式并不适合档案系统。下面主要考虑自主研发部署LLM的情况。

2、计算资源和存储空间

通常LLM规模非常巨大，需要更多的计算资源和存储空间来支撑其庞大的模型数据和复杂的训练算法。对于档案部门而言就需要相应地配置大量计算资源和存储设备，但实际情况是很难满足支撑LLM算法和算力所需的基础条件。现阶段有能力制作或改动LLM的机构极少，即使目前GPT-3.5模型已经开源，绝大部分档案馆（室）也无力部署这种大模型，更别提修改模型参数。

3、训练和优化

LLM需要不断进行训练和优化，才能增强AI的通用性、泛化性，达到模型最佳应用效果。这不仅要消耗密集和昂贵的算力等资源，对算法本身也提出了极高的要求，且需要不断地更新模型以适应新的数据和需求，从而增加了系统开发和维护的成本和复杂性，整个过程需要耗费大量的时间和人力成本，显然不是档案部门所能承受的。档案部门所能提供的档案数据量也难以满足LLM模型百亿、千亿、万亿的参数训练需求，这将导致模型的训练和优化被限制，难以保证模型的精度和速度。

4、档案业务场景应用

应用场景是AI技术最终落地的地方。LLM本质上是“All in One”这种适用于多种业务场景的通用型模型。假设将LLM“杀鸡用牛刀”地应用在档案系统中，要求实现快速文本处理和查询响应，那么LLM可能还不如普通的档案检索系统快，反而会降低档案系统运行效率。而且档案领域的业务场景相对单一，所需的应该是“私人订制”模式，而不是通用型模型。例如要对档案中的文本进行自动分类或信息提取，那么一个专门为此任务设计的模型就会更适合，可以考虑使用自然语言处理库，如NLTK和Spacy来实现这些功能。

PART 04

✦

结语

✦

GPT-4或者“文心一言”这一类的LLM无法准确回答出档案领域“独有”问题的现象，可以理解为是缺乏该领域足够多的专业知识以及“经验”，只要喂给LLM模型足够多的档案知识数据，并让它自己学习训练，也许在不远的将来，GPT-4可以成为专业的档案咨询。况且，LLM也不该被“某单一领域内的应用”思维所束缚，强大的通用AI应用才是LLM研究的方向。

综上所述，笔者认为，为了能更好地实现AI 档案应用，可以使用开源框架、自建数据库、购买算力的方式为档案系统进行AI功能定制，在选择更为合适的数据、模型结构、训练方法的情况下，只需要更小规模的模型，使用一些轻量级的NLP技术来实现更好的应用效果。

最后，我们来问一下ChatGPT对于“GPT-4，文心一言之类的大语言模型适合档案系统吗？”这一问题的看法。

关于ChatGPT的上述回答是否合理留给读者自己来评判，欢迎在留言区评论。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！