“AI ”热潮之下，档案行业的冷静思考

细雨青衫 2023-05-26 发布于重庆

展开全文

'AI '的热潮之下，

各行业都应先冷静思考。

AI 档案的头脑风暴！

万众期待的回放

及大咖们的访谈详细记录，

来了！！！

直播回放

提问

Questions

解答

Answers

主持人

首先让我们来问问赵教授，今年目前最火的技术话题就是ChatGPT了，请赵教授来给我们科普一下，它的本质是什么，它可以用到哪些行业解决哪些需求，目前国内跟进较快的如百度的文心一言、复旦的moss发展得如何，与国外最新的GPT-4有哪些差距，这项技术的前景如何？

赵教授

我简要地给大家回顾一下ChatGPT的发展。ChatGPT是一种复杂的技术组合，后台有强大的服务器和几十种模型。它的历史并不长，源于2018年出现的BERT模型（基于Transformer模型），然后在BERT基础上，OpenAI、谷歌等多家公司和研究机构不断地完善模型结构，扩展模型的参数数量（目前千亿级别）。ChatGPT主要用于处理文本和自然语言，最擅长的是问答，适用于智能客服、搜索和知识检索等领域，这与它的起源实际上是密切相关的，因为它最初的模型主要是用问答库来训练。国内的百度文心、包括GPT以及它的对手谷歌的Bard等模型，训练使用的语料库还主要是问答数据、开放的知识库、电商的数据和搜索日志等数据。这些数据都有统一的特点：文本数据为主，时序的数据也比较多。目前的ChatGPT模型主体是3.0-4.0版本，虽然这些模型还没有达到人脑的复杂性，但是随着5.0等版本的推出，可能会逐渐接近人脑参数的水平。

再看一看国内外的对比，虽然ChatGPT发布较早，但现在大部分的机器学习底层模型都是开源的，这些模型大家可以到一些开源平台（如Github）上下载。国内的大企业（百度、腾讯、阿里、华为，还有科大讯飞等）可以利用这些算法（并做了一定的改进）和自己的数据、算力来训练具有一定性能的问答模型。在中文处理方面，国内具有一定的优势，因为中文数据库和知识库在积累上有本地化的优势。相比之下，在其他语种方面，国内的模型可能还需要加把劲，但只要训练好中文版的模型，就可以先服务本地客户，未来可以扩展到其他语种。

现在国内的模型，不管是百度的。还是上述几家公司的模型，包括复旦的moss，实际上功能上都是做了扩展（尽管模型的规模还较小，百亿参数级别）。国内的这几家公司模型的性能在某些方面可以与ChatGPT模型对标。ChatGPT模型的用途包括它可以帮助人们检索资料、总结、加工资料和模仿人的思维过程（思维链）进行会话更新，可以处理文本、做逻辑推理和数学运算等任务，对一些文字处理工作非常有效。然而，该模型的局限性在于它还不能很好地处理多态数据，如声音、视频和文本的混合数据。另外，该模型需要大量用户使用以通过强化学习机制修正知识。在搜索和办公领域中，ChatGPT主要用于文本加工，因此容易应用。ChatGPT对作诗、作曲、写作文、写程序也非常擅长，因为它们的处理对象都与文本有关系。由于档案管理也涉及文本处理，因此该模型在该领域也可能有很好的应用前景。

主持人

感谢赵教授的严谨分享，那么让我们来问问杨博士，我看到前面您发的文章中有讲到成功的AI应用离不开ABCD四要素，您能再给大家解释一下吗？

杨博士

任何一个成功的AI应用离不开算法（Algorithms）、算力（Computing power）、数据（Data）与场景（Business scenario）的支持，被称为ABCD四要素。这四要素不断迭代并相互作用，在核心技术发展以及应用落地中起着至关重要的作用。如果将AI应用比喻成一辆汽车的话，数据相当于是汽油，算法相当于是引擎，算力相当于是车轮，应用场景相当于是方向盘。

在四要素中，大量的数据集、优秀的算法模型以及强大的计算资源是AI实现的基础和必要条件，而业务场景则是AI展示功力的舞台。技术必须和业务结合才能发挥其价值，真正做到AI 的落地。

主持人

关于AI的四要素，杨博士已经再次诠释的比较清晰了，那么我们来问问陈总，这项技术用在档案行业中，有哪些合适的场景，以及有什么落地的困难呢？

陈总

首先大家可能最容易想到的就是资源建设和利用服务层面，比如资源建设层面的文字、图像和语音识别，国内外都有很多专业厂商一直迭代这方面的技术。在利用层面，基于NLP、知识图谱和通用推荐算法的档案智慧检索相关的应用，还有现在常见的智能应答机器人客服等，这些在互联网应用中都已是比较成熟的技术。当然AI技术在档案全生命周期管理中都可以尝试应用，比如收集阶段可以进行自动分类、自动归档；在鉴定和编研业务中，可以借助类GPT-AI的强大学习能力，提升模型的特征处理能力，从而改进现有业务等等。但是现在想实现AI技术在档案系统中落地，存在以下几点困难：

1.智能性不够

现阶段AI的智能性还不够，即使强如GPT，也会出现结果与事实不符的情况，可能还不如直接进行全文搜索更加准确。而且人类是可以欺骗AI的，大家看到网上不少调戏ChatGPT的例子，在GPT-4之后会好很多，但是人类的创造性暂时还是无法体现在AI中，也就是我总有办法找到BUG来欺骗AI。

2.通用算法模型无法套用

流行的通用算法模型，无法直接套用到档案环境中，拿大语言模型LLM来说，就需要人工提供样本或机器编写较高质量的语料，这部分工作在落地过程中，会耗费相当大的人工工作量。那么谁来做，如何做也是需要大量成本去解决的问题。但如果不针对档案内容或者具体的档案业务经验来进行算法调优，直接套用通用模型的结果很可能惨不忍睹。

3.网络环境安全问题

网络环境的安全问题，大部分AI技术都是基于互联网的海量数据和云平台的强大算力，但档案部门的核心数据大多是无法在互联网环境中应用的。在内部网络私有化部署的过程中，就会遇到硬件条件不足的问题，很多单位现在都不会有GPU，而一般模型越大，其需要的算力就越大，成本也就越高。无论是模型的准确度还是计算能力，内网环境部署的AI能力还是无法与互联网头部企业提供的相比。

主持人

好的，感谢陈总的分享，确实我们可以看到大部分的AI技术都是基于互联网，那么在符合我国档案管理要求的网络环境中，赵教授有没有一些可以用的成熟AI技术？

赵教授

把这些基本算法应用起来以后，我觉得在档案管理里面应该有更多的应用，我可以做一个大胆的前瞻展望（尽管这需要一段时间的发展）。

AI技术可以帮助人们创建一个无人档案馆，将区块链和元宇宙技术结合起来，让档案变成一个所谓的“活档案”，通过各种历史资料的搜索、整合、加工，以供人们全面地去了解历史。利用AI技术，不仅可以把历史的录音、录像、图片等进行清晰化修复，也可以把静态照片变成动态。未来的档案管理可以利用数字人技术，人们可以和历史人物进行对话，利用人工智能来模仿人的声音特征和动作，让档案活起来。

主持人

感谢赵教授的讲解，我们近年来可以看到，越来越多的智能技术已经应用在了档案系统中，我注意到，刚刚杨博士也提到了AI 档案的八大应用场景中，把档案开放审核放在了第一位，这个是刻意而为之吗？

杨博士

确实是的。近年来，档案开放工作越来越受到重视。《“十四五”全国档案事业发展规划》中指出：“建立健全机关、企业事业单位档案开放审核建议机制以及各级国家档案馆馆藏档案解密和开放审核有关制度，实现档案开放审核工作法治化、规范化、常态化”。去年年底发布的国家档案局第19号令《国家档案馆档案开放办法》更是要求：“自形成之日起满二十五年的国家档案馆的档案，经开放审核后无需限制利用的应当及时向社会开放。经济、教育、科技、文化等类档案，经开放审核后可以提前向社会开放”。但同时，档案开放审核工作量巨大、责任重大、效率低下，远远跟不上时代的要求和社会的需求，这正是AI技术可以发挥作用的合适应用场景。

我们把AI 开放审核放在AI 档案八大应用场景的第一位确实是为了突出这项工作的刚需性和紧迫性，同时也看好其市场前景，但并不是说其他应用场景不重要。

主持人

那接下去我们就要来问问产业界的代表陈总了，关于AI 档案开放审核的研究，目前进展到什么程度了？

陈总

AI 档案开放审核作为我们AI 档案应用场景落地的重要突破口，目前研发已经取得阶段性成果，并在几家档案馆进行了私有化部署。当然，其中的过程并非一帆风顺，有技术问题也有业务难点，我在前两天的文中已经提过，就不再这里长篇大论了，详细参见本公众号文章《AI 档案应用功能开发的实践历程》。总之经过实际数据的训练和调优，可以说初步实现了成长型AI在档案开放审核场景中的应用。但这离我们的最终目标还有很长一段距离，我们将持续投入研发，将相关技术逐步应用到AI 档案所有的应用场景中去。这里我们也是抛砖引玉，希望有更多高端人才和组织能参与到档案信息化建设中来，去提高整个行业的技术和业务水平，甚至可以尝试一些颠覆性的改变。

主持人

谢谢陈总，听您这么一说，我确实觉得您对AI在档案中的应用有着自己的见解，所以这回我想把话筒给到杨博士，我记得去年您发过一篇AI的文章，叫《为什么看上去很简单的智慧功能点要价上千万？》，文章的观点似乎对于AI 档案的应用前景持悲观的看法。是不是这样呢？

杨博士

“悲观”这个词不太确切，应该是“谨慎的乐观”。我们首先来说“乐观”，AI技术的发展太快了，如果说前面60年（2016年之前）的发展还属于起起伏伏、不温不火，2016年随着深度学习技术投入实际应用迎来爆发，到去年年底ChatGPT横空出世，甚至让AI可以像人一样思考，初步具备意识能力。同时AI的应用场景也越来越多，逐步走入老百姓的日常生活，比如随处可见的人脸识别、翻译助手、服务机器人等。今天给大家介绍的AI 档案的八大应用场景也都不再停留在理论探讨阶段，至少已经进入PoC测试或者试点应用阶段。那为什么又是“谨慎”呢？这主要取决于成本因素，就像《为什么看上去很简单的智慧功能点要价上千万？》中所说：“作为一个相对小众和偏门的行业，现阶段AI 档案只能在一些大众化、通用化的场景中先进行应用，这样实施成本会低很多，比如人脸识别、语音识别等。客观地讲，要在专业领域中定制AI功能满足特定需求，代价太大，尚需时日” 。

主持人

感谢杨博士的讲解，听了您的观点后，我知道了大咖们对AI技术以及AI 场景都有着不一样的想法和看法，这让我想到之前看到有友商宣传上写着“0样本”的机器学习，请问赵教授这真的可以实现吗？

赵教授

零样本学习是目前学术界的一个难题，需要大量研究。零样本学习与经典的深度学习存在不同。与深度学习主流的数据密集型训练不同，零样本学习契合了人类学习的方式，不需要大量数据和计算。

零样本可以看成少样本或者说One shot，就是单样本学习的一个特例，少到不需要一个“样本”。零样本学习是指在没有样本标注的情况下，通过利用已有的相关知识迁移来识别和学习新类别特征的方法。迁移学习是一种解决零样本学习的方法，它利用已有的知识和经验来帮助学习新知识。人类的学习方式就包括零样本学习，因为人类可以快速地从已有的知识和经验中迁移学习到新的知识。

举例说明，计算机编程的经验迁移，即不同领域中的相似语言和算法可以迁移应用。再比如机器翻译领域，可以借助辅助样本，通过零样本学习算法将不同语言间的规则进行转换。以从一种语言到另一种语言的翻译为例，通常需要通过大量语料训练才能得到从一种语言到另一种语言的翻译模型。假设A语言翻译成B语言的模型，需要大量语料训练（输入A，输出B），训练B语言到C语言也同样采用类似方式。而对于两种没有直接关联的语言，比如从A语言到C语言，虽然不能直接使用之前训练好的模型，但是通过迁移学习，也可以实现从A语言到C语言的转换。零样本学习的关键在于掌握不同语言之间的映射规则，可以通过已有的经验，间接地学会如何进行不同语言之间的映射。

深度学习对于大模型来说很有用，因为大模型对数据要求高。但对于只有少量数据的领域来说（如：档案领域某个档案馆、档案室、企业），零样本学习或者小样本学习就有一定的用途。

陈总补充

所谓的0样本，我觉得可以通俗的理解为：只是使用了通用模型或者基于规则的简单模型。赵教授建议的少样本训练，我们在档案领域已经初步实现了，目前我们用1000份样本就可以实现较为真实的机器学习结果了。这里的学习分成2个层次：

1. 模型迁移学习，构造档案问答训练语料，这些工作正在由人工机器辅助进行中。

2. 基于大语言模型进行应用开发，由其学习现有的档案，学习之后就可以建立本地化的模型特征，然后进行特征匹配，实现检索问答。这部分工作并不需要海量的样本，有多少就可以学习多少。

主持人

感谢两位大咖的解惑。还有一个问题，我们知道和“AI 档案”类似的还有一个概念是“智慧档案”，杨博士能帮我解惑来回答下这两者之间的区别是什么吗？

杨博士

“AI 档案”即AI技术在档案领域的应用，可以理解为微观实操层面。着重强调的是AI功能在档案应用场景中的落地，具体体现在若干档案功能点的AI智能化，比如本次直播讲解的AI 档案的八大应用场景。

“智慧档案”概念很大，目前尚没有得到普遍认可的定义，可以理解为宏观架构层面。国家档案局丁德胜副司长在去年的电子文件管理论坛中曾经对智慧档案下过一个定义：“是依托大数据、物联网、云计算、人工智能、5G等信息技术，以智慧档案馆室和各行业智慧应用为载体，以高价值数据汇聚、治理与应用为关键，以实现高效便捷、立体多元、智慧精准的服务为目标，围绕新形态下档案存凭、留史、资政、育人功能，实现全流程网上办理、全要素数据治理、全方位智能服务、全领域智慧支撑的档案工作组织、建设、运行和管理新模式”。这个概念已经远远超出AI的范畴，将当前最新的信息技术都融入其中，关于智慧档案的整体框架可参考丁司长的文章：《智慧档案馆室的定位、构成要件（6S）与建设指引》或者本公众号文章《智慧档案馆功能框架剖析》。

粉丝

AI模型的训练数据需要做哪些预加工么？

赵教授

问答式数据和搜索引擎日志数据是AI模型训练中的重要数据来源。预处理包括分词、词性识别、去噪声、冲突检测、编码等，这些工作可以使用自然语言的算法让机器自动完成。AI模型在训练过程中需要不断优化，包括通过强化学习让用户反馈答案的满意度（多轮对话），以便修正回答中的不足。总之，这是一个迭代的过程，通过反馈数据不断地修正，AI模型就可以逐步提高性能。

在训练过程中，只有与用户交互才能知道数据是否充足。修正和补充数据可以训练更好的模型，因为模型的主要根基是数据。

AI 档案的话题

至此告一段落，

直播间已经结束，

而思考并不止步，

数字罗塞塔计划欢迎

更多的想法和技术的交流探讨。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！