上海AI实验室联合南京大学推出大语言模型司法能力评估体系

天承办公室 2023-10-27 发布于北京

展开全文

近年来，大型语言模型展现出了令人惊叹的语言理解和处理能力，引起了学术界和工业界的广泛兴趣。研究者开始深入探讨这些模型是否具备解决专业领域任务的潜力，例如在医疗和司法领域提供专业的问题解答。近期，中文法律领域涌现出越来越多的司法大模型，它们具备一定的理解法律文本和解决法律问题的能力。然而，当前仍缺乏一个全面的评估标准，以定量评估这些模型的实际性能表现。

为了弥补这一领域的空白，南京大学和上海人工智能实验室联合构建了 LawBench 数据集，这一数据集旨在对中文法律问答模型作出深入、全面的评估。LawBench 包含三个关键维度，涵盖 20 个子测评项，横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同，这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力。

https://github.com/open-compass/LawBench

（文末点击阅读原文可直达，欢迎关注）

多层能力体系助力司法能力评估

LawBench 借鉴布鲁姆分类法（Bloom's Taxonomy），从记忆，理解，应用三个层次，由浅入深，逐步考察大语言模型的能力。

记忆：这一层面考察大型模型是否能够准确地记忆法律法规。正确地回忆法律法规的内容是处理复杂法律问答任务的首要前提。
理解：这一层面评估大型语言模型对法律文本内容的理解能力。具体而言，考察模型是否能够识别案件中的实体，理解实体之间的关系，辨别不同论辩观点，以及辨认并修正法律文本中的错误。
应用：最后这一层面考察大型语言模型综合运用法律知识解决真实的法律问题，如判决预测和司法咨询等问题。这个阶段将测试模型在实际法律场景中的应用能力。

通过这些不同层面的评估，LawBench 为研究人员提供一个更具挑战性和实际意义的测试框架，以全面了解大型语言模型在司法领域的表现能力。

评测模型丰富全面

借助 OpenCompass，我们深入评估了 51 种热门的大语言模型，包含 InternLM 系列、LLaMA 系列、Qwen 系列等。以及一些模型的 Base 版本和 Chat 版本，都在我们的测试范围中。根据模型训练数据的文本领域, 我们将现有的大模型分成三类: 通用多语言模型、中文优化模型，以及在法律文本上训练过的法律专精模型。三类模型在中文法律任务上他们效果如何，让我们一起来看看吧。

热门大语言模型在 LawBench 上的 20 个子项测评的平均分数排序如下：

GPT4 和 ChatGPT 仍然是目前最卓越的大语言模型，他们在绝大多数任务上都能拔得头筹。但令人惊喜的是，在法律领域，一些中文优化大型模型也很有竞争力: Qwen-7B 和 InternLM-Chat-7B-8K 等中文大型模型表现突出。而双语模型 StableBeluga2 在 LawBench 上也非常稳定, 仅次于 GPT 模型。令人感到意外的是，一些现有的法律专精大模型并没有超过通用的中文大语言模型。在法律专精的模型中，山东大学的 Fuzi-Mingcha 和北京大学的 ChatLaw-13B 得到了最好的结果。

在上图，我们展示了在 LawBench 上均分排名前六的模型在各个维度的详细结果。从结果中可以看出：虽然 GPT4/ChatGPT 在法律理解任务上有欠缺，如 GPT-4 在基于情景的识别对应法条上低于其他模型（如 Qwen-7B-Chat 模型），但在其他任务上显著优于其他模型。

深度分析助力模型能力提升

经过对这些模型的评测和分析，我们得出了以下三点主要发现。希望这些建议能为构建更优秀的法律大模型提供指导：

更大的模型能够带来性能上的提升，同时降低模型的漏答率。我们在 LLaMA 系列模型中观察到随着模型规模的增大，模型的效果有所提升，并且漏答率也有所降低。
现有的大语言模型并不能够有效地利用法条信息。简单地将法条信息拼接在输入中并不能够让模型依据相关法条内容完成刑期预测任务的性能，需要采用更加好的方法来利用额外的信息。
在司法领域数据上做微调能够提升这些模型在法律领域上的性能。现有的一些司法大语言模型在各个任务上的表现均优于他们的基础模型，这给我们带来启发，进一步完善法律领域训练数据以及优化模型微调策略，我们预期可以获得更强大的法律模型。我们期待见到能在 LawBench 上取得更高评价的大模型出现。