UC头条：低成本开源聊天机器人Vicuna：可达到ChatGPT/Bard 90%以上水平

丝广里 2023-04-14 发布于湖南

展开全文

出品|开源中国

大型语言模型(LLM)的快速发展彻底改变了聊天机器人系统，从而实现了前所未有的智能水平，譬如OpenAI的ChatGPT。但ChatGPT的训练和架构细节仍不清楚，阻碍了该领域的研究和开源创新。受MetaLLaMA和StanfordAlpaca项目的启发，来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员，共同推出了一个Vicuna-13B开源聊天机器人，由增强的数据集和易于使用、可扩展的基础设施支持。

根据介绍，通过根据从ShareGPT.com(一个用户可以分享他们的ChatGPT对话的网站)收集的用户共享对话微调LLaMA基础模型，Vicuna-13B与StanfordAlpaca等其他开源模型相比展示了具有竞争力的性能。

以GPT-4为评判标准的初步评估显示，Vicuna-13B达到了OpenAIChatGPT和GoogleBard90%以上的质量，同时在90%以上的情况下超过了LLaMA和StanfordAlpaca等其他模型的表现。训练Vicuna-13B成本约为300美元。训练和服务代码，以及在线演示都是公开的，可用于非商业用途。

点击加载图片

为了确保数据质量，Vicuna团队将HTML转换回markdown并过滤掉一些不合适或低质量的样本。以及将冗长的对话分成更小的部分，以适应模型的最大上下文长度。其训练方法建立在StanfordAlpaca的基础上，并进行了以下改进：

内存优化：为了使Vicuna能够理解长上下文，开发团队将最大上下文长度从Alpaca中的512扩展到2048，大大增加了GPU内存需求。通过利用utilizinggradientcheckpointing和flashattention来解决内存压力。

多轮对话：调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出计算微调损失。

通过Spot实例降低成本：40倍大的数据集和4倍的训练序列长度对训练费用提出了相当大的挑战。Vicuna团队使用SkyPilotmanagedspot来降低成本，方法是利用更便宜的spot实例以及自动恢复抢占和自动区域切换。该解决方案将7B模型的训练成本从500美元削减至140美元左右，将13B模型的训练成本从1000美元左右削减至300美元。

Vicuna团队构建了一个服务系统，该系统能够使用分布式workers为多个模型提供服务；它支持来自本地集群和云的GPUworker的灵活插件。通过利用SkyPilot中的容错控制器和managedspot功能，该服务系统可以很好地与来自多个云的更便宜的spot实例一起工作，以降低服务成本。它目前是一个轻量级的实现，未来将努力将集成更多的最新研究成果。

具体来说，开发团队首先从ShareGPT.com收集了大约7万个对话，然后增强了Alpaca提供的训练脚本，以更好地处理多轮对话和长序列；训练在一天内在8个A100GPU上使用PyTorchFSDP完成。为了提供演示服务，他们还实现了一个轻量级的分布式服务系统。通过创建一组80个不同的问题并利用GPT-4来判断模型输出，对模型质量进行了初步评估。为了比较两个不同的模型，团队成员将每个模型的输出组合成每个问题的单个提示。然后将提示发送到GPT-4，GPT-4评估哪个模型提供更好的响应。

点击加载图片

LLaMA、Alpaca、ChatGPT和Vicuna的详细对比如下：

点击加载图片

Vicun团队展示了Alpaca和Vicuna对基准问题的回答示例。在使用70K用户共享的ChatGPT对话对Vicuna进行微调后，其发现与Alpaca相比，Vicuna能够生成更详细、结构更合理的答案，并且质量与ChatGPT相当。

例如，在要求“撰写一篇引人入胜的旅游博文，介绍最近的夏威夷之行，突出文化体验和必去的景点”时，GPT-4的评价得分为：Alpaca-13b7/10，Vicuna-13b10/10。并阐述理由称，Alpaca提供了旅行博文的简要概述，但没有按照要求实际撰写博文，导致得分较低。Vicuna-13b则就最近的夏威夷之行撰写了一篇详细而有吸引力的旅游博文，强调了文化体验和必看的景点，完全满足了用户的要求，因此获得了较高的分数。

与此同时，Vicun的初步发现表明，在比较聊天机器人的答案时，GPT-4可以产生高度一致的等级和详细的评估。下图中总结的基于GPT-4的初步评估显示，Vicuna达到了Bard/ChatGPT的90%能力。不过总的来说，为聊天机器人建立一个评估系统仍是一个需要进一步研究的开放式问题。

点击加载图片

Vicun团队提出了一个基于GPT-4的评估框架来自动评估聊天机器人的性能。设计了八个问题类别，以测试聊天机器人性能的各个方面。并基于每个类别选择十个问题，分别由LLaMA、Alpaca、ChatGPT、Bard和Vicuna生成答案，然后要求GPT-4根据有用性、相关性、准确性和细节来评估答案质量。结果发现GPT-4不仅可以产生相对一致的分数，而且可以详细解释为什么给出这样的分数（详细示例链接）。但在判断编码/数学任务方面，GPT-4则不太擅长。