硬挑70B模型！上海AI Lab发布：InternLM-20B，将对大模型生态带来哪些影响？

天承办公室 2023-09-24

展开全文

更多干货，第一时间送达

引言

这两天，上海人工智能实验室(上海AI实验室)正式推出了书生·浦语大模型（InternLM-20B）200亿参数版本，网传可以挑战70B的模型，对国内大模型生态产生了一定的影响。今天借个这个话题，从大模型爆火、开源、商业许可的发展，聊一下自己的看法，也测试一下该模型的效果到底怎么样？有说错的地方欢迎指正批评。Github地址：https://github.com/InternLM/InternLM

从ChatGPT到开源

自去年年底ChatGPT爆火之后，逐渐的各大公司、研究机构都进入了研究大模型的开发研究工作，都希望能够研发出自己的模型，并在希望在未来商业竞争中展现出自己的能力。在此过程中，一向特别Open的OpenAI也不再Open，对于ChatGPT的实现细节也不再纰漏。为此，研究人员们为了能够打破这种限制，逐渐开源对大模型的研究成果并开放社区讨论，以供各研究人员进行心得交流。

从今年春节过后可以发现，各大公司、研究机构百花齐放，几乎每周都能有几个大模型发布，有以神兽命名的大模型，例如：白泽、凤凰、獬豸等；有以上古人物命名的大模型，例如：盘古、夸父、轩辕等；有以中国历史任务命名的大模型，例如：孟子、曹植、扁鹊、华佗等模型；有以古词新用进行命名的大模型，例如：星火、文心一言、书生.浦语、贞仪等模型；有以道家关键词命名的大模型，例如：八卦炉、乾元、天书；等等等等，总之今年的大模型呈井喷式的发展。

从开源到商业许可

今年7月份之前，人们对于大模型的开源许可基本上都是仅限于学术研究，并不能实际应用到商业应用。但是不按常理出牌的Meta在今年7月份发布了首个开源的、可商用的大模型LIama2，秒杀许多开源语言模型，在推理、编码、能力和知识测试上取得了SOTA。对于AI大模型圈来说，可谓是一夜之间就变了天。这标志着大模型的研究进入了开源、可商用的时代。

紧跟着，清华发布了ChatGLM的第二个版本ChatGLM2-6B，开源且支持免费商用；8月份阿里云宣布开源通义千问70亿参数模型，其中包括通用模型Qwen-7B和对话模型Qwen-7B-Chat，并且这两款模型已经上线魔搭社区，开源、免费、可商用；就在昨天，「上海人工智能实验室(上海AI实验室)」 与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型（InternLM）200亿参数版本InternLM-20B，同时也在「魔搭社区」（ModelScope）开源首发。

「上海人工智能实验室(上海AI实验室)」 是我国人工智能领域的新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，突破人工智能的重要基础理论和关键核心技术，打造“突破型、引领型、平台型”一体化的大型综合性研究基地，支撑我国人工智能产业实现跨越式发展，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

「魔塔社区」 是阿里云牵头建设的AI模型开源社区，现为国内AI模型开源第一门户。2022年11月云栖大会，阿里云联手CCF开源发展委员会共同推出AI模型社区魔搭ModelScope，旨在降低AI的应用门槛，推动中国AI模型生态建设。它目前已经集聚1000多个AI开源模型、200多万AI开发者，社区模型的累计下载量突破7500万。魔搭现已成为中国规模最大、用户最活跃的AI模型社区，常被称作“中国版HuggingFace”。

InternLM-20B模型

其实，之前对书生·浦语大模型（InternLM）并不是很了解，直到最近发布之后才逐渐开始了解这个模型（之前一直都在研究chatglm）。通过开源社区：https://github.com/InternLM/InternLM 可以了解到，InternLM的最初版本是今年6月份发布的，目前已经过了多轮的迭代更新。目前支持：「InternLM-7B」和「InternLM-20B」。

先来简单的看一下「InternLM-20B」模型介绍：

在模型结构方面，相比同等参数规模的大模型，它的模型结构层数更多，已达到60层，这样可以在有限参数的条件下，提高模型的综合能力；
在模型训练方面，经过了更高质量的清洗，其中包括了中文、英文、代码等并补充了高知识密度和用于强化理解和推理能力的训练数据；
在模型对齐方面，经过SFT 和RLHF训练，更能贴合人类价值取向；
在上下文长度方面，目前支持16K的语境长度。关于上下文长度，这个好像比chatglm2少一半，但是在模型效果方面，InternLM-20B在某些测试结果上面已经远远超过了GLM-130B，比如Hellaswag、MMLU等。

下面是官网给出的一些性能对比截图。在OpenCompass提出的语言、知识、理解、推理、学科等5方面，都要高于LIama、Baichuan，甚至远远超过了65B、70B的模型。与此同时，作者还在典型数据集上，与当前主流开源模型（LIama、Baichuan、LIama2）进行了对比。具体如下图所示，可以发现其在大部分测试集上都是相对领先的。

即兴测试

按照社区给的Demo体验地址：https:///spaces/BridgeEight/internlm-20B-chat-w4-turbomind，作者分别在数学计算、语言理解、编程能力，多级逻辑推理测试了以下模型结果，这里纯粹是个人即兴测试，可能不太准确。

「数学计算」：这里采用了一个比较常规的物理知识来验证其推理计算能力，可以看出InternLM可以得到正确的结果，如下图所示：「语义理解」：为了辨别模型是否具备辨识能力，问了一下模型：“猪为什么可以上树吃苹果？”，可以发现模型在常识对齐方面也需要做进一步的努力。同样的问题，测试了文心一言、讯飞星火、chatgpt、Bard、chatglm2-6b，对比发现只有Bard和InternLM犯了辨识错误。「编程能力」：测试了模型基本的编程能力，如下图所示，生成结果符合预期。尤其在测试过程种发现，它的响应速度还是挺快的。「多级逻辑推理」：这里采用一个中等难度的，之前这个问题测试过chatgpt、newbing、Bard、claude、讯飞星火，都翻车了。这个对InternLM-20B做了测试，好像也翻车了。看来InternLM-20B模型对于多级数量推理还有优化的空间。

总结

综上，大模型的发展经历了从爆火、到开源、再到商业开源的发展历程，目前仍然处于快速发展和需求场景应用的过程。InternLM-20B在某些测试场景上，虽然也会犯与之前模型一样的错误，但是其开源可商用模型的发布，无疑是标志着中国大模型的发展更近了一步。知乎上有位大佬说，对于大模型这个方向来说，未来想要取得更进一步的发展，只有一个办法：「那就是开源、开源、还是TM的开源」。最后希望国内大模型的发展，继续乘风破浪、杨帆远航！