分享

硬挑70B模型!上海AI Lab发布:InternLM-20B,将对 大模型生态 带来哪些影响?

 天承办公室 2023-09-24

更多干货,第一时间送达

引言

 这两天,上海人工智能实验室(上海AI实验室)正式推出了书生·浦语大模型(InternLM-20B)200亿参数版本,网传可以挑战70B的模型,对国内大模型生态产生了一定的影响。今天借个这个话题,从大模型爆火、开源、商业许可的发展,聊一下自己的看法,也测试一下该模型的效果到底怎么样?有说错的地方欢迎指正批评。图片Github地址:https://github.com/InternLM/InternLM

从ChatGPT到开源

 自去年年底ChatGPT爆火之后,逐渐的各大公司、研究机构都进入了研究大模型的开发研究工作,都希望能够研发出自己的模型,并在希望在未来商业竞争中展现出自己的能力。在此过程中,一向特别Open的OpenAI也不再Open,对于ChatGPT的实现细节也不再纰漏。为此,研究人员们为了能够打破这种限制,逐渐开源对大模型的研究成果并开放社区讨论,以供各研究人员进行心得交流。

 从今年春节过后可以发现,各大公司、研究机构百花齐放,几乎每周都能有几个大模型发布,有以神兽命名的大模型,例如:白泽、凤凰、獬豸等;有以上古人物命名的大模型,例如:盘古、夸父、轩辕等;有以中国历史任务命名的大模型,例如:孟子、曹植、扁鹊、华佗等模型;有以古词新用进行命名的大模型,例如:星火、文心一言、书生.浦语、贞仪等模型;有以道家关键词命名的大模型,例如:八卦炉、乾元、天书;等等等等,总之今年的大模型呈井喷式的发展。

从开源到商业许可

 今年7月份之前,人们对于大模型的开源许可基本上都是仅限于学术研究,并不能实际应用到商业应用。但是不按常理出牌的Meta在今年7月份发布了首个开源的、可商用的大模型LIama2,秒杀许多开源语言模型,在推理、编码、能力和知识测试上取得了SOTA。对于AI大模型圈来说,可谓是一夜之间就变了天。这标志着大模型的研究进入了开源、可商用的时代。

 紧跟着,清华发布了ChatGLM的第二个版本ChatGLM2-6B,开源且支持免费商用;8月份阿里云宣布开源通义千问70亿参数模型,其中包括通用模型Qwen-7B和对话模型Qwen-7B-Chat,并且这两款模型已经上线魔搭社区,开源、免费、可商用;就在昨天,「上海人工智能实验室(上海AI实验室)」 与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,同时也在「魔搭社区」(ModelScope)开源首发。

「上海人工智能实验室(上海AI实验室)」 是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。

「魔塔社区」 是阿里云牵头建设的AI模型开源社区,现为国内AI模型开源第一门户。2022年11月云栖大会,阿里云联手CCF开源发展委员会共同推出AI模型社区魔搭ModelScope,旨在降低AI的应用门槛,推动中国AI模型生态建设。它目前已经集聚1000多个AI开源模型、200多万AI开发者,社区模型的累计下载量突破7500万。魔搭现已成为中国规模最大、用户最活跃的AI模型社区,常被称作“中国版HuggingFace”。

InternLM-20B模型

 其实,之前对书生·浦语大模型(InternLM)并不是很了解,直到最近发布之后才逐渐开始了解这个模型(之前一直都在研究chatglm)。通过开源社区:https://github.com/InternLM/InternLM 可以了解到,InternLM的最初版本是今年6月份发布的,目前已经过了多轮的迭代更新。目前支持:「InternLM-7B」「InternLM-20B」

 先来简单的看一下「InternLM-20B」模型介绍:

  • 在模型结构方面,相比同等参数规模的大模型,它的模型结构层数更多,已达到60层,这样可以在有限参数的条件下,提高模型的综合能力;
  • 在模型训练方面,经过了更高质量的清洗,其中包括了中文、英文、代码等并补充了高知识密度和用于强化理解和推理能力的训练数据;
  • 在模型对齐方面,经过SFT 和RLHF训练,更能贴合人类价值取向;
  • 在上下文长度方面,目前支持16K的语境长度。关于上下文长度,这个好像比chatglm2少一半,但是在模型效果方面,InternLM-20B在某些测试结果上面已经远远超过了GLM-130B,比如Hellaswag、MMLU等。

下面是官网给出的一些性能对比截图。在OpenCompass提出的语言、知识、理解、推理、学科等5方面,都要高于LIama、Baichuan,甚至远远超过了65B、70B的模型。图片与此同时,作者还在典型数据集上,与当前主流开源模型(LIama、Baichuan、LIama2)进行了对比。具体如下图所示,可以发现其在大部分测试集上都是相对领先的。图片

即兴测试

 按照社区给的Demo体验地址:https:///spaces/BridgeEight/internlm-20B-chat-w4-turbomind,作者分别在数学计算、语言理解、编程能力,多级逻辑推理测试了以下模型结果,这里纯粹是个人即兴测试,可能不太准确。

「数学计算」:这里采用了一个比较常规的物理知识来验证其推理计算能力,可以看出InternLM可以得到正确的结果,如下图所示:图片「语义理解」:为了辨别模型是否具备辨识能力,问了一下模型:“猪为什么可以上树吃苹果?”,可以发现模型在常识对齐方面也需要做进一步的努力。同样的问题,测试了文心一言、讯飞星火、chatgpt、Bard、chatglm2-6b,对比发现只有Bard和InternLM犯了辨识错误。图片「编程能力」:测试了模型基本的编程能力,如下图所示,生成结果符合预期。尤其在测试过程种发现,它的响应速度还是挺快的。图片「多级逻辑推理」:这里采用一个中等难度的,之前这个问题测试过chatgpt、newbing、Bard、claude、讯飞星火,都翻车了。这个对InternLM-20B做了测试,好像也翻车了。看来InternLM-20B模型对于多级数量推理还有优化的空间。图片

总结

   综上,大模型的发展经历了从爆火、到开源、再到商业开源的发展历程,目前仍然处于快速发展和需求场景应用的过程。InternLM-20B在某些测试场景上,虽然也会犯与之前模型一样的错误,但是其开源可商用模型的发布,无疑是标志着中国大模型的发展更近了一步。知乎上有位大佬说,对于大模型这个方向来说,未来想要取得更进一步的发展,只有一个办法:「那就是开源、开源、还是TM的开源」。最后希望国内大模型的发展,继续乘风破浪、杨帆远航!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多