发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
机器之心报道
编辑:Panda W
训练一个 GPT 那样的千亿参数规模的大型语言模型需要多少钱和时间?北京智源人工智能研究院和中国科学院计算技术研究所等多所机构近日的一项研究发现可以用 10 万美元在 26 天内训练出一个有 1010 亿参数的 LLM;不仅如此,他们还在这项研究中提出了一种用于评估 LLM 的智商(IQ)的基准,可基于事实性知识之外的四个新方面对 LLM 的智能水平进行更为全面的评估。该项目的模型已发布,代码也将在未来开源。
论文:https:///pdf/2309.03852.pdf
模型:https:///CofeAI/FLM-101B
语言本质上是符号的。已经有一些研究在使用符号而非类别标签来评估 LLM 的智能水平。类似地,该团队使用了一种符号映射方法来测试 LLM 在未曾见过的上下文上的泛化能力。
人类智能的一大重要能力是理解给定的规则并采取相应的行动。这种测试方法已被广泛用在各种等级的测验中。因此,规则理解成为这里的第二项测试。
模式挖掘涉及到归纳和演绎,也是智能的重要组成部分。这一方法在科学发展历史中发挥了至关重要的作用。此外,各种竞赛的测试题也往往需要这种能力才能解答。受此启发,模式挖掘被选为第三个评估指标。
最后一个也很重要的指标是抗干扰能力,这也是智能的核心能力之一。已有研究指出,语言和图像都很容易被噪声干扰。考虑到这一点,该团队把抗干扰用作了最后一个评估指标。
研究者表示,这是首个使用增长策略从头开始训练超过千亿参数的 LLM 研究尝试。同时,这还是目前成本最低的千亿参数模型,成本仅 10 万美元。
通过改进 FreeLM 训练目标、有潜力的超参数搜索方法和功能保留型增长,这项研究解决了不稳定问题。研究者相信该方法也能为更广大的科研社区提供助力。
研究者也通过实验比较了新模型与之前的强大模型,其中既使用了面向知识的基准,也使用了新提出的系统性 IQ 评估基准。实验结果表明 FLM-101B 是一个有竞争力且稳健的模型。
该团队会发布模型检查点、代码、相关工具等,以推进千亿参数规模的汉语和英语双语 LLM 的研究开发。
来自: 天承办公室 > 《022机器之心》
0条评论
发表
请遵守用户 评论公约
跌跌撞撞了37年才明白的心计
3、朋友再好,你谈钱试试;夫妻再爱,你没钱试试; 亲戚再亲,你借钱试试。8、亲戚朋友有多少钱,都与你无关。17、能不花的钱就不花,能...
惊人的因果定律:男人最大的成功,是渡得了“枕边人”
惊人的因果定律:男人最大的成功,是渡得了“枕边人”因此,聪明的男人知道,夫妻关系本是一场因果——你若不离不弃,我必生死相依;有...
中国历史上的 8 大耻辱
中国历史上的 8 大耻辱。以下是中国历史八大耻辱:这一耻辱的历史事件,使中原文化遭受了严重的破坏,汉民族在一定时期内也陷入了极大的...
掌握中药的剂量秘密,很多疾病都将迎刃而解!
一图看懂中国历史朝代演变,这个版本太棒了
一图看懂中国历史朝代演变,这个版本太棒了一图看懂中国历史朝代演变,这个版本太棒了。
北京雪景
天哪!终于有人把送礼技巧和饭局潜规则全都整理出来了,简直太详细了
终于有人把送礼技巧和饭局潜规则全都整理出来了,简直太详细了。终于有人把送礼技巧和饭局潜规则全都整理出来了,简直太详细了天哪!终...
摄影:游南京历史文化街区------熙南里(38)
摄影:游南京历史文化街区------熙南里(38)《当代作家》杂志社签约作家。6月《<牧歌>的历史传承(散文)》一文在2023“当代作家杯...
女人一生中,最重要的4个男人
女人一生中,最重要的4个男人水墨青荷。对女人来说,一生中总有那么几个男人,在她心中尤为重要,是任何人都不能替代的。一、父亲——教...
微信扫码,在手机上查看选中内容