日本NTT已经开发出一种轻量级的大型语言模型“tsuzumi”,具有顶级的日语处理能力。“tsuzumi”的参数大小范围从6亿到70亿,相对较小,减少了学习和调整所需的成本。“tsuzumi”支持英语和日语,并允许在单个GPU或CPU上进行训练推理。另外“tsuzumi”与视频和音频等各种形式兼容,可以针对特定行业或企业进行调整应用。 “tsuzumi”主要有以下四个主要特征: (1)轻量级大语言模型 截至2024年3月,“tsuzumi”提供两个版本:具有70亿参数的轻量级版本和具有6亿参数的超轻量级版本。其参数大约是OpenAI的GPT-3的1/25和1/300(GPT-3具有1750亿个参数)。轻量级大语言模型能够在一个GPU(用于轻量级版本)和一个CPU(用于超轻量级版本)上进行有效推理,可有效降低额外的训练和推理成本。 (2)多语言支持——精通日语 “tsuzumi”支持日语和英语,特别是对于日语处理。研究人员利用Rakuda基准(专门为生成式人工智能设计的)进行性能比较。在Rakuda基准测试中,tsuzumi的胜率为81.3%,超过GPT-3.5,且明显优于国内顶级LLM组(胜率超过70%)。 (3)灵活定制(基本模型+适配) 基于“Adapter Tuning”高效学习机制,有助于对大语言模型进行优化,以适应特定的任务或目标。得益于适配器“Adapter Tuning”(一种实现高效知识学习的机制),tsuzumi”可以通过少量的额外训练有效地完成调整优化,如针对特定行业,调整语言表达和知识结构。2024年4月起,NTT计划推出“多适配器”功能,允许将多个适配器连接到一个“tsuzumi”基础模型,允许用户根据用户或场景在多个适配器之间灵活切换。该功能有助于降低服务成本。 (4)多模态(语言-视觉-听觉-用户情景) “tsuzumi”还计划支持模态扩展,截至2024年3月,它不仅可以处理语言,还可以处理图形,甚至听觉。NTT计划支持其他功能,如语音语调的细微差别、面部表情、用户给定的情况等。通过“语言+视觉”的模态扩展,不仅可以回答基于语言的问题,还可以回答通过文档图像呈现的问题。通过“语言+视觉+听觉”的模态扩展,除了仅基于语言的问题之外,还可以考虑提问者的情况来生成答案。如通过从声音中识别情绪,根据情绪类型如消极类型,采取一些鼓励等行为。另外还可以利用用户情况(位置信息、停车场拥堵、驾驶员疲劳、一天中的时间、用户偏好信息等)作为输入,适用于汽车导航、智能手机导航等任务。 NTT's Large Language Models 'tsuzumi' | NTT R&D Website |
|