日本研发轻量级AI大型语言模型“tsuzumi”，可处理多模态信息

江海博览 2024-05-20 发布于浙江

展开全文

日本NTT已经开发出一种轻量级的大型语言模型“tsuzumi”，具有顶级的日语处理能力。“tsuzumi”的参数大小范围从6亿到70亿，相对较小，减少了学习和调整所需的成本。“tsuzumi”支持英语和日语，并允许在单个GPU或CPU上进行训练推理。另外“tsuzumi”与视频和音频等各种形式兼容，可以针对特定行业或企业进行调整应用。

“tsuzumi”主要有以下四个主要特征：

（1）轻量级大语言模型

截至2024年3月，“tsuzumi”提供两个版本:具有70亿参数的轻量级版本和具有6亿参数的超轻量级版本。其参数大约是OpenAI的GPT-3的1/25和1/300（GPT-3具有1750亿个参数）。轻量级大语言模型能够在一个GPU（用于轻量级版本）和一个CPU（用于超轻量级版本）上进行有效推理，可有效降低额外的训练和推理成本。

（2）多语言支持——精通日语

“tsuzumi”支持日语和英语，特别是对于日语处理。研究人员利用Rakuda基准（专门为生成式人工智能设计的）进行性能比较。在Rakuda基准测试中，tsuzumi的胜率为81.3%，超过GPT-3.5，且明显优于国内顶级LLM组（胜率超过70%）。

（3）灵活定制（基本模型+适配）

基于“Adapter Tuning”高效学习机制，有助于对大语言模型进行优化，以适应特定的任务或目标。得益于适配器“Adapter Tuning”（一种实现高效知识学习的机制），tsuzumi”可以通过少量的额外训练有效地完成调整优化，如针对特定行业，调整语言表达和知识结构。2024年4月起，NTT计划推出“多适配器”功能，允许将多个适配器连接到一个“tsuzumi”基础模型，允许用户根据用户或场景在多个适配器之间灵活切换。该功能有助于降低服务成本。

（4）多模态（语言-视觉-听觉-用户情景）

“tsuzumi”还计划支持模态扩展，截至2024年3月，它不仅可以处理语言，还可以处理图形，甚至听觉。NTT计划支持其他功能，如语音语调的细微差别、面部表情、用户给定的情况等。通过“语言+视觉”的模态扩展，不仅可以回答基于语言的问题，还可以回答通过文档图像呈现的问题。通过“语言+视觉+听觉”的模态扩展，除了仅基于语言的问题之外，还可以考虑提问者的情况来生成答案。如通过从声音中识别情绪，根据情绪类型如消极类型，采取一些鼓励等行为。另外还可以利用用户情况（位置信息、停车场拥堵、驾驶员疲劳、一天中的时间、用户偏好信息等）作为输入，适用于汽车导航、智能手机导航等任务。