分享

日本研发轻量级AI大型语言模型“tsuzumi”,可处理多模态信息

 江海博览 2024-05-20 发布于浙江

日本NTT已经开发出一种轻量级的大型语言模型“tsuzumi”,具有顶级的日语处理能力。“tsuzumi”的参数大小范围从6亿到70亿,相对较小,减少了学习和调整所需的成本。“tsuzumi”支持英语和日语,并允许在单个GPU或CPU上进行训练推理。另外“tsuzumi”与视频和音频等各种形式兼容,可以针对特定行业或企业进行调整应用。


“tsuzumi”主要有以下四个主要特征:

(1)轻量级大语言模型

截至2024年3月,“tsuzumi”提供两个版本:具有70亿参数的轻量级版本和具有6亿参数的超轻量级版本。其参数大约是OpenAI的GPT-3的1/25和1/300(GPT-3具有1750亿个参数)。轻量级大语言模型能够在一个GPU(用于轻量级版本)和一个CPU(用于超轻量级版本)上进行有效推理,可有效降低额外的训练和推理成本。

日本研发轻量级AI大型语言模型“tsuzumi”,可处理多模态信息

(2)多语言支持——精通日语

“tsuzumi”支持日语和英语,特别是对于日语处理。研究人员利用Rakuda基准(专门为生成式人工智能设计的)进行性能比较。在Rakuda基准测试中,tsuzumi的胜率为81.3%,超过GPT-3.5,且明显优于国内顶级LLM组(胜率超过70%)。

日本研发轻量级AI大型语言模型“tsuzumi”,可处理多模态信息

(3)灵活定制(基本模型+适配)

基于“Adapter Tuning”高效学习机制,有助于对大语言模型进行优化,以适应特定的任务或目标。得益于适配器“Adapter Tuning”(一种实现高效知识学习的机制),tsuzumi”可以通过少量的额外训练有效地完成调整优化,如针对特定行业,调整语言表达和知识结构。2024年4月起,NTT计划推出“多适配器”功能,允许将多个适配器连接到一个“tsuzumi”基础模型,允许用户根据用户或场景在多个适配器之间灵活切换。该功能有助于降低服务成本。

日本研发轻量级AI大型语言模型“tsuzumi”,可处理多模态信息

(4)多模态(语言-视觉-听觉-用户情景)

“tsuzumi”还计划支持模态扩展,截至2024年3月,它不仅可以处理语言,还可以处理图形,甚至听觉。NTT计划支持其他功能,如语音语调的细微差别、面部表情、用户给定的情况等。通过“语言+视觉”的模态扩展,不仅可以回答基于语言的问题,还可以回答通过文档图像呈现的问题。通过“语言+视觉+听觉”的模态扩展,除了仅基于语言的问题之外,还可以考虑提问者的情况来生成答案。如通过从声音中识别情绪,根据情绪类型如消极类型,采取一些鼓励等行为。另外还可以利用用户情况(位置信息、停车场拥堵、驾驶员疲劳、一天中的时间、用户偏好信息等)作为输入,适用于汽车导航、智能手机导航等任务。

日本研发轻量级AI大型语言模型“tsuzumi”,可处理多模态信息

NTT's Large Language Models 'tsuzumi' | NTT R&D Website

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多