原创 新智元 新智元 2024-02-02 17:01发表于北京
新智元报道 【新智元导读】就在刚刚,全新升级4.0的日日新大模型发布!不仅如此,商汤还抢先OpenAI首发了支持不同模态工具调用的Assistants API!现在,超千万的中文开发者可以轻松玩转「文生图」和「图生文」了。就在刚刚,商汤新一代「日日新SenseNova 4.0」大模型体系全面升级,多项任务性能超越GPT-4。 与此同时,全球首个支持不同模态工具调用的Assistants API,也在今日发布! API申请网址:https://platform./ 除了商量大语言模型、秒画文生图大模型外,商汤还发布了大语言模型的数据分析版本、升级了医疗版本「大医」等,将LLM通用能力推向更多领域。同时还有备受期待的多模态大模型。 值得一提的是,商汤最新的Assistants API内置多种工具,支持「文生图」与「图生文」的工具属实是全球首发,目前就连OpenAI也还无法做到! 当我们将大模型和各类应用服务工具连接起来,开发者就轻松拥有了强大的AI助手,LLM「大脑」就有了「眼睛」和「手臂」。 现在,到商汤日日新SenseNova4.0平台,国内的开发者和用户就能在一个系统里,轻松调用图文多模态能力了。 全新SOTA模型+Assistants API,轻松拿捏各种任务 智能识图图像理解是任何多模态模型必不可少的技能。 比如,给模型一张行车路况图,乍一看,貌似是一道考验OCR能力的题目。 实则不然,想要正确回答这道题,它不仅需要将图中占比较小的多块指示牌上的字体提取出来,还需要进行推理,最终才能判断出去黄石东路怎么走。 再输入一幅画,它便一眼认出这是油画,还可以精准地将作品中的各种细节特征描述出来,比如蝴蝶的动态、昆虫的颜色。 甚至,基于以上的一些特征总结,它还能进行深入分析,提供自身评价供我们参考。 此外,在海报识别上,它的表现也是十分出色——通过识别海报中的文字信息,便能确定海报主题。 还能快速解析海报主题相关的信息,结合文字信息和视觉信息读懂整幅海报的氛围。 服装穿搭,它也非常拿手,让你穿着打扮更有范儿。 当你问这件外套,该怎么搭配? 它会识别出衣服颜色款式,并会提供合适的穿搭建议,「配一件白色或浅色系的衬衫,下装选黑色或深棕色的裤子,然后配一双黑色的皮鞋」。 多模态模型能读懂的不只是氛围图,还有表情包。 比如一只倾头凝视的猫咪,以及背后传达的情绪与态度,都能识别出。 上传东方明珠的照片,它就会给出详细介绍。 图片生成除了图像理解外,文生图功能还可以为你画出刚刚这个场景的夜景。 在线检索在线检索工具,则是让我们拥有了访问外部知识的能力。 比如,让它查询上海各区最新的人口数据,就能给出准确的回应。 数据分析此外,还可以通过对话进行文档和数据分析。 比如作为一个产品经理,想了解世界范围内各个APP的使用情况,就只需要上传一份APP使用数据的excel表格。 勤勤恳恳的小浣熊会立刻在左边对话框生成相应的Python代码,以及所要求的图表,并在右边给出对应的分析结果。 不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。 除此之外,它还可以分析多个表格之间的关联关系。比如看一下各地的水资源分布和他的人口数是否有相关性。 不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。以及如果对图表呈现感觉不满意,还能提出修改意见。 商汤日日新4.0发布 显然,这些能力的实现,都要靠强大的模型能力来提供支持。 目前,经过最新升级的日日新4.0,在整体表现上已经非常接近GPT-4的水平了。 相比之前版本,日日新 4.0拥有更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。 具体来说: - 而推理能力则达到了GPT-4 Turbo 99%的水平 商量大语言模型-通用版本(SenseChat V4):4K/32k/128k全面升级,测试成绩比肩GPT-4我们看到,研究团队新增了包括业务通用、数学能力、K12考试和文学期刊数据的约600B tokens的中英文预训练语料,从而让模型的理解能力和输出质量有了质的提高。 此外还对模型进行了4次超强的预训练,使得模型在阅读理解、综合推理、代码能力等任务上实现了5%-10%的定向性提升。 针对不同的使用场景,他们分别升级了4k、32k、128k三种上下文窗口模型的性能,拓展了应用范围。 其中SenseChat-32k可支持约三万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在理解能力上实现了超越。 而「旗舰级」的SenseChat-128k,更是可以支持约十二万以上的中文长文本总结,并且同样在理解能力方面实现了对GPT-4的超越。 在「大海捞针」实验中128k、32k都实现了近乎完美的召回率,整体表现超过GPT-4。 日日新·商量大语言模型-数据分析版本(SenseChat-DataAnalysisCode V4) 除此之外,商汤还新增了商量大语言模型-数据分析版本以及数据分析工具「办公小浣熊」,能理解多种表格和文件类型以及复杂表格处理。 可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。 结果显示,模型在1000+测试集上的精度超越GPT-4(85.71% vs 84.62%),并且在强大的中文理解能力加持下,更能够满足国内数据分析的需求。 日日新·商量大语言模型-医疗版本「大医」(SenseChat-Medical V4) 医疗场景下,「大医」在多轮对话与上下文理解能力上面实现了性能的大幅提升。 它还可以有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。 在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。 成绩超越了多个通用及医疗垂类开源大语言模型,体现了非常高的专业垂直领域的落地性能。 2023年职业药剂师考试大模型评测 中文医疗大语言模型的开放评测平台MedBench 日日新·商量多模态大模型(SenseChat-Vision V4):不止「看」到,还能 「读」懂日日新·秒画文生图大模型(SenseMirage V4):细节质量大幅提升,实现电影级质感Assistants API首次支持不同模态工具调用 - 持久对话,意味着开发者不用再为如何处理长历史会话而烦恼 - 支持对检索(Retrieval)、代码解释器(Code Interpreter)等OpenAI托管工具的访问 |
|