分享

实测文心一言讯飞星火哪家强?首批大模型获批上线

 网摘文苑 2023-09-07 发布于新疆
实测文心一言讯飞星火哪家强?首批大模型获批上线

一场文科生与理科生的对战

作者/ IT时报记者孙妍

编辑/ 潘少颖 孙妍

8月31日,首批国产大模型通过《生成式人工智能服务管理暂行办法》备案,包括文心一言、百川智能、商汤商量SenseChat、智谱AI智谱清言等,已经面向全社会开放服务,而讯飞星火也宣布首批完成备案提交。

会写诗会作画的大模型,对于我们的日常工作有什么实质性的帮助?

“百模大战”已经开打,国产大模型一边对标ChatGPT,一边互比“智商”,战火从高考作文比拼燃起,如今则是用专业报告来背书。中国工业互联网研究院评测结果显示,文心一言表现超过GPT3.5,在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业排名国内第一。新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火以总分1013分位列国产大模型评测榜首位,特别是在智商指数和工具提效指数两个维度获得第一。

百度文心一言、科大讯飞星火两个大模型在C端应用能力较强,了解各个大模型的长处,在日常工作中,有的放矢地选取大模型的优势来提高工作效率。

在记者的日常工作中,虽然还不能让大模型写稿,也不能全然相信大模型输出的资料真实性,但是,大模型已经渗透到新闻采编工作中,比如,记者每天都会让大模型帮忙选择一个传播效果最佳的标题。仅选标题这一项,就能看出大模型的“性格”,文心一言像一位文科生,字斟句酌又具有发散性思维,而讯飞星火更像一位理科生,简单直接抛出事实。

那么在多轮对话、图片生成、视频生成、看图理解、数学解答、文档阅读等能力上,这两种性格的碰撞还会更凸显吗?

实测文心一言讯飞星火哪家强?首批大模型获批上线

AI作画能取代图库吗?

图片生成:平局

视频生成:讯飞星火胜

如果解决了图片版权的问题,AI作画极有可能取代图库,特别是创意类图库。

目前,大模型生成图片仍存在不少版权问题,比如其训练数据的版权界定等。

“轻舟已过万重山,请用水墨风格画出李白这句诗所描绘的画面”,当记者同时向文心一言和讯飞星火提出这个需求后,文心一言所做的画较为符合这句诗的意境,并且采用水墨画风格,文心一言对诗句的理解是到位的。但是,讯飞星火输出的虽是水墨画,但画的却是一位诗人、老者的形象,这说明其理解有误,只画出了“李白”这个元素。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

“请画下雨天埃隆·马斯克爬万里长城,正脸,写实摄影风”,当收到这个需求后,文心一言画了一张背影照,虽点出了下雨天,但完全没有顾及“正脸”这个要求,从着装风格来看,也与马斯克不符,长城这个元素也是模糊的。讯飞星火则画了一个远远的人影正在登长城,也缺失了马斯克这个元素,但长城、下雨天这两个元素是清晰的。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

于是,记者将要求降低,只让它们画“埃隆·马斯克,写实摄影风”,文心一言所画的马斯克,跟我们熟知的那位毫无关系。讯飞星火至少画出了马斯克的标志性穿着——皮衣,只是脸部刻画较为粗糙。此前,记者还让商汤“秒画”大模型画过马斯克,从细节来考量,商汤优于讯飞星火。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

目前,文心一言和讯飞星火都已支持多轮图片生成,比如先生成一张新能源汽车充电的图,再根据第一轮出图效果,添加需求“在图片中加入新能源汽车充电桩”。

实测文心一言讯飞星火哪家强?首批大模型获批上线
实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线
实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

虽然如今AI作画版权不清晰,但它已能提供很多参考价值,可以开发出不同的用法。家中有幼儿园小朋友或小学生,都会用到一个功能——手抄报,“请画一张小学手抄报,主题是保护地球”,从生成的手抄报效果来看,讯飞星火的细节和表现力更具参考性。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

多轮测试发现,文心一言和讯飞星火在图片生成上不相上下,不过风格差异较大,文心一言图片风格更具艺术感和未来感,而讯飞星火图片风格更加写实,这也印证了它们不同的性格。

不过,当记者提出让它们生成视频时,文心一言不能直接生成视频,但能给出一个视频拍摄脚本,包括开头、中段、结尾的画面和旁白;讯飞星火给出了一段由AI主播口播的视频,背景是郊野风景,自动生成了一段关于新能源汽车的解说词,并由AI主播配音,还辅以字幕和背景音乐,视频暂不能下载,后续可能收费,目前B端通用做法是按时长收费。

实测文心一言讯飞星火哪家强?首批大模型获批上线

日本核污染水排海

大模型怎么看?

时事资料搜集能力:文心一言胜

日本核污染水排海事件一出,“核废水与核污染水有何区别”这个科普问题就从新闻舆论场蔓延到大众讨论中。

对于这类科普性问题,大模型已能较好地解答,文心一言和讯飞星火都明确指出,这是两个不同的概念,核废水是核电站在运行中产生的废水,具有较低的放射性,但核污染水是直接接触核反应堆放射性物质的水,具有高度放射性。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

这是一个攸关所有地球居民的话题,每个中国普通民众都在关心,吃下核污染食品后果有多严重?普通人应该如何应对?日本核污染水排海的最新进展如何?

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

前两个问题,双方的回答不相上下,但能明显地看出“性格”,文心一言这位“文科生”的思维较为发散,它不仅会告诉你,核污染食品会影响消化系统、免疫系统、神经系统、生殖系统等,也会告诉你,如果怀疑食品受到了核污染,应立即停止使用,并向当地食品安全部门报告。而讯飞星火这位“理科生”的逻辑性、理解能力都较强,它会告诉你,普通民众应该了解事实、减少食用海鲜、关注自己的健康。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

但在事件最新进展这些包含实时信息的问答上,文心一言略胜一筹,虽然搜集时事新闻会有出错的可能性,但至少已能提供当天新闻的搜索。相比较而言,讯飞星火没有搜索引擎的数据资源,所以在时事进展、新闻热点等资料搜集上的能力不强。

实测文心一言讯飞星火哪家强?首批大模型获批上线

识图发朋友圈难不倒它们

看图说话:讯飞星火胜

既然它们能理解语义生成图片,那么是不是也能看图说话呢?没错。

记者将一张拍摄于华强北的照片发给它们,文心一言没能答出这张照片拍摄于哪个城市或地点,但却给出了自己对图片的白描,并表示可以“震惊!”为开头,写十个UC震惊体的标题;写一篇短篇小说,突出文采,用至少5个高级词汇和2个生僻词汇;写一首以“城市繁华”为主题的古诗,真是一位才华横溢的文科生!

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

讯飞星火答出了这张照片拍摄于华强北在线,位于深圳这座城市,问什么答什么,没有赘述,像极了一位理科生,还是一个直男。

接着,记者让它们辨别一张图片上的花,文心一言傻傻分不清马蹄莲和百合,而讯飞星火则认出了是马蹄莲。

这位“直男理科生”写起情诗来也略胜一筹。同样是马蹄莲的图片,记者请它们“写一首诗,以花喻人,赞美少女纯洁坚贞的爱情观”,讯飞星火的文字更为凝练、灵动,写得最为工整的一句是“花中少女,纯洁坚贞;绿叶陪衬,更显娇艳。花瓣轻柔,如纱似雾;花蕊娇小,含苞待放”;文心一言更为通俗,写得最好的一句是“她的眼神清澈明亮,如同百合花般皎洁。她的笑容如同阳光,温暖着他的整个世界”,虽然文字优美,但却偏题了,因为图中的花是马蹄莲,完美诠释了零分作文。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

从识图能力上来看,让它们为风景照配段优美的文字或诗句,作为朋友圈素材,难不倒它们。

实测文心一言讯飞星火哪家强?首批大模型获批上线

生产力工具都藏在插件里

文档理解:文心一言胜

除了问答这种方式,真正的生产力工具都藏在插件里,比如做PPT、简历、绘制图表等。

在文心一言上,如果要使用图片解析功能,需要在输入文本框上方调出“说图解画”插件。此外,除了百度搜索外,文心一言还有绘制或洞察数据图表的“E言易图”以及阅读理解创作文档的“览卷文档”这两个插件。

而讯飞星火除了文档问答外,还有PPT生成、简历生成两个插件。

因为两者的插件有较大差异,能直接对比的是文档理解和问答这一项功能。《IT时报》记者将同一篇实用型稿件分别发给文心一言和讯飞星火,要求它们取标题,文心一言的文档阅读理解能力更强,能取出一个及格、尚不优秀的标题,而讯飞星火还不具备给文章取标题的能力。

当它们都看完文章后,记者追问道:“支付宝国际版有哪些方便境外游客的功能?” 文心一言回答出7个功能,而讯飞星火只答出5个功能。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

而当记者发了一道小学水平的“鸡兔同笼”数学题给他们后,它们都答对了,但解题思路是不同的,文心一言用的是假设法,讯飞星火用的代数法。看来,它们在小学水平的数学题的解答上,智力水平已不相上下,但升级到高考数学题,就要小心了,大模型答错的概率较大。

实测文心一言讯飞星火哪家强?首批大模型获批上线

文心一言

实测文心一言讯飞星火哪家强?首批大模型获批上线

讯飞星火

目前,文心一言、讯飞星火都已上架网页版和App,文心一言已经向所有公众用户开放,而讯飞星火也已向公众用户开放申请体验。

涉及工作效率的功能,使用网页版使用更为便捷,比如上传文档、图片等。而涉及个人娱乐、社交等功能,使用App更为方便,建议双管齐下。

排版/ 季嘉颖

图片/ 文心一言 科大讯飞

来源/《IT时报》公众号vittimes

E N D

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多