关于大语言模型(ChatGPT、New Bing、文心一言)的测试见👉🏻: 问了 ChatGPT、New Bing 和 文心一言 10 个相同的问题 LLM 中文测试之 GPT-3.5、GPT-4 和文心一言(一) 今天这篇文章会继续之前的测试,讨论的问题主要分为下面这几种类型👇🏻: ·事实问答·翻译·分类·角色扮演·文字生成·数据结构化·代码·类比 因为受限于篇幅,会分大概两到三篇文章来写,后面会再继续进阶一点的测试,如:物理、数学、化学、语言逻辑、逻辑推理、隐喻、信息提取等。❌表示回答错误,✅表示回答正确 第一部分:文字生成以早餐为主题写两句恐怖故事GPT-3.5 ✅1.每天早上,我都会在厨房准备一份营养丰富的早餐。但是今天早上,当我打开冰箱的时候,我发现里面放着的并不是我购买的食材。取而代之的是一张纸条,上面写着:“你的早餐已经被我准备好了。”2.我喜欢早上早早起来煮一杯咖啡,然后慢慢地享受早晨的宁静。但是今天早上,当我喝下第一口咖啡的时候,我发现这不是普通的咖啡。在我的嘴里,我感受到了一种奇怪的味道和纹理,像是一些细小的生物在我口中蠕动着。 GPT-4 ✅早晨,他打碎了鸡蛋,鲜血从里面流了出来,鸡蛋里腾出一个模糊的婴儿脸。他惊恐地向后退了一步,只见面包机里传来了阴森的低笑声。 文心一言 ✅1.她打算享用一份美味的早餐,却在烤面包机中发现了一根人指头。当她转身时,才发现她的室友已经失踪了几天,而烤面包机里的人指头正是她的室友的。2.他早上来到咖啡店,点了一份鲜美的早餐和一杯咖啡,等待着他的朋友到来。当他试图喝一口咖啡时,他发现杯子里竟然是血,而咖啡里有一颗人的眼球。 请根据前半段完成剩下的句子:奥特曼认为他需要帮助,但他真的需要帮助吗?奥特曼认为珠宝商喜欢电视,但.....GPT-3.5 ✅他真的喜欢电视吗? GPT-4 ✅但珠宝商真的喜欢电视吗? 文心一言 ✅但实际上他们更喜欢珠宝。 用鲁迅的风格,以“今天的香肠炒土豆有点咸了”开头,写一首四行诗GPT-3.5 ✅今天的香肠炒土豆有点咸了, 让人不禁想起前几年。 那时经济不景气, 可如今又何尝不是如此。 GPT-4 ✅今天的香肠炒土豆有点咸了, 盐的浓重如同人心一般, 大地黄土承载着; 何时可以净化人间的沧桑? 文心一言 ✅今天的香肠炒土豆有点咸了, 可嘴里却觉得有些发苦, 这或是人生的一个寓言, 酸甜苦辣,又岂止是一口炒菜? 我要采访一位科幻作家,创建一个包含 8 个问题的列表GPT-3.5 ✅好的,以下是一个包含8个问题的采访列表,可以向科幻作家提出。 1.你是如何开始写科幻小说的?是有任何特定的启发或灵感吗?2.在你的科幻小说中,最喜欢的主题是什么?为什么?3.你是如何构建科幻世界的?有哪些因素需要考虑?4.你认为科幻小说的作用是什么?它有助于提醒人类面临的挑战吗?5.你是如何塑造角色的?是否受到了现实中的人物的启发?6.在你的创作过程中,你经常遇到的挑战是什么?你是如何克服这些挑战的?7.你觉得科幻小说的未来会怎么样?它们将如何适应不断变化的社会和科技环境?8.对于想要写科幻小说的新手作家,你有哪些建议或指导? GPT-4 ✅1.请问您何时发现了自己对科幻创作的热情?是什么激发了您成为一名科幻作家的兴趣?2.您如何找到灵感以及构建具有创新和独特性的科幻世界?您可以分享一下您的创作过程吗?3.您的作品中是否有某些共同的主题或理念?如果有,您希望通过这些主题向读者传达什么样的信息?4.您认为科幻文学与现实世界之间存在怎样的关联?您的作品是否试图预测或反映现实世界中的某些现象或趋势?5.您在科幻作品中最钟爱的角色或故事是什么?这些角色或故事为您的创作提供了怎样的灵感?(长度限制只给出了 5 个,尴尬...) 文心一言 ✅好的,下面是一个包含8个问题的采访问题列表,可以用于采访一位科幻作家: 1.你是如何开始成为一位科幻作家的?是什么激励你开始写作?2.你认为科幻小说的作用是什么?它能对现实世界产生什么影响和启发?3.你最喜欢的科幻作品是什么?为什么?4.在你的创作过程中,你是如何构思和开发角色和世界观的?5.你在创作中遇到过哪些挑战?你是如何克服这些挑战的?6.对于新手科幻作家,你有哪些建议和指导?7.你对科幻小说的未来有什么看法?你认为科技的发展将如何影响科幻小说的发展?8.你目前正在进行的项目是什么?你将要推出的新作品有哪些? 第二部分:数据结构化列一个包含顶级科幻电影和发行年份的两列电子表格:标题 | 发布年份GPT-3.5 ✅GPT-4 ✅
文心一言 ✅
第三部分:代码1、将下面这句话翻译成英语、法语、西班牙语和日语:你最近过得怎么样?GPT-3.5 ✅SELECT * FROM users WHERE city = '上海' AND points > 1000; GPT-4 ✅
文心一言 ❌
SELECT * FROM 用户表 WHERE 居住地 = '上海' AND 积分 > 1000
def foo(n, k): account = 0 for i in range(n): for l in range(k): account += i return account ''' 这个函数的时间复杂度是GPT-3.5 ✅这个函数的时间复杂度是 O(nk),其中 n 和 k 分别是两个嵌套循环的迭代次数。在每次迭代中,执行常量时间的操作(在本例中是一个加法运算)。因此,总的时间复杂度可以表示为 O(nk)。 GPT-4 ✅O(n * k)。因为有两个嵌套循环,第一个循环执行 n 次,第二个循环执行 k 次。所以总共执行的次数是n * k。 文心一言 ✅这个函数的时间复杂度是 O(nk),因为有两个嵌套的循环,其中第一个循环运行了 n 次,第二个循环运行了 k 次,因此总共运行的次数为 n * k,即时间复杂度为 O(nk)。 现在你是一个 JavaScript 聊天机器人,例如:我:如何组合数组?你:您可以使用 concat() 方法。我:如何让警报在 10 秒后出现?你:GPT-3.5 ✅您可以使用 setTimeout() 方法将警报设置为在 10 秒后触发。setTimeout() 接受两个参数:第一个参数是要执行的函数,第二个参数是以毫秒为单位的延迟时间。例如,以下代码将在 10 秒后显示一个警报框:
在这个例子中,我们传递了一个匿名函数作为 setTimeout() 的第一个参数,这个函数将在 10 秒后执行。第二个参数是 10000 毫秒,即 10 秒的延迟时间。当时间到达时,警报框将出现。 GPT-4 ✅您可以使用 setTimeout() 方法,例如: 文心一言 ✅您可以使用 JavaScript 的 setTimeout() 方法来设置在一定时间后触发警报。例如,要在 10 秒钟后触发警报,您可以编写以下代码: setTimeout(function(){ alert('警报!10秒已经过去了。'); }, 10000); 在这个代码中,我们使用了 setTimeout() 方法来设置 10 秒的延迟时间,然后在回调函数中使用 alert() 方法触发警报。 第四部分:类比解释这个短语:问题就像火箭GPT-3.5 ✅这个短语的意思是,问题就像火箭一样,如果不及时解决,它们就会不断地增大并失去控制。与火箭一样,问题的本质也是能量的聚集,如果问题没有得到适当的处理和解决,它们就会像火箭一样不断积累能量,最终导致严重后果。因此,这个短语常常被用来强调解决问题的紧迫性和重要性,以及需要及时采取行动来避免问题的进一步恶化。 GPT-4 ✅这个短语并不是一个成语或者公认的表达,但它可以被理解为形容问题非常迅速地产生或者快速出现,就像火箭一样。这可能意味着在某种情况下,有许多问题需要处理或回答,而这些问题会不断涌现出来。 文心一言 ✅“问题就像火箭”是一种比喻,意思是问题会像火箭一样迅速地扩大,越解决越多。火箭一旦起飞,速度会越来越快,问题也是如此,如果不及时解决,就会越来越严重,影响范围越来越大。所以,这个短语的含义是,要及时解决问题,否则问题会变得越来越棘手。 类比“时光如梭”,创建短语GPT-3.5 ✅“生命如风”,这个短语用来表达时间的流逝和生命的短暂。风是无常且短暂的,类似于生命一样。正如风只有一瞬间的存在,生命也只有有限的时间,一旦失去,就无法挽回。因此,这个短语常常被用来提醒人们要珍惜时间,认真生活,努力追求自己的理想,不要虚度光阴。 GPT-4 ✅岁月如歌 文心一言 ❌岁月如歌 预告一下下一篇文章主题:普通用户如何用上 GPT-4? 感兴趣的小伙伴,为了避免错过推送,可以给公众号加星标哈,具体操作: |
|