阿里云Qwen3系列模型,早在圈子里传得沸沸扬扬。 昨天晚上,身边好几个朋友在等发布,我边追剧边等,结果实在困得不行,凌晨1点就睡了。 今天早上起得比较早,看到了官宣内容,内部同学说,模型是在昨天凌晨4点上线的,官方正式消息是,今天早上6点多发出。 这帮人太肝了,憋到五一前也要弄出来,熬夜不睡觉。 官方说:这次Qwen3在自然语言处理、多模态能力上都有了非常大的提升,是阿里云在人工智能领域的一次全新升级。 它的火爆程度几乎不用多说,发布两个小时,GitHub上的Star数就已经超过了16.9k;整个系列包括2个MoE模型和6个稠密模型,可以说是阵容强大。 什么是MoE模型?什么稠密模型呢? 你可以把 MoE 模型想象成多个“专家”组成的智囊团,每个专家都负责自己的一摊事,当你有一个复杂的问题需要解决时,它会判断哪个专家最擅长处理这个问题,然后只调用那个专家来帮你解决。 稠密模型,就简单了,一个全能型选手,不管什么任务,它都自己搞定;优势是不考虑分工,直接上,对于不太复杂的问题,表现很不错。 但问题是,如果太复杂,或者特别细,它可能就没那么专业了,毕竟不是为专业领域设计的。 这次发布的几个模型,如果你搞开发,基本上去模型市场、阿里云官方、huggingface、或魔搭社区都能体验到,详细参数这里不赘述,外面一搜就有。 普通用户,想自己玩一玩,手机端用通义APP就行了。 我今天早上打开时发现,APP 里已经上线了三个模型:一个是 A22B,一个叫 32B,还有一个是高性能深度思考版的 32B。 这里的B指「Billion」,也就是“十亿”,表示模型参数。 比如: 32B 就是 320 亿参数,A22B 可以理解为 220 亿左右的参数规模。所以你看,当一个模型后面跟着多少 B 的时候,其实是在告诉我们它有多“大”。参数越多,一般意味着模型的能力越强。 写到这,问题来了:日常用到底该选哪个呢? Qwen3-235B-A22B,这个模型太大了,适合开发者和企业用,我觉得把它装在手机上玩,完全屈才了。 Qwen3-32B 更适合日常使用,可以把它当成一个助手,处理文档、聊天、写个简单的报告都没问题,属于中等规模模型。 QwQ-32B 则是一个“思考型”模型,适合一团乱麻、不想自己动脑的问题。比如:让你做个 PPT,你可以让它先帮你列个框架,再慢慢完善。 所以,我觉得,Qwen3-32B和QwQ-32B就够了。 我用 iPhone 14 Pro Max,在手机上试了一下这两个模型,运行速度真的很快,完全不卡顿,而且手机也不发热,文字生成速度明显比我讲话还快。 不过说实话,我在手机上用 AI 模型的情况还是挺少的,因为大多数时间我都在 PC 端工作。 那说到PC端,网页地址是:https://chat. ![]() 我数了下,这里面有10多个模型。 这些模型是阿里云旗下比较常用、也比较大的模型。每个模型后面延伸出来的一些小模型,基本在 GitHub 上被很多开发者用。 所以,要和这些模型直接对话,在PC端岂不是一件很爽的事情? 以前我经常用 Qwen 2.5 Max 模型,它在内容处理上特别灵敏,能准确理解我的意思;这次更新后,我先试了一下它的 A22B 版本,让它处理文本感觉没什么意思,于是就让它生成一张图片。 我让 Kimi 帮我写了一个有意境的提示词,然后,把提示词复制给 A22B,结果它反应很快,大概三秒钟就生成了一张图片,大小是 1.5 兆。你觉得怎么样? ![]() 图解:QWEN3-235B-A22B直接生成 这个模型支持连续对话,不过连续对话能力好像有点问题:它只能生成新的图片,而不会在原来的图片基础上进行优化。 这可能因为它的模型本身没有针对聊天框进行上下文进行连续推理的优化。不过,不重要。 我又把前天拍的视频,关于夸克AI超级搜索框的那个上传给了它,大概210MB,2分钟;然后用了30B-A3B这个模型来处理。 我就跟它说:你帮我把视频里的文字提取出来,再优化一下,我要发小红书。 其实这个算有点复杂或者说连续步骤的任务吧,不能只做一步,得一步步来。结果,它直接就给我把文字提出来了,还顺手给我起了个标题,一看就很适合发小红书。 整个过程挺顺,效率也很高。 不是吹嘘,我已经无法用语言、案例形容它的快速和高效了。感觉它的处理能力,已经远远超越了我日常大脑的运作能力。 我的局限就在于,已经不知道该如何去使用它了。或者说,面对这样一个庞大的工具,我在想: 我的思考上限在哪里?还有哪些复杂的任务,它能够帮我解决?在日常生活中,我还有什么是可以交给他去完成的? 我开始担心,自己会不会逐渐依赖它,甚至被它引导? 亚里士多德(Aristotle)说:人的本性在于求知。以前思考很重要,现在思考似乎变得不那么「必要」了。既然这样,什么才是最重要的呢? 或许,我们该重新审视“如何与AI共处”这一议题了。 |
|