|
大家好,我是大卷 B 苍何。 年前真是各大模型公司都杀疯了,模型和产品狂发。 这不,看到阿里又悄悄发布了千问最新图像模型 Qwen-Image-2.0。作为大卷 B 的苍何是一定不会错过测试机会的。 深度拷打了下 Qwen-Image-2.0,想与诸君做个分享。 ![]() 通过本文,除了能了解最新的关于Qwen-Image-2.0 能力提升点,还能看到我拷打测试模型的提示词。
屁话不多说,在放 case 前,有必要整体对 Qwen-Image-2.0 做个整体了解。 先一句话概括: 「提示词长度翻倍提升至 1 k,更强的指令遵循和渲染能力,2 K 直出,中文语义理解更强,信息图和 PPT 可轻松直出。」
特别值得一提的是,在中文文字渲染方面, Qwen-Image-2.0 的表现极为突出,实测下来比 Nano Banana Pro 是要强的。 ![]() 上面这张图是 Qwen-Image-2.0 直出的,你可以看到该字体渲染成汉字非常准确,完全没有乱码的情况,这在 Nano Banana Pro 中文渲染经常会禁不住放大看。 好,模型介绍完毕,我觉得更为重要的是实测表现,下面,我来放我测试的结果。 「1、水煮肉片菜谱」 ![]() 我给的提示词如下: 生成一张水煮肉片的手账风格菜谱插画。整体风格:画面以米色或淡黄色复古纸张为背景,呈现手绘、拼贴、复古手账的风格。整体色调温暖,细节丰富,充满生活气息,仿佛一本精心制作的家常菜谱。顶部标题区域:页面顶部居中,手写艺术字体标题:“麻辣鲜香:水煮肉片秘籍”。标题周围用手绘的红色辣椒、绿色花椒、姜蒜片等元素做装饰性边框。中央主体插画:画面中央是一幅 手绘风格的水煮肉片特写图。描绘一个盛满了红亮汤汁的宽口碗,碗中浮着嫩滑的猪肉片,翠绿的蒜苗段或香菜末撒在表面,底部隐约可见烫好的豆芽和白菜。强调汤汁的油亮感和食材的新鲜度,色彩鲜明但不失手绘的柔和质感。左侧食材与用量清单(便利贴样式):在主插画的左侧,用手撕纸或便利贴的形式,手写列出“食材清单”,并详细注明用量:主料: 猪里脊肉 300g,配菜:豆芽 200g,大白菜 200g调料:干辣椒 10-15个 (剪段)花椒 1大勺 (15g)郫县豆瓣酱 2大勺 (30g),蒜末 30g,姜末 20g,食用油 适量盐 适量料酒 1大勺淀粉 1大勺蛋清 1个高汤或清水 500ml香葱/蒜苗 适量 (切段)右侧烹饪步骤:在主插画的右侧,用3-4个手绘分格小插画(类似漫画格子或拍立得照片),清晰展示关键烹饪步骤,每个插画下方配有手写步骤说明:1. 插画1: 准备工作- 砧板上猪肉切薄片,用碗装着肉片,旁边是盐、料酒、淀粉、鸡蛋清,肉片正在腌制。下方手写:“步骤1:腌制肉片 - 里脊肉切片,加盐、料酒、淀粉、鸡蛋清抓匀腌制15分钟。”2. 插画2: 炒制底料 - 锅中热油,放入干辣椒段、花椒粒炒香,然后加入豆瓣酱、姜末、蒜末爆炒出红油。下方手写:“步骤2:炒香底料- 热油爆香干辣椒、花椒,加豆瓣酱、姜蒜末炒出红油。”3. 插画3: 煮制配菜与肉片- 锅中加入高汤或清水,烧开后先下豆芽、白菜烫熟捞出铺底,再放入腌好的肉片烫熟。下方手写:“步骤3:煮熟烫片- 锅中加高汤,先烫熟配菜捞出铺碗底,再下肉片快速滑熟。”4. 插画4: 泼油提香- 将煮好的肉片连汤倒入碗中,表面撒上蒜末和香葱/蒜苗段,另起锅烧热油,泼在蒜末葱段上,滋啦作响。下方手写:“步骤4:泼油增味- 将肉片汤汁倒入碗中,表面撒蒜末、蒜苗,烧热油淋泼其上,激发出香味。”装饰元素:画面边缘点缀手绘的厨房小物件(如小砂锅、勺子、案板、切菜刀),或者零散的食材(如几颗花椒、几个辣椒、几片姜蒜)。可以有手撕感纸张边缘、仿旧胶带贴纸、或复古印章图案(如“Homemade Goodness”、“辣到过瘾”等)。整体排版:采用手账常见的灵活排版,文字和图片错落有致,通过手绘线条、箭头或虚线将相关内容连接起来,增强视觉引导和趣味性。这个提示词加起来足足有 883 个字,你可以看最终图片输出,对指令理解还是到位的,最关键的中文渲染完全没有变形,直出 2 K 高清图。 「2、人物小盒」 ![]() 提示词如下:
这个是当时在 X 上贼火的图片,来自我的好朋友神娃,当时是用的🍌pro 出的效果和惊艳,现在我同样用 Qwen-Image-2.0 也能直出这样的效果了,太赞了。 「3、旅行手帐」 ![]() 提示词如下: 请帮我生成一张图这是一张充满手绘温度与艺术感的哈尔滨七天旅游攻略海报。比例为9:16,海报的画面中心是一张精致手绘的哈尔滨城市简易地图,以清新的浅蓝色与纯净的雪白色为底色,纸张边缘呈现出自然、柔和的手撕或微卷形态,仿佛是一张手工绘制的珍贵地图。【地图内容与地标描绘】地图上错落地标注着哈尔滨的标志性景点,均以小巧而精美的手绘图标呈现:圣索菲亚大教堂: 带有标志性绿色洋葱头和砖红色墙体,线条温暖。中央大街: 以一条蜿蜒的欧式石板路,两侧点缀着风格化的欧式建筑剪影。冰雪大世界: 描绘成一座晶莹剔透、闪烁着微弱蓝光的冰雪城堡。松花江: 以一条蓝白渐变的河流,上方点缀几只手绘的冰上玩乐小人。地图的其他区域,还点缀着哈尔滨红肠、冰糖葫芦、雪花、滑雪板等具有当地特色的简笔画小图标。【七日行程与文字排版】在地图的下方或左右两侧的空白区域(与地图完美融合,不再有“桌面”的区隔),采用复古且优雅的深蓝色艺术手写字体,以竖排或横排的流畅形式,清晰地排列着“Day 1 - Day 7”的详细行程指南。每个行程旁都配有与之对应的迷你手绘图标,例如:Day 1: 漫步冰城。 (配一个欧式建筑小图标)漫步中央大街,品尝马迭尔冰棍,看防洪纪念塔。Day 2: 圣殿余晖。 (配一个教堂穹顶小图标)参观圣索菲亚大教堂,走过中东铁路大桥看冰上落日。Day 3: 极致冰雪。 (配一个冰雕城堡小图标)全天沉浸冰雪大世界,体验超长滑梯与浪漫冰雕亮灯。Day 4: 异域童话。 (配一个俄式洋葱头小图标)前往伏尔加庄园,在俄式城堡与森林雪原间感受浪漫。Day 5: 萌宠烟火。 (配一个企鹅或红肠小图标)极地公园看企鹅漫步,逛红专街早市感受地道生活气息。Day 6: 雪域飞驰。 (配一个滑雪者小图标)亚布力滑雪场体验高山滑雪,感受粉雪与速度。Day 7: 巴洛克情怀。 (配一个巴洛克建筑小图标)逛道外中华巴洛克建筑群,吃老式锅包肉后温馨返程。【海报边缘与整体氛围】海报的边缘可以设计成仿旧的纸张纹理,或者被手绘的冰晶、雪花图案环绕。在文字排版和地图的空隙处,点缀着几枚手绘的松塔、晶莹的冰块,以及一张手写体的“哈尔滨欢迎你”明信片,所有元素都仿佛是画在同一张温暖的纸张上。【光影色调与视觉效果】整体光影明亮、柔和且通透,如同清晨阳光洒在手稿上,带来一种温暖而宁静的视觉体验。色调以清新的蓝白色系为主,点缀着地图和图标的局部暖色(如红肠的红色、教堂的棕色)。画面具有标志性的日系清新(日系胶片)色调,所有手绘元素都呈现出细腻的笔触和温暖的质感。海报整体营造出一种精致、有序、充满期待且富有艺术美感的冬日旅行仪式感。这个提示词也足够复杂和精准控制,你会发现 Qwen-Image-2.0 不厌其烦的开始生成,指令理解和中文表现很不错。 相反,同样的提示词输入给香蕉 pro,效果如下,其实最大的问题还是中文文字渲染问题,禁不起细看。 ![]() 但当你输入一个比较简单的提示词时,🍌pro 确能自行思考理解加审美设计输出一个比较好的效果,但简单提示词你给 Qwen-Image-2.0 比较难一次性得到想要的效果。 「4、人物细节写真」 ![]() 提示词如下: 可以看到毛孔、发丝这些细节,「显著降低了那种一眼就能认出来的AI 假人感」。 「5、PPT」 ![]() 提示词如下: 生成一张关于“Vibe Coding市场调研”的PPT页面设计图,采用极简主义与未来科技感的风格。页面背景为深蓝色调,搭配明亮、清新的数据可视化元素(荧光蓝、紫、青绿色)。整体布局规整,线条简洁,突出数据,营造专业且现代的视觉体验。页面顶部区域:居中放置主标题:“Vibe Coding市场洞察:开发者情绪与工具偏好”。字体为无衬线字体,字形现代,颜色为荧光色。主标题下方可有简短副标题或公司Logo,如“[公司名称] | 市场调研部”。左侧数据可视化区域(柱状图):在页面左侧,设计一个垂直柱状图。标题为:“Vibe Coding工具市场占有率分析”。图表采用3D透视感或扁平化简洁设计,柱子颜色由深到浅或渐变,带有微弱的光晕或发光效果。包含三到四根柱子,代表不同的Vibe Coding工具或平台。示例标签:“VibeFlow”、“CodeSpark”、“MoodCraft”、“Other Tools”。每根柱子的顶部清晰标注具体的百分比数字,字体醒目且与柱子颜色形成对比。示例数据:“48%”、“32%”、“15%”、“5%”。X轴和Y轴标签简洁,无过多装饰。图表下方可有简短的趋势分析或洞察,如“VibeFlow凭借其AI辅助功能,占据主导地位。”右侧数据可视化区域(饼状图):在页面右侧,设计一个饼状图。标题为:“开发者选择Vibe Coding工具的核心驱动因素”。饼状图采用环形设计或带有透明感的浮空感,扇区边缘锐利,颜色鲜明且区分度高,与柱状图颜色体系保持一致。分为三到四个扇区,代表不同的选择因素。示例标签:“代码推荐准确性”、“UI/UX美观度”、“社区与插件生态”、“性能与稳定性”。每个扇区内部或通过引线清晰标注具体的百分比数字,字体颜色与扇区颜色对比鲜明。示例数据:“45%”、“30%”、“15%”、“10%”。图表下方可有简短的结论性文字,如“智能辅助与用户体验是吸引开发者的关键。”背景与装饰元素:深色背景中可以有微弱的网格线、几何图形或抽象光效作为点缀,增强科技感,但不干扰主要数据展示。页面边缘或角落可有微量的发光线条或粒子效果。所有文字和图标都应保持高对比度,确保在深色背景下的可读性。「6、信息图」 ![]() 提示词:
「7、概念分解图」 ![]() 提示词: 参考之前 X 上爆火的神佬的拆解图提示词上做了调整生成一张手绘的全景式角色深度概念分解图,含中心人物全身立绘,周围展示服装分层,不同表情,随身物品及材质特写。顶部区域: 图像正上方从左到右排列四个面部特写,头像下方依次标注 '平静' '微笑' '惊讶' '忧郁' 文字。中央核心: 图像中央是图中的年轻女性,她梳着精致的侧扎低马尾,佩戴珍珠耳坠。她身着一件淡蓝色绸缎旗袍,领口为立领盘扣设计,裙摆印有白色玉兰花图案。细节拆解(右中侧): 右中侧展示一件提取出来的淡蓝色绸缎旗袍,下方标注'丝绸旗袍',并有一个箭头从女生身上的旗袍指向此处。细节拆解(右下侧):右下侧展示旗袍面料的放大材质特写,突出绸缎光泽与玉兰花刺绣纹理,标注'面料细节'。细节拆解(左下侧):左下侧展示一件提取出来的手工竹编篮子,篮内盛放着粉白色的玉兰花和一本书,标注 '随身花篮'。细节拆解(右上侧):右上侧展示一对珍珠耳环,下方标注“珍珠耳环”,并有一个箭头从女孩身上的珍珠耳环指向此处。细节拆解(左中侧):左中侧展示一本硬壳精装书,下方标注“随身书本”,并有一个箭头从女孩身上的书本处指向此处。细节拆解 (左上侧):左上侧展示一些玉兰花,下方标注“玉兰花”,并有一个箭头从女孩的随身花篮的花朵处指向此处。背景风格: 整体采用复古纸张底色,手绘设计稿风格,线条干净,色彩清新。「8、多图融合」 ![]() 提示词: 这里小女孩稍微有一些没有保持一致性。 「9、连环画」 ![]() 以可爱大象为主题生成九宫格连环画「10、沁园春雪」 ![]() 提示词:
「11、图像编辑」 ![]() 提示词: 帮我把狗狗的蓝色围兜换成白色围兜,花朵不变「12、海都女孩」 ![]() 提示词: 其实还测了不少的 case,篇幅关系就不放上来了,大家也可以去我的案例库里面看到。 总结下来,这次千问 Qwen-Image-2.0 能力提升还是比较大的,抓住差异化细节,比如在输入 Prompt 支持更多,在中文渲染上更稳定,在语义理解上更准确。 但要说不足,就是现在和🍌pro 比,缺少一些审美设计能力以及推理能力。 也就是我简单指令,没有办法通过推理去理解我的意图,利用好的审美代替我的想象。 不过,模型总归还是在不断进步,也非常期待千问图像基座模型的下一代。 好啦,分享就先到这啦,我们下一期见。 |
|
|