家人们,咱就是说,又被国产AI作画给狠狠惊艳到了! 不仅是在AI作画的审美水平和专业度上达到顶尖水平,更是把用户们的“福利值”直接拉满的那种:
话不多说,直接来欣赏一组照片: 如果不说是AI生成的,相信很多小伙伴会以为是俊男靓女的真人写真了吧。 毕竟这根根分明的发丝、清晰可见的肤质,还有纵横交错的光影,着实是有点影楼摄影级的了。 就算是打破次元壁,在二次元的作画处理上,每张图也都是达到了“拿来即用”的水平: 这便是来自商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0.3.5 版本,而且还是时隔仅3个月迭代出来的新版本。 我们知道,预训练对于提高模型的泛化性帮助很大,这样往往只需要少量训练和模型优化,它就能在新的下游任务中取得出色的表现,也就是大家通常所熟悉的LoRA模型。 现在市面上,很多知名LoRA模型,例如-blindbox/大概是盲盒,都是基于Stable Diffusion,添加相关数据,来进行训练,从而在某一个垂类领域可以达到非常出色的作画效果。 但是,Stable Diffusion作为泛化性支撑的预训练模型,其本身的作画效果并不会太突出。 那么秒画Artist v0.3.5作为商汤最新的预训练模型,在不额外训练LoRA模型的情况下,能达到什么样的水平呢?接下来,就让我们从各个不同领域,深入来了解一下它的真实水平。 摄影级AI作画体验实录要想看一个AI作画的水平,首先就得主打一个方方面面,各种类型风格需得全能hold住才可。 那么接下来,就开启我们的多轮测试吧~ 猜猜谁是真人 我们先来看下这两张照片,你是否能猜到哪张是真人呢? 无论是人物的表情、头发和衣物的细节,这两张都妥妥是真人模特出镜的水准。 现在我们就来公布答案——右图正是由秒画生成的AI画作。 而且提示词也是极其的简单:
为了检验秒画是不是一直能够输出如此高质量图片,我们继续输入提示词:
应当是完全符合光看提示词时,所脑补出来的画面了。 我们再加大难度,添加一些天马行空,但同样颇具艺术气息风格的提示词:
毫无压力完成画作!所以不难看出,秒画在专业摄影水平上是过关的。 利好二次元爱好者 自打AI作画火爆起来之后,二次元风格也成了检验能力的标准之一。 我们再来看下秒画在二次元上的“功力”如何。 先“投喂”几段国漫风的二次元提示词:
颇有《大鱼海棠》的味道了!而且画质上也比普通二次元风格要精进不少。 再来:
同样是妥妥可以出片儿的国漫风水准。 我们继续上难度,若是把“赛博朋克”和“中国武侠”来个混搭,秒画又该如何接招?
可以说是非常符合国漫的二次元风格,并且每幅作品都可以直接拿来当封面了有木有! 接下来,我们再大变风格,再来个lol同好们,最喜欢的金克丝同人画创作: △Prompt:金克丝,二次元,插画艺术 如何?是你心目中的金克丝吗? 再来一个童年回忆,美少女战士!
宛如动画片的某一帧镜头,人物的眼神和表情也是非常符合提示词的要求。 天马行空的创造力 中规中矩的作画之后,我们再来测试一下秒画的想象力。
不得不说,当看到这幅作品的时候,有被深深的震撼到;不论是作品的灵感亦或是妆造,都着实有点太前卫了。 再来看几组脑洞大开的未来科幻大作: 同样,依旧是被科幻与大胆的想象力所震撼。 经过多轮测试,我们可以发现,秒画Artist v0.3.5模型,作为一个基础的预训练模型,不仅保持了很好的泛化性,在画面的细节效果上也有很优秀的表现,在某些垂类的作画领域,甚至可以达到与LoRA模型相媲美的效果。 与Midjourney同台竞技 在纵向看完秒画的最新能力之后。相信很多人希望我们请出来更具挑战性对手——Midjourney。 我们做比较的方式非常简单粗暴:同样的提示词,直接比效果。 我们第一个提示词是:
秒画给出的作品结果如下: Midjourney给出的效果是这样的: 不得不说,在最终效果上是难分伯仲的,都非常符合提示词要求的意境。 再来动漫与科幻结合的比拼:
秒画的输出结果如下: 而Midjourney从不同角度给出了它的“理解”: 单单是在这个“题目”上,个人更倾向于秒画的作品,构图和意境相对更加完善一些。 最后前卫抽象派的水平:
△左:秒画;右:Midjourney 那么对于二者的比较,你觉得谁更胜一筹呢? 不过在实用性上,秒画单是在免费这一条上,应当算是更胜一筹了。 其实秒画作为预训练模型,在这样的对标比拼中能够展现这样的作画能力,已经十分令人惊喜。 我们还了解到,用户可以基于秒画Artist v0.3.5 模型进一步训练小模型的功能,目前已经在B端开放应用了,这样企业可以基于秒画的能力,训练打磨自己的专属模型。 也让我们期待这一功能面向C端开放,让秒画能够进一步释放全部实力。 如何“食用”?在操作上,秒画也是非常的好上手。 在官网注册登陆之后,直接点击“开始创作”,即可开启AI作画之旅。 根据自己的需要,选择自行选择商汤自研大模型(Artist)或各类社区开源模型,也可根据风格倾向自行LoRA模型。 在图生图界面,新版本的秒画还将ControlNet这一宝藏工具进行了整合,用户无需跳转,直接在“图生图”功能下即可使用,进阶创作更快捷。 是不是很简单? 如果大家灵感枯竭,也可以点击“灵感广场”,进行“充能”哦。 例如,汇集了用户诸多优质作品,包括完整的提示词,可以在灵感枯竭的时候“充能”。 并且在模型与数据集的选择上也并非单一不可改,在主页的上方菜单栏中即可进行选择。 不难看出,秒画在用户体验上也是主打的一个“方便易懂”。 怎么做到的?正如我们前文提到的,秒画3.5的版本迭代,仅仅耗时3个月。 而追溯到更早的版本,秒画也在不断成长:
可以看到,近乎是每3个月便有一次版本的更新。 随之而来的一个问题便是:怎么做到的? 其实早在半年前,商汤站在AIGC新时代下,围绕数据、算法和算力三要素给出了一个新公式: 计算量(GPU数量 x 运行时间 x 并行效率 )= 模型参数量 x 处理数据量。 这个公式侧重体现的是大数据和大算力方面的发力,但除此之外,我们发现商汤实则在算法方面也做了不少的工作。 据了解,秒画的预训练模型是由商汤科技基模型研究团队支撑完成。 过去的几年中,商汤在大模型结构设计、训练优化、平台和数据、算力等领域都有长期的深耕与投入,有架构设计和优化方面的丰富经验和积累。不但储备了超过50亿的有效图文数据,更发表10+相关论文。 例如在上半年提出的RAPHAEL算法,便是通过探究生成模型的内在性质,设计更高效的稀疏架构来强化文本理解和生成能力。 简单来说,这项技术是通过堆叠数十个“多专家模型”( Mixture-of-Experts,MoEs),包括空间维度和时间步维度等等,从而实现从网络输入到输出的数十亿个扩散路径。 而这些个路径,每个都可以视为一个“画家”, 用扩散时间步长将特定文本概念描绘到指定图像区域上。 △基于RAPHAEL的生成效果图 从综合实验上来看,RAPHAEL在图像质量和美学吸引力方面已经优于当时众多的尖端模型。 在此之后,商汤还在基础文生图预训练模型方向进一步探索更高效的基础网络架构、大规模训练优化算法、美学算法引导架构设计、空间感知的动态文本尺度控制等算法,提升AI作画的生成质量和能力。 在这般努力之下,也就有了我们目前看到的秒画3.5版本了。 总而言之,有大数据、有大算力、有大模型,算法技术也在不断优化,商汤能够让秒画每三个月做到版本迭代就不难理解了。 最后,秒画的地址放下面了,感兴趣的小伙伴可以开启高质量、免费的AI作画之旅了~ 秒画入口: — 完 — 量子位 QbitAI · 头条号签约 关注我们,第一时间获知前沿科技动态 |
|
来自: 山峰云绕 > 《人工智能信息科学仿生等新奇技术》