Ai绘画基础技能：念咒——以Stable Diffusion为例

六十甲子 2024-03-10 发布于安徽

展开全文

在当前阶段使用生成式Ai，有一样东西是必须掌握的，这样东西被称之为：「咒语」。使用者就像港片里的茅山道士，或哈利波特里的魔法师一样，无一例外要懂得念咒。

这是一个持续互动的过程，使用者必须让Ai知道他想要什么，Ai才会给出反馈。使用过chatgpt的人也知道，你不提出问题或指令，它就不会回答你。

所以所谓「咒语」，可以说就是，对想要达到的目标的具体描述。这种描述，在英文语境里被称为prompt，这是目前和生成式Ai的通用沟通方式。

提问/沟通的方式和策略是否得当，决定能否得到Ai更深入准确的反馈。这个事情是有门槛的。

有国外公司为精通chatgpt咒语的工程师，开出了年薪33.5万美金的价码。

这里暂不探讨chatgpt文本机器人咒语，本文旨在以Stable Diffusion(SD)的使用为例，以最简单的例子，分享Ai绘画的基础咒语知识和思路。

如是熟手，下文可以略过。

咒语使用哪国语言

咒语通常是英文，主要内容以逗号间隔开单词/词组/短句。也可以用中文或其它语言，但效果往往不佳。

所以，为什么绘画念咒经常会用到chatgpt，就是这个原因。用chatgpt将中文咒语翻译成英文，再将英文抛给绘画Ai就好了。据个人观察，它的翻译效果比绝大多数工具都要好。

其实，用户也无须担心语言问题会影响使用操作，如果没有chatgpt，用百度翻译、彩云小译、有道翻译等国内工具也能应付。

念咒形式

主要分两种，一种是自然语言描述，一种是词语堆叠。前者举例：请画一个戴着棒球帽穿着蓝色运动服的女孩。后者举例：一个女孩，棒球帽，蓝色运动服。

这两种形式并不冲突，可以混合使用。需要指出的是，词语堆叠方式在有些时候，会使画面元素偏离期望，比如上例，棒球帽会有小概率没有戴在头上而出现在别处，比如拿在手中。

当然，词语堆叠由于上下文并不总是严谨相关，通常也更能利用Ai的想像力补充，画出令人眼前一亮的作品，更接近真正意义的开盲盒。

上述咒语的吟唱方式，和Midjourny的用法是一致的，所不同的是参数的使用。

咒语的顺序和权重

▶顺序

咒语中的词语顺序，会影响画面内容呈现，在实践中发现，顺序和权重密切相关（不排除偶尔失效）。

咒语举例：一个女孩站在南瓜跟前。这时，Ai会围绕女孩为主体展开绘画。如果换成：南瓜前站着一个女孩。那么，绘画通常会以南瓜为第一要素展开，女孩从而变成第二要素，有可能会出现人物不够特出的情况。

这里很自然会延伸出另一个问题，在上例中，假如首先描述的不是南瓜，而是一只手表，咒语换成是：戴着手表的女孩。这样，女孩会不会变成次要元素？

答案是不会。类似手表这类物体，当其和人物相遇，“天生”会被视为配角或细节。那么，怎么判断何种物体会被纳入这个范畴？终极答案是，生活经验。在这一点上，Ai目前大体上已跟我们的“经验”接近。

当然，它的理解还不完美。

这里顺带提一个关于咒语顺序的有意思的细节，比如，你想描绘一个女孩和花的美好画面，假如你采用了词语堆叠的方式进行吟唱：阳光明媚，一个女孩，鲜花，起舞的蝴蝶。

那么，画面有一定概率在女孩的衣服上或其它地方，也会出现鲜花(图案)。但是，如果鲜花这个词和女孩不挨在相邻位置，则这种情况基本可以避免。

这个例子，主要想说明另一个使用观察：相邻的两个词语，在画面输出中会存在交叉影响的情况，虽然这并不总会出现。

▶权重

为了强调一些要素，保障（或弱化）这些要素被Ai画出的概率，很多时候需要给它们赋予权重，划出重点。

例如，一个穿着白色裙子的女孩站在红色的玫瑰花前：A girl wearing a white dress is standing in front of red roses.

在结果画面中，Ai给女孩穿上的，有概率并不是白色的裙子，这个时候，就要在咒语中给“白色裙子”赋予权重。

主要有两种方式，一种是加小括号，此时，白色裙子的咒语可变成：(white dress)或((white dress))这种形式，每加一对括号，权重就乘以一次1.1，以此类推。

另一种方式是，括号内关键词后加冒号再写上权重值，如，写成(white dress:1.3)，意思是白色裙子的权重是1.3。这种方式更为方便。

所以，上例中要让Ai更高概率画出白色裙子，咒语最终可调整为：

A girl wearing a (white dress:1.3) is standing in front of red roses.

需要指出的是，权重值一般在1～2之间，但超过1.5时有可能失效，达到2时有一定概率召唤出奇怪的画面，包括上古神兽。

如需降低权重，可使用中括号，中括号的降权值是除以1.1，但一般很少用到。中括号的进阶用法，还可以用于分步或融合绘画，通常用于精细绘制，具体以后再行介绍。

关于权重的表达，在Midjourney中是另一种方式，此处不表。

咒语的细节

我们看港产鬼片，印象深刻的画面，除了主角之外，恐怕还有摇曳的灯火、阴森的光影、诡异的气氛等，才可完整衬托出画面要传递的信息。

绘画也是同样道理，要取得好的效果，还得加入其它元素描述，比如说，光线照明、摄影风格、细节、清晰度等扩充描述。

这种扩充，都可以统称为细节。

细节举例：一个女孩，她可以被描述为有一点可爱的小雀斑，也可拥有无瑕的面部，可以有黑色的大眼睛，闪亮的耳环等；她可以在一个阳光灿烂的日子里出现，也可以行走于南方的梅雨之中；光线可以从侧面照过脸廓，也可以从头顶散射。

无论你需要的是真实的摄影画面，还是水彩画、油画或某个大师的风格，都可以让Ai听到你的具体吟唱。

只有充分描述你的设想，Ai才能最大限度地复现你脑中的画面。

如果你只有一些粗略的无甚关联的词汇，也没有问题，如前文所述，Ai会代替你去联想。这个用法，无论是Stable Diffusion还是Midjourney，都是适用的。

咒语不灵？

对于新手来说，出现画面崩坏的概率不算太低。比如说，画面变黑，或出现一些明显的不协调的东西/效果等。

前者可能是因为硬件配置不足，这里重点说一下后者。

这种情况，排除模型理解力不足的原因之后，通常是因为咒语不够详细，Ai代替你进行了“脑补”。

需要指出的是，详细是相对概念，当画幅设置得越大，越是需要详细的咒语。当画完咒语要素之后，如发现还有不少“余地”，Ai会自作主张。

反过来也是成立的，当画幅很小，但你吟唱了很长很详细的咒语时，画面不一定理想。

当对一些词语或句子赋予的权重过高时，也可能出现过犹不及的情况，呈现奇怪画风。

咒语有公式吗

如果你能看到这里，那么对SD绘画咒语该如何吟唱，应该有了一个基本概念。

如果你能再将自己的角色设定为一个手持相机的拍摄者，则一个画面里要有什么事物和细节，细想一下，必定会有自己更进一步的理解。

回到Ai绘画上来，一般认为，一条相对完整的咒语，比较好的做法是至少包含3个内容：

主角+背景+细节

这里举一个简单的咒语例：一个快乐的女孩走在美丽的海滩上，她光着脚，穿着白色的T恤和牛仔短裤。远处的海面上，隐约可见几只帆船。（后面可接上画风、光照、画面质量要求等细节补充）

这里提到了主角（女孩）、背景（大海），以及各种细节。这种语言描述，本质上是一种短句表达，区别于词语堆叠。

当然，这种咒语内容总结，仅是一种理解。咒语关键词的表达顺序，也非固化不变泾渭分明，很多时候也会受到绘画模型能力的制约，可在实践中依情况调整。

最后补充的一点是，在Stable Diffusion和Midjourney中，都允许用户提出“负面提示”，即，你希望画面中不要出现什么内容，也可列出，比如说，低质量的画面、有斑点的皮肤，等等。

负面提示也是很重要的咒语，同样可依序列出并赋予权重，与之对应的，上文提到的所有咒语，均为正面提示。具体的应用教程，后续将会在这里分享。

以上。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：六十甲子 > 《AI智能生成》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

六十甲子

关注对话

TA的最新馆藏

你可能经常说，却写不出来的汉字
用360浏览器、Edge浏览器保存百度文库中的文章
抗战时期，延安迎来了一批特殊的客人
[转] 上善若水：能学一条就很厉害！
Ai绘画基础技能：念咒——以Stable Diffusion为例
Win10基于python，spleeter 人声提取工具安装和使用--超详细-CSDN博客

喜欢该文的人也喜欢更多

热门阅读换一换