分享

Decrypt 稳定扩散指南:最强大的 AI 图像生成开源工具

 云端筑梦师AI 2023-08-20 发布于广东

Stable Diffusion 是一种文本到图像生成人工智能工具,这意味着它将文字转换为图像。这个过程类似于将详细的简介邮寄给一位画家,然后等待精心创作的艺术品的返回。

将稳定扩散视为你个人的基于人工智能的创意盟友。这种深度学习模型主要是为了根据文本提示生成图像而设计的,它超越了单一功能。它还可用于修复(更改图像的部分)、覆盖(将图像扩展到其现有边界之外)以及根据文本提示翻译图像。这种多功能性相当于拥有一位多才多艺的艺术家供你使用。

稳定扩散的力学

稳定扩散基于深度学习模型运行,该模型根据文本描述制作图像。其支柱是扩散过程,其中图像通过一系列步骤从随机噪声转变为连贯图像。该模型经过训练可以引导每个阶段,从而根据提供的文本提示指导从开始到完成的整个过程。

稳定扩散背后的中心思想是将噪声(随机性)转换为图像。该模型以一堆随机噪声(想象一下来自无信号电视的白噪声的彩色版本)来启动该过程,然后在文本提示的影响下逐渐细化为可辨别的图像。这种细化系统地进行,稳定地减少噪声并增强细节,直到出现高质量的图像。

随着扩散过程的开始,初步阶段在很大程度上决定了图像的整体构图,随后的关键字更改仅影响较小的部分。这强调需要仔细注意关键字权重和时间安排,以实现你想要的结果。

稳定扩散的优点和缺点

稳定扩散的优点之一是,它擅长创建详细的高质量图像,并根据特定提示进行定制设计。它可以轻松地浏览各种艺术风格,无缝融合不同艺术家的技术,并在不同的关键词之间平滑过渡。

MidJourney等同类产品不同,Stable Diffusion 是免费的,这对你的预算来说是一个福音。它也是开源的,这意味着你可以根据需要对其进行修改。无论你渴望创造未来派风景还是动漫风格的图像,稳定扩散都有一个适合你的模型。稍后我们将深入研究如何下载并根据你的喜好定制这些模型。

你可以离线运行它,无需持续的互联网连接或服务器访问,这使其成为注重隐私的用户的宝贵工具。

然而,也有一些缺点, MidJourney 不同,Stable Diffusion 具有陡峭的学习曲线。要生成真正出色的图像,你必须使用自定义模型、插件和一些提示工程。这有点像 Windows Linux 的情况。

此外,该模型有时会表现出不可预见的关联,从而导致意外的结果。提示中的轻微失误可能会导致输出出现重大偏差。例如,在提示中指定眼睛颜色可能会无意中影响生成的角色的种族(例如,蓝眼睛通常与白种人相关)。因此,为了获得最佳结果,必须深入了解其工作原理。

此外,提示中需要大量细节才能提供令人印象深刻的结果。与 MidJourney 不同,MidJourney一个美丽的女人在公园散步等提示下表现良好,而稳定扩散需要对你希望(或不希望)在图像中看到的所有内容进行全面描述。为冗长、详细的提示做好准备。

操作稳定扩散

运行稳定扩散的方法有多种,可以通过基于云的平台,也可以直接在本地计算机上。 

以下是一些可让你在云中测试它的在线平台:

Leonardo AI:允许你尝试不同的模型,其中一些模型模仿 MidJourney 的美学。

Sea Art:使用插件测试大量稳定扩散模型的好地方是其他高级工具。

Mage Space:提供稳定扩散版本 v1.5 2.1。尽管它有大量其他模型,但它需要会员资格。

Lexica:一个用户友好的平台,可指导你发现图像的最佳提示。

Google Colabs:另一个易于访问的选项。

但是,如果你选择本地安装,请确保你的计算机具有必要的功能。

系统要求

要在本地运行 Stable Diffusion,你的 PC 应运行 Windows 10 或更高版本,并且至少配备具有至少 4 GB VRAM 的独立 Nvidia 显卡 (GPU)、16GB RAM 和至少 10GB 可用空间。

为了获得最佳体验,建议使用具有 12GB vRAM32GB RAM 和高速 SSD RTX GPU。磁盘空间将取决于你的具体需求:你计划使用的模型和附加组件越多,你需要的空间就越多。一般来说,模型需要 2GB 5GB 的空间。

使用自动 1111 导航稳定扩散

当你开始稳定扩散之旅时,选择正确的图形用户界面 (GUI) 变得至关重要。在绘制方面,Invoke AI处于领先地位,而SD.Next 则注重效率。ComfyUI是一个基于节点的超轻量级选项,由于与新的 SDXL 兼容,最近获得了很大的关注。然而,Automatic 1111以其流行性和用户友好性成为最受欢迎的。让我们深入探讨如何开始使用 Automatic 1111

运行稳定扩散的两个不同的 GUIA1111 ComfyUI

设置自动 1111

由于此存储库上提供了一键式安装程序,Automatic 1111 的安装过程并不复杂。进入 Github 页面的“assets”部分,下载 .exe 文件并运行它。这可能需要一些时间,所以请坚持下去 - 请记住,耐心是关键。

成功安装后,“A1111 WebUI”快捷方式将在新打开的文件夹中出现。考虑将其固定到任务栏或创建桌面快捷方式以便于访问。单击此快捷方式将启动稳定扩散,为你的创意命令做好准备。

最好勾选以下复选框:自动更新 WebUI(使程序保持最新)、自动更新扩展(保持插件和第三方工具更新),并且,如果你的电脑功能不是那么强大,还应激活低 VRam (medvram) 和启用 Xformers 的选项。

启动 A1111 之前出现的屏幕

了解用户界面

安装了 A1111 的稳定扩散后,打开它时你将看到以下内容

自动 1111 GUI

但不要被吓倒。以下是运行稳定扩散时界面的简要浏览:

检查点或模型:本质上是 AI 图像操作背后的核心,这些预先训练的稳定扩散权重可以与接受不同流派的不同艺术家进行比较。一个人可能擅长动画,而另一个人则擅长现实主义。你在这里的选择决定了你图像的艺术风格。

积极提示:这是你在形象中表达你想要的东西的地方。

否定提示在此指定你不希望在你的作品中看到的内容。

创建样式:如果你希望将正面和负面提示的特定组合保存为样式以供将来使用,请单击此处进行操作。

应用样式:将以前保存的样式应用到当前提示。

生成:设置完所有参数后,单击此处使你的图像栩栩如生。

采样步骤:此参数定义将随机噪声转变为最终图像所采取的步骤。20 75 之间的范围通常会产生良好的结果,25-50 是实用的中间值。

采样方法:如果模型代表该程序的核心,那么采样器就是一切背后的大脑。这是用于获取提示、编码器和每个参数并根据你的命令将噪声转换为连贯图像的技术。有很多采样器,但我们推荐“DDIM”用于快速渲染,只需几个步骤,“Euler a”用于皮肤光滑的人的绘图或照片,“DPM”用于详细图像(DPM++ 2M Karras 可能是一个不错的安全选择) 。以下是使用稳定扩散的不同采样方法获得的结果的汇编。

批次计数:批次计数将一个接一个地运行多批生成。这将允许你使用相同的提示创建不同的图像。这需要更长的时间,但使用更少的 vRAM,因为每个图像都是在前一个图像完成后生成的

批次大小:这是每个批次中有多少并行图像。这将为你提供更多图像,速度更快,但也需要更多 vRAM 来处理,因为它会在同一代中生成任何图像。

CFG比例:它决定了模型的创作自由度,在遵循你的提示和自己的想象力之间取得平衡。较低的 CFG 将使模型忽略你的提示并更具创造性,较高的 CFG 会使其完全没有自由地坚持下去。5 12 之间的值通常是安全的,7.5 提供可靠的中间值。

宽度和高度:在此处指定图像尺寸。起始分辨率可以是 512X512512X768768x512 768x768。对于 SDXLStability AI 的最新型号),基本分辨率为 1024x1024

种子:将其视为图像的唯一 ID,为初始随机噪声设置参考。如果你打算复制特定结果,这一点至关重要。此外,每个图像都有一个独特的种子,这就是为什么不可能真正 100% 复制特定的现实生活图像 - 因为它们没有种子。

骰子图标:将种子设置为 -1,使其随机化。这保证了每个图像生成的唯一性。

回收图标:保留上次图像生成的种子。

脚本:它是执行影响你的工作流程的高级指令的平台。作为初学者,你可能希望暂时保持不变。

保存:将生成的图像保存在你选择的文件夹中。请注意,稳定扩散还会自动将图像保存在其专用的输出文件夹中。

发送到 img2img将你的输出发送到 img2img 选项卡,使其成为类似它的新一代的参考。

发送到修复:将图像定向到修复选项卡,使你能够修改特定图像区域,例如眼睛、手或伪像。

发送到额外内容:此操作会将你的图像重新定位到额外内容选项卡,你可以在其中调整图像大小,而不会丢失大量细节。

就是这样——一切都准备好了!现在,让你的创造力尽情发挥,见证稳定扩散的神奇魅力。

提示工程 101:如何为 SD v1.5 制作良好的提示

稳定扩散的成功很大程度上取决于你的提示——将其视为引导人工智能的指南针。细节越丰富,生成的图像就越准确。

快速制作有时可能看起来令人畏惧,因为稳定扩散不遵循线性模式。这是一个充满尝试和错误的过程。从提示开始,生成图像,选择你喜欢的输出,修改你珍惜或希望消除的元素,然后重新开始。冲洗并重复这个过程,直到你的杰作通过修复调整和不懈的改进而出现。

正面提示、负面提示和微调关键词权重

Stable Diffusion 的设计可以通过语法(关键字:因子)调整关键字权重。低于 1 的因素会淡化其重要性,而高于 1 的因素会放大其重要性。要操纵权重,请选择特定关键字并按 Ctrl+Up 增加或按 Ctrl+Down 减少。此外,你可以使用括号——使用的越多,关键字的权重就越大。

修饰符为你的图像添加最后的华丽,指定情绪、风格或细节(如黑暗、复杂、高度详细、清晰的焦点)等元素。

积极的提示概述了你想要的元素。快速构建的可靠策略是按顺序指定图像类型、主题、媒介、风格、背景或风景、艺术家、使用的工具和分辨率。civita.com 的演示可以是真实感渲染、(数字绘画)、(最佳质量)、宁静的日本花园、盛开的樱花、(((锦鲤池)))、人行桥、宝塔、浮世绘艺术风格,北斋灵感,异常艺术流行,8k超写实,柔和的配色方案,柔和的灯光,黄金时刻,宁静的氛围,风景导向

相反,负面提示详细说明了你希望从图像中排除的所有内容。示例包括:暗淡的颜色、丑陋、糟糕的手、太多的手指、NSFW、融合的四肢、最差的质量、低质量、模糊、水印、文本、低分辨率、长脖子、超出框架、多余的手指、变异的手、单色、丑陋的、重复的、病态的、不良的解剖结构、不良的比例、毁容、低分辨率、变形的手、变形的脚、变形的脸、变形的身体部位、((相同的发型))等。不要害怕用不同的词。

考虑提示的一个好方法是“What+SVCM(主语、动词、上下文、修饰语) ”结构:

内容:确定你想要的内容:肖像、照片、插图、绘画等。

主题:描述你正在考虑的主题:一个美丽的女人、一个超级英雄、一个亚洲老人、一个黑人士兵、小孩、美丽的风景。

动词:描述拍摄对象正在做什么:女人正在对着镜头摆姿势吗?超级英雄是飞还是跑?亚洲人是微笑还是跳跃? 

背景:描述你的想法中的场景:场景发生在哪里?在公园、在教室、在拥挤的城市?尽可能具有描述性

修改器:添加有关图像的附加信息:如果是图片,则使用哪个镜头。如果是一幅画,是哪位艺术家画的?使用哪种类型的照明,哪个地点会采用这种照明?你正在考虑哪种服装或时尚风格,图像吓人吗?这些概念用逗号分隔。但请记住,越接近开始,它们在最终作品中就越突出。如果你不知道从哪里开始,如果你不想只是复制/粘贴其他人的提示,这个网站和这个Github 存储库有很多好主意供你尝试

因此,积极提示的一个例子可以是:在一家昂贵的酒店里对着镜头摆姿势的可爱贵宾犬的肖像,(((黑尾巴)))、秋天、散景、杰作、强光、胶片颗粒、佳能 5d 标记4F/1.8Agfacolor、虚幻引擎。

否定提示不需要适当的结构,只需添加你不喜欢的所有内容,就好像它们是修饰符一样。如果你生成图片并看到一些你不喜欢的内容,只需将其添加到否定提示中,重新运行生成并评估结果即可。这就是人工智能图像生成的原理,这并不是什么奇迹。负面提示的一个例子可以是:模糊、画得不好、猫、人类、人、素描、恐怖、丑陋、病态、变形、标志、文本、不良解剖学、不良比例

关键词整合和及时安排

关键字混合或提示调度采用语法[关键字1:关键字2:因子]。该因子是一个介于 0 1 之间的数字,决定在哪一步从关键字 1 切换到关键字 2

懒惰的出路:复制提示

如果你不确定从哪里开始,请考虑利用各个网站的想法并进行调整以满足你的需求。提示的优秀来源包括:

奇维泰

词典

稳定的扩散网

提示英雄

或者,保存你欣赏的人工智能生成的图像,将其拖放到“PNG 信息选项卡上,稳定扩散会提供重新创建它的提示和相关信息。如果图像不是 AI 生成的,请考虑使用 CLIP Interrogator 插件来更好地理解其描述。有关此附加组件的更多详细信息将在指南后面提供。

避免陷阱

稳定扩散的效果取决于它给出的提示。注重细节和准确性,提供清晰具体的提示并重视概念而不是解释至关重要。不要精心设计一个句子来描述宽敞、自然光线充足的场景,而只需说宽敞、自然光线

请注意某些属性可能带来的意外关联,例如指定眼睛颜色时的特定种族。对这些潜在陷阱保持警惕可以帮助你制定更有效的提示。

请记住,你的指示越具体,你的结果就越容易控制。但是,如果你假装创建长提示,请务必小心,因为使用矛盾的关键字(例如长发,然后对头发进行排序,或者否定提示中的模糊和肯定提示中的模糊)可能会导致意外结果:

安装新模型

安装模型是一个简单的过程。首先确定适合你需求的模型。Civita 是一个很好的起点,它以最大的稳定扩散工具存储库而闻名。与其他替代方案不同,Civita 鼓励社区分享他们的经验,为模型的功能提供视觉参考。

访问 Civita,单击过滤器图标,然后在模型类型部分中选择检查点

Civitai 使用过滤器让用户个性化搜索/Jose Lanz/Decrypt Media

然后,浏览网站上所有可用的模型。请记住,稳定扩散未经审查,你可能会遇到 NSFW 内容。选择你喜欢的型号并单击下载。确保模型具有 .safetensor 扩展名以确保安全(旧模型使用 .ckpt 扩展名,但不太安全)。

Civitai 下载特定自定义 SD v1.5 模型的页面示例。

下载后,将其放入本地 Automatic 1111 的模型文件夹中。为此,请导航到安装 A111 Stable Diffusion 的文件夹,然后按照以下路线操作:“stable-diffusion-webuimodelsStable-diffusion”

有数百种型号可供选择,但作为参考,我们的一些首选是: 

如果你想玩逼真的图像,请使用 JuggernautPhotonRealistic Vision aZovya Photoreal

DreamshaperRevAnimated 以及 DucHaiten 的所有模型(如果你喜欢 3d 艺术)。

DuelComicMixDucHaitenAnimeiCoMixDucHaitenAnime 如果你喜欢漫画和漫画等 2D 艺术。

编辑图像:图像到图像和修复(待办事项)

稳定扩散还允许你使用 AI 编辑你不喜欢的图像。你可能想要更改构图的艺术风格,在天空中添加鸟类,删除人工制品,或修改手指过多的手。为此,有两种技术:图像到图像和修复。

Stable Diffusion(右)基于用作参考的照片(左)使用 Img2img/Jose Lanz 创建的图像

图像到图像本质上是让稳定扩散使用另一张图片作为参考来创建新图像,无论它是真实图像还是你创建的图像。为此,只需单击图像到图像 (Img2Img) 选项卡,将参考图像放入相应的框中,创建你希望计算机遵循的提示,然后单击生成。需要注意的是,你应用的降噪强度越大,新图像与原始图像的相似程度就越低,因为稳定扩散将具有更多的创作自由度。

知道了这一点,你可以做一些很酷的技巧,比如扫描你祖父母的旧照片作为参考,通过低降噪强度的稳定扩散和一个非常笼统的提示(如“RAW4k 图像,高度详细)运行它们,看看如何人工智能重建你的照片。

修复允许你在原始图像中绘制或编辑内容。为此,从同一个 Img2Img 选项卡中,选择修复选项并将参考绘画放置在那里。

然后,你只需绘制要编辑的区域(例如,角色的头发)并添加要创建的提示(例如,直长的金发),就完成了!

使用修复在金发女超人的参考图像上编辑蓝色头发。由 AI/Jose Lanz 生成

我们建议生成多批图像,以便你可以选择最喜欢的图像并修改提示。然而,最后,如果你非常细心,手头有一个像 Photoshop 这样的工具总是有好处的,这样可以得到完美的结果。

增强稳定扩散功能的 5 大扩展

现在你已经熟悉了稳定扩散,你可能渴望进一步发挥你的创造力。也许你想要固定特定的手部位置、强制模型生成五指手、指定某种类型的衣服、增强细节、使用特定的脸部,或者将小图像转换为大型 8K 文件,同时尽可能减少细节损失。

扩展可以帮助你实现这些目标。虽然有许多可用选项,但我们重点介绍了五个必备扩展:

LoRA:细节决定成败

不使用 LoRA 生成的图像与使用 LoRA 生成的相同图像以添加更多细节。

LoRA 是旨在增强模型特异性的文件,无需下载全新模型。这使你可以完善细节,采用特定的面孔、服装或风格。

要安装 LoRA,请按照下列步骤操作:

单击扩展选项卡并选择 URL 安装

在框中输入 URLhttps: //github.com/kohya-ss/sd-webui-additional-networks.git ,然后单击安装

完成后,单击已安装,然后单击应用并重新启动 UI”

安装 LoRA 的步骤与安装模型相同。在 Civitai 上,将过滤器设置为“LoRA”,并使用以下路径将文件放入 LoRA 文件夹中:stable-diffusion-webuimodelsLora

请记住,某些 LoRA 需要在提示中输入特定关键字才能激活,因此请务必在使用前阅读其说明。

要使用 LoRA,请导航到 text2img 选项卡,单击类似小画的图标(显示/隐藏额外网络),LoRA 将出现在提示下方。

ControlNet:释放视觉魔法的力量

不使用 LoRA 生成的图像与使用 LoRA 生成的相同图像以添加更多细节。

如果你对稳定扩散的功能尚未做出决定,请让 ControlNet 扩展成为最终的答案。ControlNet 拥有巨大的多功能性和强大功能,使你能够从参考图像中提取构图,证明自己是图像生成领域的游戏规则改变者。

ControlNet 确实是万事通。无论你是需要复制姿势、模拟配色方案、重新设计你的生活空间、制作五指手、在不使 GPU 负担过重的情况下执行几乎无限的升级,还是将简单的涂鸦转变为令人惊叹的 3D 渲染或逼真的视觉效果,ControlNet 都可以为你提供帮助。方式。

安装 ControlNet 涉及以下简单步骤:

访问扩展页面并选择 URL 安装选项卡。

将以下 URL 粘贴到扩展存储库的 URL”字段中:https: //github.com/Mikubill/sd-webui-controlnet

单击安装

关闭稳定扩散界面。

要启用 ControlNet,你需要从此存储库下载模型:https:///lllyasviel/ControlNet-v1-1/tree/main

然后,将所有下载的文件复制到此文件夹中:stable-diffusion-webuiextensionssd-webui-controlnetmodels

重新启动稳定扩散后,你会注意到 text2img 选项卡中出现了一个新的“ControlNet”部分。 

向你提供两个主要选项:用于拖放参考图像的框、控件类型选择和预处理器。

参考图像框是你上传想要参考的姿势、脸部、色彩构成、结构等的图像的地方。

控制类型选择 ControlNet 魔法发生的地方。此功能允许你确定要复制或控制的内容。

你还有其他更高级的选项可让你微调结果:预处理器(用于激活控制网的技术)、权重(你的参考有多重要)和开始/结束点(控制网何时开始/结束其影响)

以下是每种控件类型的功能的快速概述:

OpenPose精确定位身体的关键部位并复制姿势。你可以使用预处理器选择整个身体、面部或手部的姿势。

Canny将你的参考图像转换为带有细线的黑白涂鸦。这允许你的创作遵循这些线条作为边缘,从而与你的参考准确相似。

深度:生成深度图以创建图像的 3D 印象,区分近处和远处的对象 - 非常适合模仿 3D 电影镜头和场景。

法线:法线贴图推断表面的方向,非常适合为盔甲、织物和外部结构等对象提供纹理。

MLSD识别直线,非常适合再现建筑设计。

艺术线条:将图像转换为绘图 - 对于动漫和卡通等 2D 视觉效果非常有用。

Softedge Canny 模型类似,但边缘更柔和,为模型提供更多自由度,但精度稍低。

涂鸦:将图像转换为涂鸦,产生比 Canny 模型更通用的结果。此外,你还可以在绘画上创建涂鸦,并将其用作参考,无需预处理器即可将图像变成现实的创作。

分割:创建图像的颜色图,推断其中的对象。每种颜色代表一种特定的物体。你可以使用它来重新装饰你的图像,或者重新想象具有相同概念的场景(例如,将 1800 年代的照片变成赛博朋克替代现实中相同风景的逼真描绘,或者只是用不同的床、墙壁重新装饰你的房间不同颜色等)

平铺:向图片添加细节并促进放大,而不会使 GPU 负担过重。

修复:修改图像或扩展其细节。现在,借助最近的更新和仅修复 + 骆驼模型,你可以极其注重细节地绘制图像

随机播放:再现参考图像的颜色结构。

参考:生成在风格、构图和偶尔的面孔方面与你的参考相似的图像。

T2IA让你控制图像的颜色和艺术构图。

掌握这些选项可能需要时间,但它们提供的灵活性和定制性值得付出努力。在线查看各种教程和指导视频,以充分利用 ControlNet

RoopDeepfakes触手可及

Roop 提供了一种轻松的方法来生成逼真的深度赝品。Roop 无需处理复杂的模型或 LoRA,而是可以处理繁重的工作,使你只需单击几下即可创建高质量的深度赝品。

要下载并激活,请按照官方 Roop Github 存储库上的说明进行操作

要使用它,请创建提示,导航到 Roop 菜单,上传参考面,启用它,然后生成图像。为了获得最佳效果,请使用你想要复制的脸部的高分辨率正面照片。请记住,同一个人的不同图像可能会产生不同的结果 - 有些比其他图像更逼真。

PhotopeaPhotoshop 稳定扩散的力量

Photopea 扩展在 A1111 内部的外观

有时,需要手动调整才能获得完美的结果,这就是 Photopea 的用武之地。此扩展将类似 Photoshop 的功能直接引入稳定扩散界面,使你无需切换平台即可微调生成的图像。

你可以从此存储库安装 Photopeahttps://github.com/yankoliveira/sd-webui-photopea-embed

CLIP 询问器:从任何图像创建提示

如果你不知道从哪里开始使用提示,那么这是一个很棒的工具。拍摄一张图像,将其放入框中,运行询问器,它会告诉你哪些单词可以与你提供的图像相关联。

CLIP Interrogator 是一个方便的工具,用于从特定图像中导出关键字。通过结合 OpenAI CLIP Salesforce BLIP,该扩展可以生成与给定参考图像匹配的文本提示。

你可以从此存储库安装:https://github.com/pharmapsychotic/clip-interrogator-ext.git

结论

通过稳定扩散,你将成为视觉管弦乐队的大师。无论是艾玛·沃特森作为女巫的超现实肖像还是幻想环境中海盗的复杂数字绘画,唯一的限制就是你的想象力。 

现在,用你新发现的知识武装起来,继续将你的梦想描绘成现实,一次一个文本提示。

Decrypt 使用 AI/Jose Lanz 创建的图像

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多