位置：AI门户网 > AI技术 > AI框架 > 开源AI绘画框架教程：手把手带你玩转Stable Diffusion与ComfyUI

开源AI绘画框架教程：手把手带你玩转Stable Diffusion与ComfyUI

来源：AI门户网时间：2026/3/27 15:05:05 共 3173 浏览

嘿，朋友们，如果你对AI绘画感兴趣，但又觉得那些工具太复杂、门槛太高——别慌。今天这篇教程，就是为你准备的。咱们不聊那些虚头巴脑的概念，直接切入实战，用最直白的语言，带你一步步摸清主流开源AI绘画框架的脉络。你会发现，从安装部署到写出惊艳的提示词，其实没有想象中那么难。

一、核心框架二选一：WebUI 还是 ComfyUI？

目前开源AI绘画领域，最主流、生态最成熟的核心框架当属Stable Diffusion。不过，它通常以两种“面孔”呈现给用户：Stable Diffusion WebUI和ComfyUI。很多人一开始就卡在了“我该选哪个”这个问题上。别急，咱们来拆解一下。

简单来说，WebUI 就像一间装修好、家具齐全的精装房，你进去就能住，按钮和功能都摆在了明面上，对新手极其友好。而 ComfyUI 则更像一个毛坯房，给你提供了水泥、砖块和管道（节点），怎么搭建、装修，全凭你的想法，自由度极高，但需要一点学习成本。

为了让你更直观地对比，我整理了一个简单的表格：

特性维度	StableDiffusionWebUI(Automatic1111)	ComfyUI
:---	:---	:---
上手难度	低，图形化界面，点点鼠标就能用	中高，需要理解节点流程和工作流
灵活性	中等，通过插件扩展	极高，可任意拖拽、连接节点，自定义完整流程
可视化程度	高，所见即所得	高，但以流程图形式展现
资源消耗	相对较高	优化较好，可精细化控制内存与显存
适合人群	AI绘画新手、普通创作者	进阶玩家、工作流研究者、技术爱好者

我的建议是：如果你是彻头彻尾的新手，只想快速体验AI生图的乐趣，那么从WebUI开始绝对没错。它的社区庞大，教程海量，遇到问题一搜基本都能解决。但如果你不满足于简单的文生图，想要实现更复杂的图生图、高清修复、多模型融合，或者你本身就有编程或图形学基础，那么ComfyUI将会为你打开一扇新世界的大门，让你真正体会到“可控创作”的威力。

二、从零开始：环境部署与安装避坑指南

好了，选定方向后，咱们来聊聊最“劝退”的一步——安装。很多人在这里就放弃了，觉得配置环境太麻烦。其实，现在已经有非常成熟的解决方案了。

对于WebUI，最省心的方式是使用大佬们制作的一键整合包。你只需要下载一个压缩包，解压后运行启动器，它就会自动帮你配置好Python环境、Git等等依赖。不过，这里有个硬件门槛：最好有一张NVIDIA显卡，显存建议6GB起步。显存越大，能生成的图片尺寸就越大，速度也越快。如果没有独立显卡，用CPU也能跑，但速度会慢到让你怀疑人生。

对于ComfyUI，情况类似，也有整合包。但需要特别注意它的“胃口”比较大。除了软件本身，你还需要下载各种模型文件（大模型、LoRA、VAE等），这些动辄几十GB甚至上百GB。所以，请务必确保你的硬盘有充足的空间，准备个300GB到1TB是明智的。

等等，你说你不想在本地折腾，怕电脑带不动？没问题，现在云服务是更好的选择。比如腾讯云的高性能应用服务（HAI），提供了预装好Stable Diffusion的环境，按需付费，开机即用，完全不用操心显卡和硬盘问题，对新手和临时使用者非常友好。这可以说是目前性价比最高的入门方式了。

三、提示词（Prompt）的魔法：从“咒语”到“工程”

安装好了，界面打开了，然后呢？面对空白的输入框，是不是又懵了？别怕，提示词就是你与AI沟通的语言。写得好，它就是实现你想法的魔法咒语；写不好，那生成的结果可能就是“四不像”。

经过大量实践，我总结了一个最高效的提示词万能框架，你可以直接套用：

>画质/主体 + 环境/场景 + 构图/视角 + 艺术风格 + 光线/色调 + 细节参数

听起来有点抽象？我们来看个例子对比：

*模糊的提示词（AI容易懵逼）：“一个女孩，在房间里，好看点。”

*优秀的提示词（AI精准执行）：“最佳质量，大师之作，8K分辨率，一位棕色长发的少女，穿着白色针织衫，坐在洒满午后阳光的木质窗台上（环境），正在专注地阅读一本旧书（动作），中景拍摄，浅景深（构图），吉卜力动画风格，柔和的水彩质感（风格），温暖的侧逆光，空气中可见细微浮尘（光线），--ar 3:4 --v 5.2（参数）”

看到了吗？后者几乎把我们框架里的每一项都填满了，AI拿到这样的“任务书”，想画歪都难。这里有个关键技巧：多用描述性语言，少用限制性否定。比如，与其说“不要复杂的背景”，不如直接告诉它“纯色背景”或“背景虚化”。

权重控制是进阶必备技能。用 `(关键词:权重数值)` 的格式，可以告诉AI哪些元素更重要。比如 `(闪耀的星空:1.5), (静谧的湖泊:1.2), (远处的小船:0.8)`，AI就会花更多“精力”去渲染星空和湖泊，小船只是点缀。

为了方便你快速上手，这里再给一个不同场景的提示词结构参考表：

场景类型	核心描述重点	风格关键词示例	常用参数
:---	:---	:---	:---
人物肖像	发型、瞳色、表情、服饰材质、姿态	写实摄影、电影感、肖像画、赛璐璐风格	`--portrait`（肖像）,高细节皮肤
奇幻场景	世界观、种族特征、魔法特效、异界生物	概念艺术、幻想艺术、暗黑奇幻、数码绘画	`--fantasy`,`--epicscale`（史诗规模）
产品设计	产品形态、材质（金属/玻璃/织物）、使用场景	工业设计、渲染图、白底图、简约风	`--studiolighting`（影棚光）,`--cleanbackground`
中国风	传统元素（汉服、古建、山水）、意境氛围	水墨画、工笔画、国潮、武侠风	`--Chinesepainting`,`--inkwash`（水墨）

四、进阶之路：模型、LoRA与工作流

当你能够稳定地生成不错的图片后，可能会进入一个瓶颈期：感觉出来的图都差不多，或者总是无法精准表达某个特定概念。这时候，你需要了解更强大的工具：模型（Checkpoint）和LoRA。

你可以把大模型理解为AI的“基础世界观和画风”。有的模型擅长画二次元动漫，有的擅长写实人物，有的则专精于风景建筑。在开始创作前，根据你的题材选择合适的基底模型，是成功的一半。

而LoRA，则是一个“微调插件”。它文件小，但能力专精，可以用来固定某个特定角色、某种画风（比如某位画师的笔触）、或者某种物品（如某种特定款式的服装）。比如，你想画一个“赛博朋克风格的孙悟空”，你可以选择一个科幻风的大模型，然后加载一个“孙悟空”形象的LoRA和一个“赛博朋克”风格的LoRA，让它们共同作用。

到了ComfyUI这里，这些元素通过“工作流（Workflow）”连接起来。你可以把文生图、图生图、高清放大、人脸修复、背景替换等步骤，像搭积木一样用节点连起来，形成一个自动化流水线。一旦搭建好一个高效的工作流，你只需要替换提示词和底图，就能批量、稳定地产出高质量作品。这才是开源框架真正的威力所在——将创作过程流程化、工程化。