衣服提示词

衣服提示词

{ "综合1": { "比基尼": "bikini", "系绳比基尼": "string bikini", "解开比基尼": "untied bikini", "前系带比基尼上着": "front-tie bikini top", "侧系带比基尼下着": "side-tie bikini bottom", "微小比基尼": "micro bikini", "泳装": "swimsuit", "连体泳衣": "one-piece swimsuit", "学校泳衣": "school swimsuit", "竞赛泳衣": "competition swimsuit", "运动服": "sportswear", "排球服": "volleyball uniform", "旗袍": "china dress", "水手服": "serafuku", "校服": "school uniform", "布鲁玛": "buruma", "高领衬衫": "collared shirt", "紧身衣": "leotard", "无肩带紧身衣": "strapless leotard", "高叉紧身衣": "highleg leotard", "丁字紧身衣": "thong leotard", "衣服下紧身衣": "leotard under clothes", "紧身衣服": "taut clothes", "紧身衬衫": "taut shirt", "薄纱连衣裙": "sheer tulle dress", "雪纺连衣裙": "chiffon dress", "紧身衣裤": "bodysuit", "背心": "**** top", "连身裙": "dress", "露背连身裙": "backless dress", "绕颈连身裙": "halter dress ", "毛衣连身裙": "sweater dress", "露背装": "backless outfit", "睡袍": "nightgown", "毛衣": "sweater", "高领毛衣": "turtleneck sweater", "罗纹毛衣": "ribbed sweater", "露肩毛衣": "off-shoulder sweater", "开胸毛衣": "open-chest sweater", "肩膀切口": "shoulder cutout", "臀部切口": "hip vent", "心型切口": "heart cutout", "后背切口": "back cutout", "下胸切口": "underboob cutout", "束腹": "corset", "小可爱露腹短上衣": "crop top", "赛车服(By KimZuo)": "racing suit", "护士服(By Yao_men)": "nurse", "乳胶紧身衣(By Yao_men)": "latex", "白大褂(By Yao_men)": "lab_coat", "便利店工作服(By 糯米)": "convenience store uniforms", "夏日长裙": "summer long skirt", "西装": "business suit", "浴衣": "yukata", "圣诞装": "santa", "哥特洛丽塔风格": "gothic_lolita", "马猴烧酒风格": "mahou shoujo" }, "综合2": { "女仆装": "Maid dress", "西服(black黑)-by bilibili-跑酷": "black suit", "啦啦隊": "cheerleading", "迷你比基尼": "micro bikini", "頸帶": "neck ribbon", "无胸罩": "no_bra", "黑丝连体衣": "conjoined black silk", "兜帽斗篷": "Cape hood", "修女服": "nun gown", "军装": "military uniform", "汉服": "hanfu", "破损的衣物": "torn clothes", "婚纱": "wedding_dress", "黑色礼服": "black skirt dress, flower pattern in dress,black gown", "披风": "cloak", "白色风衣": "white_windbreaker", "风衣": "wind coat", "奶牛比基尼": "cow_bikini", "露背毛衣": "Open-backed sweater", "曬痕": "tan line", "透明衣服": "see-through", "运动制服": "gym_uniform", "晚礼服": "evening dress", "礼服": "full dress", "战斗服": "combat suit", "小披风": "poncho", "休闲服(素上衣、牛仔裤)": "casual wear", "实验袍": "lab coat", "学校制服": "school_uniform", "甜美可爱的洛丽塔": "sweet_lolita", "网纹衣": "fishnet top", "魔女风格服": "Witch dress", "巫女服": "Miko clothing", "无裆内裤": "crotchless panties", "大衣": "overcoat", "湿润的衣服": "wet clothes", "长袍": "robe", "战壕风衣": "trench_coat", "抹胸": "strapless **** top, navel cutout", "派克大衣": "parka", "洛丽塔风格": "lolita_fashion", "无内衣": "no underwear", "水手裙": "sailor dress", "紧身连体衣": "zentai", "皮衣": "leather jacket", "防弹衣": "bulletproof_vest,", "蛛网纹路": "spider web print", "sweet_lolita,": "sweet_lolita", "A": "Maid dress", "史莱姆装": "slime dress", "撕裂的衣服": "torn clothes", "无": "less clothes\n" }, "综合3": { "乳胶衣": "latex", "中式死库水(辉木)": "Chinese style,One-piece swimsuit,Clothes with gold patterns", "雨衣": "Raincoat", "不知火舞": "Mai Shiranui", "睡衣": "pajamas", "街头风格服饰": "street wear", "透明晚礼服by czz": "[see-through:evening dress:0.3]", "修女": "loli,one girl,domineering lady, nun", "短款和服": "kimono", "浴袍": "bathrobe", "铠甲": "armor", "外套": "coat", "连帽衫(带帽卫衣)": "hoodie", "圆领卫衣": "sweatshirt", "蓝白条纹比基尼": "blue and white striped bikini", "神父/修生黑袍": "Cassock", "动力甲": "power armor", "长袖运动服(直译为立领长风衣)": "Standing collar long windbreaker", "旗袍(效果好)": "cheongsam", "浸湿(如果有内衣会透的更明显)": "soaked", "工装": " dungarees", "透过衣服能看到胸罩": "bra visible through clothes", "蕾丝边胸罩": "lace-trimmed bra", "一些风格服饰": "indian clothes,chinese clothes,Cleopatra,", "肚皮舞者": "Belly Dancer", "中国的衣服裙子": "chinese clothes,china dress,", "连体白丝": "conjoined white silk", "透明水手服": "see-through serafuku", "高叉泳衣": "highleg swimsuit", "礼服长裙": "revealing dress", "病号服": "hospital gown", "白色衣服": "White clothes", "希腊服饰": "Greek clothes", "紧身连衣裤": "leotards", "V领针织毛衣(无袖背心)": "V-NECK SWEATER VEST", "南瓜裙": "Pumpkin skirt", "万圣节服装": "halloween_costume", "软壳外套": "soft shell coat", "内衣": "underwear", "外骨骼": "exoskeleton", "罩衫": "frock", "道袍": "Taoist robe", "军大衣": "Army overcoat", "荷叶边衬衫": "frillded shirt", "黑色连衣裙+白色打底T恤搭配(请勿去掉tag括号)": "(((black sundress with round neck,white T-shirt bottom)))", "外骨骼机甲": "Exoskeleton Mecha", "拼接款": "mosaic", "战袍": "Battle Robe", "性感内衣": "sexy lingerie", "机械服装": "mechanical clothes", "机械战甲": "[Battle Robe:Exoskeleton Mecha:0.3]" }, "裙子": { "裙子": "skirt", "百褶裙": "pleated skirt", "格子裙": "plaid skirt", "超短裙": "miniskirt", "包臀裙": "sheath dress", "连衣裙": "one-piece dress", "花卉图案连衣裙(白)": "white skirt dress, flower pattern in dress,white gow", "花卉图案连衣裙(黑)": "black skirt dress, flower pattern in dress,black gow", "多層裙子": "layered skirt", "分层式半身裙(贵族气质)(by残阳)": "layered skirt", "夏日连衣裙": "summer dress", "腰围裙": "waist apron", "蓬蓬裙": "pettiskirt", "芭蕾舞裙": "tutu", "格子裙": "plaid skirt", "围裙": "apron", "铅笔裙": "pencil skirt", "迷你裙": "miniskirt", "透明硬纱/蕾丝花边": "Organza lace", "哥特式洛丽塔": "lolita gothic", "现代洛丽塔": "lolita fasion", "紧身连衣裙": "Dirndl", "铠装连衣裙": "armored dress", "盔甲裙": "armored dress", "长裙": "Long skirt", "雨裙": "Rainskirt", "中式旗袍死库水": "chinese clothes+leotard", "带褶连衣裙": "pleated dress", "无肩带礼服": "strapless dress", "露肩连衣裙": "off-shoulder dress", "婚纱": "wedding dress", "汉服": "Han Chinese Clothing", "微型短裙": "microskirt", "黑百褶裙": "black pleated skirt", "吊带裙": "suspender skirt" }, "上装": { "过手袖": "sleeves_past_fingers", "背心": "**** top", "白衬衫": "white shirt", "水手衬衫": "sailor shirt", "T恤": "T-shirt", "毛衣": "sweater", "夏日长裙": "summer dress", "连帽衫": "hoodie", "毛领": "fur trimmed colla", "兜帽斗篷": "hooded cloak", "夹克": "jacket", "皮夹克": "leather jacket", "探险家夹克": "safari jacket", "兜帽": "hood", "牛仔夹克": "denim jacket", "高领夹克": "turtleneck jacket", "消防员夹克": "firefighter jacket", "透明夹克": "see-through jacket", "战壕大衣": "trench coat", "实验室外套": "lab coat", "羽绒服": "Down Jackets", "防弹盔甲": "body armor", "防弹衣": "flak jacket", "大衣": "overcoat", "粗呢大衣": "duffel coat" }, "服装": { "透视装": "transparent clothes", "燕尾服": "tailcoat", "女仆装": "Victoria black maid dress", "水手服": "sailor suit", "学生服": "school uniform", "职场制服": "bussiness suit", "西装": "suit", "军装": "military uniform", "礼服": "lucency full dress", "汉服": "hanfu", "旗袍": "cheongsam", "和服": "japanses clothes", "运动服": "sportswear", "工装服": "dungarees", "婚纱": "wedding dress", "银色连衣裙": "silvercleavage dress", "长袍": "robe", "围裙": "apron", "快餐制服": "fast food uniform", "JK制服": "JK", "健身服": "gym_uniform", "巫女服": "miko attire", "海军陆战队服": "SWAT uniform", "无袖连衣裙": "sleeveless dress", "雨衣": "raincoat", "机甲衣": "mech suit", "巫师法袍": "wizard robe", "刺客装束": "assassin-style" }, "下装": { "牛仔短裤": "denim shorts", "百褶裙": "pleated skirt", "热裤": "short shorts", "铅笔裙": "pencil skirt", "皮裙": "leather skirt", "黑色紧身裤": "black leggings", "和服下的裙子": "skirt under kimono" }, "其他服装": { "褶边": "frills", "花边": "lace", "哥特风格": "gothic", "洛丽塔风格": "lolita fashion", "西部风格": "western", "湿身": "wet clothes", "露单肩": "off_shoulder", "露双肩": "bare_shoulders", "格子花纹": "tartan", "横条花纹": "striped", "披甲": "armored skirt", "盔甲": "armor", "金属盔甲": "metal armor", "狂战士铠甲": "berserker armor", "腰带": "belt", "围巾": "scarf", "披肩": "cape", "皮草披肩": "fur shawl" }}
283
47
本地SD出图 到吐司线上全流程讲解

本地SD出图 到吐司线上全流程讲解

149
26
Stable Diffusion WebUI 从入门到卸载①

Stable Diffusion WebUI 从入门到卸载①

有问题/错误请及时联系千秋九yuno779 修改,谢谢。前言介绍说明Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序。Stable Diffusion WebUI能够支持多系统使用,无论是Linux/Windows还是MacOS,现在都已支持使用。Stable Diffusion WebUI有着极为广泛的插件生态,能够实现远超Midjoruney/NovelAI的自由度和实用价值。AUTOMATIC1111所开发的Stable Diffusion WebUI是目前使用最为广泛的AI图像生成开源软件,本文章将围绕Stable Diffusion WebUI展开相关内容的说明。特别致谢【AI绘画lora交流群】群友帮忙完善了LoRA训练相关的内容【XDiffusion AI绘画研究交流】帮忙挑刺,找出了一部分文章的错误内容【元素法典组】【秋叶的甜品店】【幻想魔法书—旧日黎明】帮忙制作了文章框架,补充了部分内容【珊瑚宫︱数字生命研究所】避坑指南①任何在x宝、x鱼等平台售卖AI整合包的,全部都是坑钱的②任何AI绘画相关课程都是大冤种课程,也都是坑钱的③任何收费出售AI模型、LoRA、付费生成的AI绘画相关内容,都是坑人的④任何平台的:例如“我的二次元形象”“无尽三月七”等活动,在一般的SD中只需要一个LoRA就可以轻松解决⑤国内所有的AI绘画APP都不要使用、大概率也是坑你钱的⑥国内绝大部分模型站都最好不要使用(出现过很多离谱操作),如有需要请使用civitai和huggingface(civitai大家一般都简称C站,C站可能会上不去,huggingface简称抱抱脸,很多时候国内的交流群都比较喜欢用简称来称呼这两个网站)⑦当civitai上不去的时候可以使用吐司Tusi.cn这个网站网站中的C站镜像。一些链接:1.  潜工具书新人最推荐查看的AI绘画最全工具书Stable Diffusion 潜工具书2.  新手入门推荐关注up:秋葉aaaki 入门可以去看其专栏和视频秋葉aaaki的个人空间_哔哩哔哩_bilibili3.  提示词提示词全解:元素同典:确实不完全科学的魔导书元素法典:1和1.5卷因为部分问题不做推荐,新人也不建议查看元素法典第二卷——Novel AI 元素魔法全收录元素法典第二点五卷——Novel AI 元素魔法全收录一些玄学的东西的纠错与解释浅考sd-webui大括号{}处理4.  模型站civitaihuggingfaceAiTool.ai - Explore the world of AI吐司Tusi.Art5.  本文参考链接Stable Diffusion WebUI使用手冊(简体中文)[調査] Smile Test: Elysium_Anime_V3 問題を調べる #3|bbcmc (note.com)THE OTHER LoRA TRAINING RENTRYHome · AUTOMATIC1111/stable-diffusion-webui Wiki (github.com)https://guide.novelai.dev/元素同典:确实不完全科学的魔导书模型理论科普V1.5.0608Tags基本编写逻辑及三段术式入门与解析v3如何快速分辨AI生成图V如何识别AI图片:目前由AI 绘制的插图完成度已经逼近甚至超越了真人画师,所以粗略查看是无法区分是否由AI 绘制。1.  误区a. AI图并非画不好手,也并非是那种油腻的“AI风格”b. 网上的各种分辨网站/软件,经实测识别成功率最高的仅有40%的置信度,所以仅看个乐就行c. 对于经常玩AI绘画的人来说,AI图基本可以做到一眼分辨2.  分辨方法通过模型分辨部分热度较高的模型都有对应相对固定的风格,能够识别这些风格就能做到接近70%以上的置信率扩散生成痕迹AI生成图片并非是理解了图片画什么怎么画,而是通过反向扩散的方法直接生成图片,这种生成痕迹会有一些较为明显的特征这种痕迹是绝大部分模型都无法避免的,具体来说就是:包括但不限于衣服褶皱、皮肤褶皱、头发效果上出现莫名其妙不合逻辑的纹路、以及部分不应该出现的噪点。其次还有,部分AI图也存在本来不应该在同一位置的物品相连接或者相融合的情况。图像细节问题这个方法是最后的方法,再上面两种一眼丁真的方法都不起作用的时候再来用这个。例如AI会在左右眼形状和高光的一致性、服装对称性、重复形状一致性、几何图形的正确与否等方面出现问题。SD部署和使用,神奇的AI绘画在这里1. 部署stable diffusion webui首先你得有Stable Diffusion WebUI框架和模型,没有部署SD,玩个P的AI绘画。硬件需求● 显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)● 可以开启CPU模式,但是速度依旧是非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图操作系统需求Linux:Debian11(这个我在用)(除此之外我并不知道那些版本可以正常使用,如有需要可以先下载贴吧整合包测试)Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片(M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用。整合包部署如果你是从零开始,这里推荐秋葉aaaki一键包和启动器。【【AI绘画】Stable Diffusion整合包v4发布!全新加速解压即用防爆显存三分钟入门AI绘画☆可更新☆训练☆汉化】 https://www.bilibili.com/video/BV1iM4y1y7oA/?share_source=copy_web&vd_source=b315aefe546aaa25153160a5d2c908c4备用链接:【【AI绘画】绘世启动器正式发布!一键启动/修复/更新/模型下载管理全支持!】 https://www.bilibili.com/video/BV1ne4y1V7QU/?share_source=copy_web&vd_source=b315aefe546aaa25153160a5d2c908c4(除了以上推荐外,还有星空等少数大佬发布启动器或一键包。)在此建议,有条件在电脑上本地部署,就尽量本地部署。没条件,可以考虑云端部署,请在B站等地搜索相关教程学习部署。目前市面上的APP暂不推荐,很多是收费的,很多只有少量的免费时长。而且大多数APP不具备完整的功能,不适合系统性的学习和进步。2.  添加ckp大模型NovelAI 和Anything分别是什么?NovelAI是一个二次元AI生成图片的网站。因为泄漏事件,NAI 使用数千万Danbooru(图站)图片训练的模型被泄漏了两次。事件报告 泄露Part 1 —— 包含生产模型,程序—— 53.66 GB,其中相关模型有7GB 和4GB 两种。 泄露Part 2 —— 包含历史测试代码和模型,程序—— 124.54 GB,其中相关模型与Part1 相同。Anything是由元素法典组的千秋九制作的一个融合模型。因为其效果在当时来看较好,并且受到众多营销号的吹捧而广为人知。如何添加ckp大模型部署完成后,将下载的模型放到WEBUI根目录中的model/Stable-diffusion文件夹中。ckp大模型的大小一般为1.6G及以上,后缀为.safetensors。当然了有的整合包自带有ckp大模型,当你看到WEBUI根目录中的model/Stable-diffusion里面有模型文件的时候,那么可以暂时跳过这个步骤,直接使用整合包自带的模型。注意:①除非你完全可以信任这个模型,那么请尽量避免使用.ckpt后缀的模型。②请不要听从其他人的任何建议,关闭模型检查。请及时拉黑让你开启允许加载不安全模型这个选项的人。3. 运行WebUI实例点击启动器上的启动按钮以启动你的webui实例,没有启动器的整合包请按照视频说明启动。如果不使用启动器和整合包,则点击webui-user.bat4. 常见问题一般而言,遇到的问题可以根据启动器所提示的内容解决。启动器无法识别的报错可以尝试复制到翻译软件简单翻译一下,若不知道如何解决,则可以到对应的交流讨论区询问。注意:没人愿意只凭借一个不正常退出的提示截图就给你解决问题,请上传完整的报错截图。没有错误日志就诊断问题无异于闭眼开车。5. 基础参数说明以一个普通的WebUI界面为例。如果你的界面色彩不同或选项更少或更多,不用奇怪,这是正常的。笔者下载了一些插件,仅此而已。只需要看看该界面那些参数、选项有什么作用,效果就达到了。一般而言只需要记住这张图就好了,详细的说明在下面1.  大模型:不管你的模型是ckpt格式,还是safetensors格式,这里可以选择你的模型,或调换模型。右箭头指向的小三角形,点开就可切换模型。关于模型的作用和推荐,后文讲解。2.  采样方法:也称采样器。最古老的好像是Euler和Euler a,DDIM曾经相当火。当下用的最多的是DPM++ 2S a Karras、DPM++ 2M Karras、DPM++ SDE Karras,其他采样器也可以尝试,有时会有出色的表现。采样器会影响出图速度,DPM++ 2M Karras、DDIM、UniPC等几个采样器生成速度快,但太低步数图片会崩坏,建议不用高清修复时不低于20步,用高清修复不低于10步。(并非绝对)3.  采样迭代步数:一般称步数。并非越高越好。不开高修约30至50步够用,开高修15至25步够用。当你已经很熟练,可以无视此条。4.  图片宽度:简称宽。必须为8的倍数。太小的图不好看,图越大越模型会不知道生成什么导致糟糕的输出。如果没有固定的要求,请按显卡能力和需求适当调整。如果爆显存了,那就调小一些。5.  图片高度:简称高。必须为8的倍数。太小的图不好看,图越大越吃显存。如果没有固定的要求,请按显卡能力和需求适当调整。如果爆显存了,那就调小一些。6.  生成批次:批量生产图片时调整这个。7.  每批数量:很多新手批量生产图片喜欢点这个,这是错误的。它很考验你的显卡,图越大越要慎选。一般默认的1就可以。8.  提示词相关性(CFG):数值越大tag越精准,数值越小想象越丰富同时越不听话,不建议开启太高的CFG。但如果开启较大CFG出现了糟糕的图片,请改用CFG修复插件:mcmonkeyprojects/sd-dynamic-thresholding: Dynamic Thresholding (CFG Scale Fix) for SD Auto WebUI (github.com)9.  随机种子:简称种子。一般为-1(随机生成),当需要锁种子调参数做对比,复制生成图的种子填进这里即可。同种子同参数同模型同tag,生成的图片一定是几乎看不出差别的。(因不同显卡不同环境会出现有些微影响,但是并不严重)10.  正面提示词:一般称tag,或称正面tag、正面。新手建议抄正面tag进行尝试,并在抄来的基础上进行改动,请勿徒手乱捏。很复杂,这里只做简单的解释,详情见提示词教程。11.  负面提示词:一般称负面tag,或负面。新手建议不要深入研究,用抄来的就好。一般越短的负面越听话,越长的越不听话。同时,负面tag的权重也有影响,过高或者过低都有不利影响。12.  生成:点击生成前请确认tag是否准备完毕,参数是否在合理的数值,确认无误,即可开启奇妙之旅。13.  自动填充提示词和参数:很少用。如果你关闭界面时忘了保存,再次生成时想要找到上一次的提示词和参数,点这个是最快捷的方法。14.  清空提示词:当你要把正面和负面全部删除,点这个是最快捷的方法。15.  模板风格:非常好用的功能,你可以从中选择想要的已储存的提示词,迅速加载。配合16和17使用。16.  将已选择的模板风格写入当前提示词:要先选择15模板风格才能生效。17.  将当前的提示词保存为模板风格:对于经常使用的提示词,在此保存一下,想用的时候14清空提示词,15选择模板风格,16写入提示词,其他只剩调参数。18.  图片展示区域:你生成的图片在此会展示出来。生成图片的过程中有进度条的,跑到100%就生成完毕了。如果图片不见了,可能是爆显存,请查看该区域下方的提示栏。19.  Clip跳过层:简称Clip。默认为2,新手请勿调整。20.  模型的VAE:简称VAE。这里是外挂VAE的地方。6. 高清修复说明高清修复Hires.fix是用来生成较大图片防止AI模型乱画的一个功能。一般而言需要配合分块VAE插件使用防止爆显存一般而言,二次元图片使用Anime6B采样器。除此之外,放大的倍率也不能开太大,不然极其容易出现古神图等情况。另外,没必要一直开启高清修复。看到了自己想要的构图/大致效果后再开启高清修复可以极大的节省抽卡生成的时间。你热爱的,就是你的parameters自从AI绘画出现以来,各种参数的讨论就从未停止过。1. “我会画画了!”生成你的第一张AI图在对应的提示词框,然后点击生成就可以生成你的第一张AI图了提示词: cute little girl,,solo,wind,pale-blonde hair, blue eyes,very long twintails,white hat,blue sky,laugh,double tooth,,lens flare,dramatic, coastal, flying petal, flowery field, sky, sun,field, sunflower, masterpiece, best quality,反向提示词(mutated hands and fingers:1.5 ),(mutation, poorly drawn :1.2),(long body :1.3),(mutation, poorly drawn :1.2),liquid body,text font ui,long neck,uncoordinated body,fused ears,(ugly:1.4),one hand with more than 5 fingers,one hand with less than 5 fingers,上面的提示词大体效果是这样的↓如果你想要达到更好的效果,那么修改相关的参数就是必不可少的。下面呢就是有关生成个提示词相关参数的部分介绍。当然了,如果不满足于文章中给的这些内容,你也可以去参考更为详细的元素同典:具体链接在本模块的最下面。2. 提示词的范例当然了,新人想要得到比较好的AI生成图可以看以下几个提示词合集。但是需要知道的一点是:推荐参数绝非必须的数值,这些仅供新人参考,入门后其实是不需要任何推荐参数的。旧日黎明-献给朋友们的法术书(副本2)元素法典第二卷——Novel AI 元素魔法全收录元素法典第二点五卷——Novel AI 元素魔法全收录下面的内容,就是写详细的讲解“魔法师”是如何写出这些“咒语”来的:3.  书写你的第一段“咒语”咒语是什么?在AI绘画中,我们使用一段prompt 来引导U-net对随机种子生成的噪点图进行“降噪”,从而生成我们想要的东西。Prompt (提示词,又译为关键词)通常由英文构成,主要内容为以逗号隔开的单词/词组/短句。prompt 也可以包括其它语言的文字,但效果往往不佳。prompt 还可以识别一些特殊符号。AI 会通过寻找符合关键词描述的噪点图进行有明确指向的去噪点(diffuse)。同样,如果包含Negative Prompt(负面关键词),AI 就会尽可能避免含有负面相关要素的去噪点方式。换句话说,prompt 就像是哈利波特里面的咒语,它直接决定了最终我们会得到什么。简而言之就是你想要什么那就写道正面提示词里,你不想要什么,那就写到负面提示词里。比如我想要“一个穿着白色裙子带着白色帽子的女孩站在花丛里”那么我们可以写以下提示词:1girl,white dress,white hat,stand,flowers这时候点击生成,就会出现左边这样的生成图。如果理解了这以方面,那么恭喜你,你已经学会了基本简单的提示词写法了。你可以尝试一下自己喜欢的内容,多生成几张AI图尝试尝试这个过程如果对生成图片的质量不满意,那么怎么办呢?接下来只需要根据图片生成的结果,逐步细化提示词,并且添加质量词和负面提示词就可以了。比如左边那张图看到天空比较空,那么就可以加上:cloud,sun等这种描述天空效果的提示词。当然如果英语水平限制了你的发挥,那么你也可以使用翻译软件来“施法”。当然了,你也可以拿着这把“全村最好的剑”:半自动魔导原典_免费高速下载|百度网盘-分享无限制(baidu.com)4. 学徒级语法【三段式】&如何写提示词三段式与基本提示词写法需要特别注意的是SDXL的模型并不适配SD1.5的语法和提示词顺序,这部分只作为SD1.5的提示词来使用,需要根据模型作者自己训练的方式来决定,所以在使用SDXL的训练模型的时候请注意查看模型卡简而言之,三段式就是把质量词、主体、背景三者的描述分开进行。很多人在写提示词的时候会受到英语水平的限制,于是就提出了三段式语法,其目的是在较多提示词的时候能够一目了然的分辨内容,方便删减提示词和调整提示词的权重。这在当时元素法典时期使得大家能够快速的分享自己的提示词或者使用其他人的提示词。质量词和效果词放最前面,人物与人物特征放在中间,背景和光效放以及功能性tag最后面,这是三段式的基础用法。8k Wallpaper,grand,(((masterpiece))), (((best quality))), ((ultra-detailed)), (illustration), ((an extremely delicate and beautiful)),dynamic angle,rainbow hair,detailed cute anime face,((loli)),(((masterpiece))),an extremely delicate and beautiful girl,flower,cry,water,corrugated,flowers tire,broken glass,(broken screen),transparent glass.前缀(质量词+画风词+整体效果)质量词用于提升生成质量:例如:masterpiece、best quality等画风词用于凸显图片的画风:例如:冰箱贴前缀:[(flat color,vector graphics,outline):1.35),(paper cutting:1.2)::0.6],立绘法的前缀:official art,1girl, simple background,[(white background:1.5)::0.2],open-mouth,(white background:1.2)当然了,这些符号的意义将在后面详细讲解,现在看不懂也没关系效果词为整体画面效果的提示词例如:炫光lensflare、景深Depthoffield、 角色焦点character focus、从下面看from below等等注意:部分固定(例如白背景立绘)这种属于风格类提示词,建议放到前缀里而非最后的背景主体(画面中的主体部分)主体为图画想要凸显的主体,可以是人物,建筑,景物等,主体部分要进行丰富的描述才能获得细节丰富的图像。对于角色来说,通常包括了面部,头发,身体,衣着,姿态等描写。没有角色时,可以将场景中的重要点即高耸如云的城堡,绽放的花朵,破碎的钟表等,想要位于画面中心的物体进行描述。描述的顺序大致为由主到次,即你想要生成图中占据大部分画面的元素放到最前面。除此之外你想要生成违反生活常识经验/常见创作的元素的图你需要更为详细的描写或者更高的权重。当1 girl 和earring 简单结合时,无论两者谁先谁后,最后都会变成“一个二次元美少女带着耳环”的样子,不会在简短描述下就轻易地出现诸如“美少女向前抬手捧着耳环、耳环在镜头前是一个特写、美少女的身体被景深虚化”的情况。因为在我们的生活常识中,大多数这两个“物”结合的情况都是前者,后者在作品描绘里出现的情况极少,因而这两者即使是顺序调换也只是让美少女是否摆出展示耳环的姿势,无法轻易地切换主次继续深讲就到训练集的部分了,虽然它的本质是训练集与LatentDiffusion 对于自然语言的处理,但考虑到大多数组成训练集的作品都取自于生活经验/ 常见创作想象,且自然语言处理本就是努力拟合生活经验的过程,所以实际上并无明显不同。场景(背景,环境)场景是主体存在的周围场景,没有场景描述时容易生成纯色背景或者是效果tag相关的背景,且主体会显得很大。部分主体会自带场景内容,例如建筑,景物。例如:繁花草甸flowerymeadow,羽毛feather,阳光sunlight,河流river,碎玻璃Brokenglass等此外,元素法典后期的提示词实际上并没有严格遵循三段式,具体原因是大家都开始研究分步语法,分步语法会将背景和主题放到同一模块,成为“两段式”,而非上面所说的三段式。当然了有关分步渲染的相关内容,在下面【7.WebUI基本进阶用法】会有详细的讲解,现在看不懂也是没有关系的。(((masterpiece))),(((crystals texture Hair))),(((((extremely detailed CG))))),((8k_wallpaper)), (1 girls:1.5),big top sleeves, floating,beautiful detailed eyes, overexposure,light shafts, soft focus,side blunt bangs, buttons, bare shoulders,(loli), character focus,wings,(((Transparent wings))),[[((Wings made of golden lines,angel wing,gold halo around girl,many golden ribbon,Aureate headgear,gold magic circle in sky,ight, black sky):0.7):((galaxy background, snowflakes, night sky, black pupils, starts sky background, stars behind girl, view on sky,standing):0.8)],Elegant hair,Long hair,The flying golden lines,Messy golden lines,halo,hairs between eyes,Small breasts,ribbons, bowties,red eyes, golden pupil, white hair,flowing hair,disheveled hair,lowing long hair):(Delicate arms and hands):0.9]隔离元素污染如果你在别人的提示词中看到了BREAK这个词,或者是看到了++++////\\\\这种毫无意义的符号,无需感到疑惑,这只是占位词。Stable Diffusion模型仅限在提示词中使用75个token,所以超过75个token的提示词就使用了clip拼接的方法,让我们能够正常使用。BREAK这个词会直接占满当前剩下的token,后面的提示词将在第二段clip中处理。而早期++++////\\\\这些符号,大都是因为不知道BREAK这个词而添加上用于占token的。输入BREAK之后你可以看到直接占满了剩下的token为什么要使用占位词/BREAK呢?AI在生成图像的时候会将一些提示词的特征放到其他的物品上,例如我在提示词中写了white clothes和Flower background,那么很有可能在衣服上出现花的装饰。如果我们不想在衣服上出现花的装饰,那么比较简单的方法就是把这两个词放到两段clip中处理。自然语言“咏唱法”自然语言的效果实际上是SD模型原本的使用方法,但是由于novelai模型的训练方法和一部分LoRA模型训练的时候训练集的标注以tag为主,所以可能tag的表现更好一些。但既然是Stable diffusion模型,那么使用自然语言本身就没有什么问题,但是不一定真的效果就是更好的。例如下面提示词就混合了自然语言和tag,大家也可以自己尝试一下自然语言去写提示词。flat design, (official art:1.2) (white background:1.2), depth of field, double exposure, (There is a big world tree with magic:1.2), (She is inside the world tree:1.2), 1girl,solo,fullbody, (She is a angel with beautiful detailed eyes with crystal textured hair with beautiful detailed face with (clothes)+(beautiful transparent wing)), (She is a angel with red eyes with white hair with (clothes)+(light wings)), (She is a girl with long flowing hair with the hair between the eyes), (She with white dress with detached Sleeve with off_shoulder clothes), (She with symmetrical wings with transparent wings with mechanical wings), (She is a sitting girl with small breasts with (wariza:1.2)), (She is far away form viewers and looking at viewers with (from side:0.5)), (She is beside the floating cubes:1.4), (super fucking cool golden light:1.2), (white background:1.2), irradiance particles, ray tracing,(The broken floor:1.3), depth of field, tyndall effect, double exposure, visual impact,((Ink mist,Coloured lead painting,[[Gouache painting]]):1.5) (Glitch Art:1.414)请不要使用shit山负面大量的负面提示词会对生成的图片产生灾难性的影响。新的tag串在编写的时候负面提示词是需要放到最后再添加的,因为无论如何负面提示词都会对画面产生一定的影响,并且很多影响是不可预见。这将会导致很多想要达到的效果无论如何也无法实现。实际上当年《元素法典》研究提示词的时候一般的操作是当生成图出现自己不想要的东西的时候再作为补充。负面embedding也不是越多越好,负面embedding对构图会有影响,很多人以为越多越好从而叠一堆负面embedding,其实不用也一样能出好图。甚至好的手也不依赖负面embedding,有的时候手崩了即使用了负面embedding也不会很好的修复。放这么多的负面embedding堆在一起,不但会严重影响提示词的准确性,还会严重影响生成图效果和模型,甚至于说能把大部分模型干成同一种风格。前者未使用负面embedding,后者为使用负面embedding。可以明显的看到,使用embedding生成的图已经明显失去风格化5. 选择你的捍卫者“采样器”&调度器采样器sampler就是去噪的方法,WebUI中内置了很多采样器,你也可以自己装载其中没有的其他采样器。包括一般使用的Euler A和UniPC,以及很多人都喜欢使用的DPM系列。调度类型简单而言就是去噪速度。常见的调度类型有:Karras / Sgm_uniform / Exponential / ddim_uniform……,目前推荐使用Exponential 方法,可以得到更好效果。对于初学者来说,更推荐使用Euler A或者Unipc等生成图像较快的采样方法。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI 会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。通常来讲,Euler A 是兼顾速度和质量的最优之选。而DDIM 和Euler 则在运气较好的情况下尤其以细腻的画风见长。DPM系列则是各有优劣,部分在低steps下有着极其良好的表现(DPM三兄弟在15~20步就差不多了)当你审美疲劳时,也可以尝试更换方法也许可以带来新的风格。6. 迭代步数(steps)不同采样需要的采样steps不同。例如Euler A/DPM A等都是非线性采样,结果并非随着采样步数的增加而增加质量。恰恰相反在大于一定采样步数只会质量会快速下降。对于此类采样器推荐的最大steps一般为50左右。(不绝对)而Euler/DDIM等线性采样随着迭代步数的增加质量会增加。当然在早期“修手”的尝试中发现,这类采样器的steps数存在边际效应的问题,大于一定数值之后,增加steps带来的收益也不会很明显。很多图直至steps500才会有明显的提升,而一般显卡拉500steps需要的耗时太长了,所以并不建议拉太高的steps。7. WebUI基本进阶用法①渲染句式在webui中,有几种非常好用的句式可以使用:[A:B:X]代表执行A效果到X的进度(如0.4到40%的总步数),B从X的进度开始[A:0.5]这样写的含义是从50%开始渲染A[A::X]渲染到X的进度的时候停止A的渲染[A|B]交替渲染A/B②种子变异用于轻微调整生成图大致的效果如图所示:随机差异种子可以选择其他种子,也可以随机抽取(-1),效果图是固定了差异种子好了,你已经学会基本用法了,尝试分析一下下面这串tag的分步吧[[([(Delicate eyes,glowing eyes,red eyes, black pupil,(beautiful eyes:1.2),(serious),(gradient eyes)):[((messy_hair),(Long hair:1.2),(lightning),Lots of lightning,([white hair|Lavender hair]:1.3)):((Flowing hair:1.2),Long flowing hair,beautiful hair):0.6]:0.7],(Delicate face:1.2),(shoulder cutout),(Gorgeous clothes:1.3),(beautiful arms:1.2),(Characters stay away:1.4),(Small breasts:1.2),[[:((Scepter weapon,The thunder wand,Crystal texture of the hair):1.4):0.5]::0.9],[((lightning),many glowing ribbon,Shine tire,glowing magic circle in sky,(glowing halo around girl:1.3)):((exquisite Magic Circle:1.7),(Many purple flashes:1.4)):0.5],(Gorgeous accessories:1.2),(Gorgeous special effects:1.3),(highres:1.3),(magic:1.3),(glowing light:1.3),(exquisite magic array:1.2),(Strong vision),(Magic in hand:1.3),(starry sky:1.3),(huge Brilliant magic),(glowing light:1.2),(Dimensional space is broken),(lightning:1.3),god rays,night, black pupils,(clock method array:1.2),standing,Hair and lightning blend together,(Lightning ribbon:1.2)):(lightning:1.2):0.8]:(Delicate arms and hands):0.9]]8. 我的“法术”不听话了?增加减少权重有的时候,提示词会出现不听话/失效的现象。当提示词失效的时候,不妨多增加权重,例如(1girl:1.2)/(1girl)注意:这里的任何权重等的调整只能使用英文符号,使用全角/中文符号将不会起任何作用一对小括号()意味着把括起来的prompt 权重* 1.1,中括号[]则是/ 1.1,大括号{}在WEB-UI 中无调整权重作用,且会被作为文本而解析。如果因为某些需求而要大量抬升权重,可以对prompt 进行多次括号,比如((((prompt)))),这意味着将它的权重* 1.1 四次,也就是1.4641。但这个写法太吓人了,数括号也很浪费时间,所以应该直接为一个prompt 赋予权重:(prompt:权重乘数)外层一定是小括号而非其它括号。比如(red hair:1.5) 将直接给red hair 赋予1.5 权重,(red hair:0.8)将直接给red hair赋予0.8权重,清晰简洁,便于自己回顾和他人理解,强烈推荐。而除了整词权重之外,也可以进行部分权重,比如如下例子:1 girl, white long (messy:1.2) hair, red eyes将专门对messy 部分赋予* 1.2 权重,其它部分不受影响高权重的元素会在画面中有着更大的占比或更强烈的存在感或更多的数量,是能可观地影响构图的原因之一。如果出现了(xxx:1.7)还无法正确的表达需要的效果时,那么大概率为模型无法识别这个提示词,或者模型本身的问题。模型本身问题例如模型的clip偏移:(这里要用到一个叫做CLIP tensors checker的插件)clip偏移会影响模型对于对应位置的token语义的理解,有的时候就会造成你的提示词识别出现问题,详情可以查看早期“微笑测试”实验,这里引用部分实验内容。后置链接:Stable Diffusion WebUI 从入门到卸载② | 吐司tusi.cn
87
6
人物姿势

人物姿势

{ "综合": { "站立": "standing", "弯腰": "bent over", "弓背": "arched back", "拉伸": "stretching", "躺着": "lying on back", "趴着": "on stomach", "侧躺": "on side", "坐着": "sitting", "w坐割座": "wariza", "跨坐": "straddling", "四肢着地": "all fours", "jack-o": "jack-o' challenge", "双腿过头": "legs over head", "胎儿姿势": "fetal position", "自拍": "selfie", "通过腿看": "looking through legs", "二郎腿": "crossed_legs", "跪姿": "kneel", "萝莉坐": "kneeling&setting on floot", "裸露的肩膀": "bare shoulders", "坐在地上": "sitting on the ground", "提裙": "Skirt lift", "一字马": "standing split", "手臂在背后": "arms behind back ", "狗趴式": "doggystyle", "鸭子坐(女子座)": "wariza", "泡温泉": "half body under water", "张开腿": "spread legs", "趴着翘臀": "top-down_bottom-up", "開腳": "open your legs wide", "漏腋": "armpits", "坐在地上(XWX)": "w-sitting on the ground", "战斗姿态": "fighting_stance", "坐在椅子上": "sitting on chair", "瑜伽": "yoga", "绝对空域(大腿三角)": "thigh gap", "骑马": "horse riding", "掀裙子": "skirt_lift", "行走": "walk", "鸭子坐": "wariza", "正骑乘": "girl on top", "祈祷": "pray", "蹲着": "squatting", "坐在床上": "sitting on bed", "翘PP": "top-down bottom-up", "抱膝": "huddle, clasp knees", "公主抱": "princess carry", "侧躺着": "Lie on your side,", "**": "groping", "撩起衣服": "clothes_lift", "盘腿坐": "indian style,", "动态姿势": "dynamic pose", "敬礼": "salute" }, "姿态": { "侧身坐": "yokozuwari", "鸭子坐": "ahirusuwari", "盘腿": "indian style", "跪着": "kneeling", "躬躯": "arched back", "膝枕": "lap pillow", "学猫叫": "paw pose", "单膝跪地": "one knee", "蜷起身子侧躺": "fetal position", "仰卧": "on back", "俯卧": "on stomach", "坐着": "sitting", "屈膝抱腿坐": "hugging own legs", "立式跨骑": "upright straddle", "站着": "standing", "蹲着": "squatting", "绑在十字架上": "crucifixion", "双腿缠绕": "leg lock", "四肢着地": "all fours", "戴耳机": "hand on headphones", "鬼姿势": "ghost pose", "回头": "turning around", "歪头": "head tilt", "前倾": "leaning forward" }, "手势": { "嘘手势": "shushing", "翘大拇指": "thumbs up", "手放脑后": "arms behind head", "手放身后": "arms behind back", "手插口袋": "hand in pocket", "双手插口袋": "hands in pocket", "十指相扣": "interlocked fingers", "V字手势": "victory pose", "手在地板上": "hand on floor", "手在额头上": "hand on forehead", "手在肚子上": "hand on own stomach", "手在肩膀上": "arm over shoulder", "手搭别人的腿": "hand on another's leg", "手搭别人的腰": "hand on another's waist", "双手合十": "own hands clasped", "翼展双臂": "wide open arms", "手放嘴边": "hand to mouth", "手枪手势": "finger gun", "猫爪手势": "cat pose" }, "视线": { "远眺": "looking afar", "照镜子": "looking at mirror", "看手机": "looking at phone", "看向别处": "looking away", "透过刘海看": "visible through hair", "透过眼镜看": "looking over glasses", "面向观者": "look at viewer", "靠近观者": "close to viewer", "动态角度": "dynamic angle", "舞台角度": "dramatic angle", "凝视": "stare", "向上看": "looking up", "向下看": "looking down", "看向旁边": "looking to the side", "移开目光": "looking away" }, "整体": { "嗅闻": "smelling", "公主抱": "princess carry", "拥抱": "hug", "背对背": "back-to-back", "耶": "peace symbol", "调整过膝袜": "adjusting_thighhigh", "抓住": "grabbing", "战斗姿态": "fighting_stance", "走": "walking", "跑": "running", "跨坐": "straddling", "跳": "jump", "飞": "fly", "靠墙": "against wall", "躺": "lie", "从背后抱": "hug from behind", "遛狗": "walk a dog", "提裙": "skirt lift", "泡温泉": "half body under water", "骑马": "horse riding", "自拍": "selfie", "一字马": "standing split", "敬礼": "salute", "祈祷": "pray", "冥想": "doing a meditation" }, "上半身": { "伸懒腰": "stretch", "托腮": "gill support", "牵手": "holding hands", "单手叉腰": "hand_on_hip", "双手叉腰": "hands_on_hips", "招手": "waving", "撮头发": "hair scrunchie", "拉头发": "hair_pull", "抓别人的头发": "grabbing another's hair", "竖中指": "middle_finger", "弯腰": "bent over", "亲吻脸颊": "kissing cheek", "亲吻额头": "kissing forehead", "踮起脚尖吻": "tiptoe kiss", "头顶水果": "fruit on head", "咬手套": "glove biting", "脸贴脸": "cheek-to-cheek", "手牵手": "hand on another's hand", "双手交叉": "crossed arms", "双手张开伸直": "spread arms", "挥动手臂": "waving arms", "伸出手臂": "outstretched arm", "用手臂支撑": "carrying", "搂着手臂": "arm hug", "拿着": "holding", "拿着餐刀": "holding knife", "拿着枪": "holding gun", "拿着杯子": "holding cup", "拿着食物": "holding food", "拿着书": "holding book", "拿着魔杖": "holding wand", "打着伞": "holding umbrella", "捧着花": "holding flower", "拿着麦克风": "holding microphone", "抱着物品": "object hug", "抱着心": "holding heart" }}
74
4
tag语法

tag语法

分隔:不同的关键词tag之间,需要使用英文逗号,分隔,逗号前后有空格或者换行是不碍事的ex:1girl,loli,long hair,lowtwintails(1个女孩,loli,长发,低双马尾)混合:WebUi使用|分隔多个关键词,实现混合多个要素,注意混合是同等比例混合,同时混。ex: 1girl,red|blue hair, longhair(1个女孩,红色与蓝色头发混合,长发)增强/减弱:有两种写法第一种(提示词:权重数值):数值从0.1~100,默认状态是1,低于1就是减弱,大于1就是加强ex: ,(loli:1.21),(one girl:1.21),(cat ears:1.1),(flowerhairpin:0.9)第二种(((提示词))),每套一层()括号增强1.1倍,每套一层[]减弱1.1倍。也就是套两层是1.1*1.1=1.21倍,套三层是1.331倍,套4层是1.4641倍。ex: ((loli)),((one girl)),(cat ears),[flowerhairpin]和第一种写法等价所以还是建议使用第一种方式,因为清晰而准确渐变:比较简单的理解时,先按某种关键词生成,然后再此基础上向某个方向变化。[***1:***2:数字],数字大于1理解为第X步前为关键词1,第X步后变成关键词2,数字小于1理解为总步数的百分之X前为关键词1,之后变成关键词2ex:a girl with very long [white:yellow:16] hair等价为开始a girl with very long whitehair16步之后a girl with very long yellow hairex:a girl with very long [white:yellow:0.5] hair等价为开始a girl with very long whitehair50%步之后a girl with very long yellowhair交替:轮流使用关键词ex:[cow|horse] in afield比如这就是个牛马的混合物,如果你写的更长比如[cow|horse|cat|dog] in afield就是先朝着像牛努力,再朝着像马努力,再向着猫努力,再向着狗努力,再向着马努力
74
16
【Stable Diffusion 潜工具书】

【Stable Diffusion 潜工具书】

Stable Diffusion 潜工具书Ver. 4.1.20240520(此副本是4.1.20240520的快照版本)——如果你想要整个世界,那我也能画给你链接(原文链接)腾讯文档:- Stable Diffusion 潜工具书(备份链接I)整合了作者制作的几个文档,部分可能缺乏更新,如没有其他情况只看这里即可- Stable Diffusion 信息并联资源库(备份链接II)不同步文档链接(很少进行更新):- 【中文文档】Stable Diffusion 潜工具书(2023/12/22) | Civitai如果您有不在此列表中的信息/文件、或者其他疑问,请看以下链接- Stable Diffusion 潜工具书·鹊桥计划为确保体验,请在阅读本文档时关闭TUSI网站的深色模式本文档约63000字,文档本体浏览一遍时间约30min,文档总阅读时间约145小时。警告1. Ckpts/hypernetworks/embeddings等模型有一定的可能性被混入恶意代码,所以请谨慎使用.ckpt/.pt为扩展名的模型。请及时拉黑让你开启允许加载不安全模型这个选项的人。2. 在本地部署使用过程中请时刻关注你得GPU/硬盘等硬件状态,并在必要的时候强行停止AI生成以防止您的GPU/其他设备损坏。3. Stable diffusion没有付费知识,所有所谓付费知识/教程的人均为使用开源内容打信息差,所有变现\行业案例均为学习完基础内容就可以自行操作。开源内容请不要对此进行付费。声明1.  如果本文档外链的内容中有不合适的内容,与本文档无关。如发现请及时通知文档作者删除不合适的链接。2.  转载、引用或直接复制本文档内的内容需要注明链接:文档主链接:Stable Diffusion 潜工具书3.  文档基于公开材料和经验编写,不对内容准确性负责(但作者会尽力确保内容的准确性和排除民科/错误内容),如文档有错误内容,请联系本文档作者。4.  另外因您的数据的产生、收集、处理、使用等任何相关事项存在违反法律法规等情况而造成的全部结果及责任均由您自行承担。文档使用GFDL 许可,如果您需要在您自己的著作/文章/网站或其他出版物中使用本文档的材料,您必须遵守GFDL。如果您创建了一个修改或添加了内容的派生版本,它将继承以下条款:您的作品也必须以GFDL 的形式发布您必须注明文章的作者您必须提供取得材料“透明版本”的方法文档具体协议参考FDL,以仓库副本为准。Copyright (C) 2023 StableDiffusion潜工具书Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled "GNU Free Documentation License".作者Stable Diffusion 潜工具书2023/06/30作者:Yuno779(作者)QID:YYIMISE(九月Centaki)Discord:Yimis7777邮箱:AsiaAnyN@outlook.comCivitai:Yuno779 Creator Profile | CivitaiX:𝙔𝙪𝙧𝙞𝙠𝙪 (@ElysiaAnyN) / X (twitter.com)===DeepGHS===- deepghs (DeepGHS) (huggingface.co)- DeepGHS (github.com)===元素法典===- 元素法典制作委员会_哔哩哔哩_bilibili===秋叶甜品店===- 【秋葉的甜品店】(频道):https://pd.qq.com/s/edfqp0lcy- 秋葉aaaki的个人空间-秋葉aaaki个人主页-哔哩哔哩视频前置内容| SD是什么?这本书又是什么?a. 前言Stable Diffusion (稳定扩散) 是一个扩散模型,2022年8月由德国CompVis协同Stability AI和Runway发表论文,并且推出相关程序自此拉开SD绘画的序幕。后来NovelAI(下称nai)在二次元文生图(T2I)领域破圈,并且在模型泄露之后进一步破圈。为了整合nai破圈后的各路信息,nai贴吧组创建了「nai信息并联计划」,但是后续由于缺乏跟新「并联计划」逐步失效。在「并联计划」失效之后,缺乏一个能够集合SD相关知识的文档供大家参考。本文档的目的正在于此,用于弥补并联计划这个空缺。- NovelAI信息并联计划原址:https://kdocs.cn/l/cre0TwbMkdx3潜工具书是一个包含有任何可能有用的链接的一个信息存储库。如果你是新人,那么非常推荐你从头查看本文档本文档仅为中文整理的合集。其中部分链接文档/内容无对应中文版,考虑到部分为专业性文档,需要有很强的英语能力/熟练使用GPT等工具才能正常阅读。固请不要以此问题询问他人,如有需要请自行寻找GPT等工具使用教程。b. 前置内容● 信息在国内,想要正经的接触AI绘画相关的内容是非常困难的,往往需要克服信息阻断链,这个文档在很多地方并不受欢迎(你说是吧,某个L开头的模型网站),因为文档挡住了很多人想要卖课赚钱的路子。当然你既然看到了这个文档,相信你你已经解决了信息阻断的问题。当然如果你感兴趣想要知道正确入坑AI绘画有多难的可以查看这个文档:想要接触到正经AI绘画到底有多难● AI本地部署硬件需求说明:最低推荐配置的意思是配置低于这个就完全不建议入坑AI绘画了,如果强行想要使用,有些也是没问题的,但是还是建议硬件水平低于最低推荐配置时更换为更为强劲的硬件。当然使用云端部署也是没问题的(纯新人建议使用windows server)显卡VRAM在4GB以下的会很容易遇到显存不足的问题,即使使用放大插件也就非常慢(以时间换显存)显卡较差/显存严重不足时可以开启CPU模式,但是速度非常慢。你不希望一个小时一张图的话那就别想着用CPU跑图。● 软件需求Linux:用Linux当主力系统的还用我教?Windows:最低要求为Windows 10 64比特,请确保系统已更新至最新版本。windows7就不要想了,建议直接升级到win10/win11macOS:最低要求为macOS Monterey (12.5),如果可以的话请使用最新版macOS。建议使用搭载Apple Silicon M芯片(M1、M2) 的Mac机型。旧款Mac需配备AMD独立显卡,只有Intel核显的不能使用。正文内容①https://tusi.cn/articles/730154185623963570②https://tusi.cn/articles/730157424029312247③https://tusi.cn/articles/730162358946747397④https://tusi.cn/articles/730213739640645910Q & A● VAE是什么,出图发灰怎么办:VAE 是一种神经网络,可将标准的RGB 图像和潜空间表征互相转换。潜空间表征是Stable Diffusion 在采样过程中的实际操作对象。(即进度条处于"空" 和"满" 之间的状态)。 对于文生图,VAE 仅用于在采样完成后创建RGB 图像。 对于图生图,VAE 用于在采样前把用户输入的图像处理为潜空间表征,并在采样后创建RGB 图像。说人话:简单的说就是把AI输出翻译成人能看到的图片出图发灰是因为模型内的VAE存在问题,可以将模型内的VAE更换为其他适合的VAE,在SD-Webui中直接更换“外置”VAE即可● 安装报错打不开怎么办:如果你是秋叶整合包,那么可以查看此文档:【必读】萌新基础常识(wa9.cn)讨论以下插件你可能不会得到除卸载以外的任何答案:Dreambooth、a1111-sd-webui-locon/lycoris、Deforum、TemporalKit、Kohya-ss Additional Networks如果不是使用整合包,且出现问题无法自行解决,那么请看这里并使用整合包:SD WebUI秋叶整合包与SD Webui绘世启动器- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!- 【AI绘画】绘世启动器正式发布!!● 说了一番也不推荐模型……?这里除了我自己夹带本人制作的私货模型以外不会推荐任何其他模型,在看完一些文章之后你理应能够自行分辨模型的质量,如果不能那就再去看一遍文章的内容,如果还不能分辨,这边建议先上学再上网。当然你不想看文档,那也不怪你,只是你不适合学习SD相关的东西,我建议你立刻关闭文档并卸载你的AI软件。● 有一些东西没有加入这里:部分文档含有非常多的错误内容,为了确保新人不会获得错误的消息,我将其剔除文档。另外为了防止一些潜在的风险和其他问题有些其他的文档也不会放到这里。如果有其他需要加入本文档的内容,请查看此链接:- Stable Diffusion 潜工具书·鹊桥计划NovelAI信息并联计划失效的原因之二就是民科内容多和大家无法自发的将新内容放到并联计划上,所以潜工具书将不会采用并联计划的模式来避免这种情况的发生。● 模型奇怪的大小?一般而言奇怪大小的模型都会或多或少的含有一些垃圾数据或无效精度。模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。另外默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度也是没啥意义的。旧版本SuperMerge插件也会整出来一些float64的weight造成大小异常。这些都会浪费磁盘空间。● 有什么新的东西?详情查看3.c推荐的几个b站UP的动态或者视频,一般而言更新都是比较快的● 为什么经常看到批评某些东西的内容首先,暴躁程序员天天因为技术上的原因喷人是很常见的一件事,有些人或者事虽然经常因为技术上的问题吵来吵去,但是私底下却并没有这么水火不容。另外就是,一部分比较差的模型或者一些其他东西,有很多人出于比如面子或者是社交上的考量,而不去批评别人的东西。别人出了个模型或者别的就一直要被追着说好,只能夸,不能批评。这不是个好现象,虚伪的称赞对谁都不好。这里不是绘圈或AI模型圈,不好的东西受到批评是应该的,而且这对于被批评的事物也是有利的。● 说半天也不推荐模型也不解决问题这个文档的大部分内容是让你知道为什么,而不是怎么做。全都看完且理解了里面的内容,你自然就会自己分辨模型、自己炼模型,那些所谓的“应用向工作流”自然而然的就可以手到拈来。● 堆友的教程相关内容:完全不建议看堆友上的任何教程,因为新人完全没有对于这些知识是否正确的分辨能力,而堆友上的教程普遍都有一些错误的内容,或者是只根据现象就总结结论的“民科理论”,这会对新人理论体系的构建产生非常差的影响。私货环节| 模型推荐● kohakuXL EKohaku XL E是Kohaku XL系列最新版本,使用LyCORIS微调,在消费级硬件上训练,并且完全开源。使用前请看模型卡,为确保效果请使用模型卡的格式。- (3) Kohaku-XL Epsilon - rev1 | 吐司tusi.cn● animagine xl 3.1Animagine XL 3.1是Animagine XL V3系列的一个更新,增强了之前的版本Animagine XL 3.0。Animagine XL 3.1建立在Stable Diffusion XL的基础上,旨在通过制作准确而详细的动画角色表示,成为动漫迷、艺术家和内容创作者的宝贵资源。- (21) Animagine XL - V3 | Tensor.Art- cagliostrolab/animagine-xl-3.1 · Hugging Face- Animagine XL V3.1 - v3.1 | Stable Diffusion Checkpoint | Civitai● AnythingXL- (1) 万象熔炉XL | AnythingXL - beta4 | 吐司TusiArt.com- 万象熔炉| Anything XL - XL | Stable Diffusion Checkpoint | Civitai拒绝民科请勿只根据现象就去“定义”某些理论a. 相关问题原因&说明民科/错误理论提出的原因常见的无非有三种。定义:只通过现象就去“定义”一些事物,并且将其当作理论来使用传播,很多种情况下这些提出的理论都只是巧合或者适用范围相当有限的东西。例如:GhostInShell的一些理论/VAE相关的内容就属于此。似乎:很多内容是我们心理上感觉其效果的,但是实际上并没有这一回事,并且完全不起作用。但是仍然有人将其作为理论拿出来使用。例如:当初法典组融合研究的一些东西就属于此。掩饰:有些过于离谱的内容纯属是为了掩盖自己啥都不懂论文没看文档没读……的,但是由于提出这些东西的人往往有很高的流量,就会影响相当多的人,甚至一部分新人小白听取了“业界大佬”的发言,就认为确实是这样的。例如:墨幽的HIFI级大模型就是属于此的另外AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层,这就意味着玄学民科的内容很多人是完全没有办法分辨的,这会导致很多人有意无意的也成为一些错误理论的传播者。- 模型结构科普第一辑- 模型理论科普第二辑这个系列文档科普了一些模型结构的内容,然而还有更多的玄学民科内容还在等着我们去根除谬误,当然这个文档也有可能会有错误内容,有问题也请直接指出。b. SD社区现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎,各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,再加上一部分国内网站不干人事的追求流量的和听信民科内容行为(曾有群友在某网站引用论文和其官方说明文档的内容指出错误的信息,但是该网站以“我的观点”与主流观点不同为由拒绝,且后续还有其他过分的行为)以及一些流量UP为了流量胡乱推荐、随意拉踩,自然然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种民科内容等等情况。c. 举例说明相关举例: “采样器影响提示词准确性” “LoRA训练dim无脑开128最好” “训练时长和模型质量是直接相关的” “训练集图片越大质量越好” ……以上这些都是已经证伪的民科理论,相关的东西还有很多。● 墨幽(HIFI级ai绘图模型):- 【AI绘画】模型修剪教程:8G模型顶级精细?全是垃圾!嘲笑他人命运,尊重他人命运- 哔哩哔哩(bilibili.com)(图片MoYou为错误结论)● 模型VAE:- 【AI绘画】不是每个模型都需要外挂VAE! VAE真正的作用是什么? - 哔哩哔哩(bilibili.com)● GhostMixGhostshell相关的理论和勘误:- GhostInShell你还想骗人多久?当然其他的东西也是有非常多的,只是没有有流量的人说明我提出了必定被喷,为了避免麻烦也是因为Happy Lazy就懒得说了,有兴趣自己去看论文或者其他作者的讲解文档。
73
6
Stable Diffusion WebUI 从入门到卸载②

Stable Diffusion WebUI 从入门到卸载②

受限于字数限制:前置内容Stable Diffusion WebUI 从入门到卸载| 吐司tusi.cn模型训练的问题部分模型训练的时候出现的问题也会导致提示词出现不听话的情况。许多tag 有着逻辑上合理的“前置”关系,比如存在sword 这个tag 的作品往往还存在weapon 这个tag、存在sleeves past finger 这个tag 的作品往往还存在sleeve past wrists 这个tag。这样在训练集中往往共存且有强关联的tag,最终会让模型处理包含它的咒语时产生一层联想关系。不过上述联想关系似乎不够令人感兴趣,毕竟这些联想的双方都是同一类型,哪怕sword 联想了weapon 也只是无伤大雅。那么是否存在不同类型的联想呢?答案是存在的:masterpiece, 1 girl, blue eyes, white hair, white dress, dynamic, full body, simple backgroundmasterpiece, 1 girl, blue eyes, white hair, white dress, (flat chest), dynamic, full body, simple background不难发现flat chest 除了影响人物的胸部大小之外还影响了人物的头身比,让人物的身高看上去如同儿童身高一般,如果调整画布为长画布还会更明显。因此称flat chest 与child 有着联想关系。人物胸部大小和身高是不同的两个类型,两个看似类型完全不同的词也可以产生联想关系。对flat chest 加大权重,会让这种联想关系会表现地更为突出。它的原理和上述同类型的联想一样,都是训练来源导致的。平胸美少女和儿童身高在同一个作品内出现的概率非常大,模型训练的时候不做好区分就会混在一起产生联想关系。这种联想关系在社区中曾被称为“零级污染”。这种现象在不同的模型中的表现是不同且普遍存在的:例如:在cf3模型中,出现了又rain的情况下一定会存在雨伞的关联现象。rain和unbrella产生了联想关系。9. 如何使用LoRA①首先,把你的LoRA模型放到指定文件夹(你的webui根目录\models\Lora)里面文件夹和我的不一样没关系,只要把模型放到这里就行了。如果下载了太多的LoRA模型不好找,那么就可以像我一样加入文件夹分类②按照图片提示,依次点击LoRA列表按钮——想要使用的LoRA,在正面提示词栏里出现<lora:colorloss-000020:1>这种格式的提示词即为下一次生成所要加载的LoRA。③如果你使用安装了Kitchen主题或者用了kitchen主题套壳的整合包,那么你的LoRA在这里10.  画大大大大大大的图Tiled VAE扩展插件: pkuliyi2015/multidiffusion-upscaler-for-automatic1111Tiled VAE能让你几乎无成本的降低显存使用● 您可能不再需要--lowvram 或--medvram。● 以highres.fix 为例,如果您之前只能进行1.5 倍的放大,则现在可以使用2.0 倍的放大。使用方法:勾选红框所示的勾选框以启动Tiled VAE在第一次使用时,脚本会为您推荐设置。因此,通常情况下,您不需要更改默认参数。只有在以下情况下才需要更改参数:当生成之前或之后看到CUDA内存不足错误时,请降低tile 大小当您使用的tile 太小且图片变得灰暗和不清晰时,请启用编码器颜色修复。stableSR扩展插件:pkuliyi2015/sd-webui-stablesr: StableSR for Stable Diffusion WebUI功能:更强大的图片放大扩展详细用法请看以下链接:sd-webui-stablesr/README_CN.md at master · pkuliyi2015/sd-webui-stablesr · GitHub11.  元素同典:真正的parameters魔法入门提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书》我们保留了一点点Junk Data:请选择你的模型1.  Stable Diffusion的工作原理①首先我们输入的提示词(prompt)会首先进入TE(TextEncoder),而clip就是stable diffusion所使用的TE。TE这部分的作用就是把tag转化成U-net网络能理解的embedding形式,当然了,我们平时用的emb模型,就是一种自然语言很难表达的promot。(简单的说就是将“人话”转换成AI能够理解的语言)②将“人话”转换成AI能够理解的语言之后,U-net会对随机种子生成的噪声图进行引导,来指导去噪的方向,找出需要改变的地方并给出改变的数据。我们之前所设置的steps数值就是去噪的次数,所选择的采样器、CFG等参数也是在这个阶段起作用的。(简单的说就是U-net死盯着乱码图片,看他像什么,并给出更改的建议,使得图像更加想这个东西)③一张图片中包含的信息是非常多的,直接计算会消耗巨量的资源,所以从一开始上面的这些计算都是在一个比较小的潜空间进行的。而在潜空间的数据并不是人能够正常看到的图片。这个时候就需要VAE用来将潜空间“翻译”成人能够正常看到的图片的(简单的说就是把AI输出翻译成人能看到的图片)经过以上三个步骤,就实现了“提示词→图片”的转化,也就是AI画出了我们想要的图片。这三个步骤也就对应了模型的三个组成部分:clip、unet、VAE2. 好模型在哪里?同时满足:提示词准确、少乱加细节、生成图好看、模型本身没有问题的模型,我们就能称之为好模型。提示词准确:顾名思义,就是tag提示词的辨别能力越高越好。提示词辨别能力差,那么我们就难以达到想要的效果。少乱加细节:指的是产生提示词中并不包含的细节,并且我无法通过提示词来消除这些不相干的细节,这会影响提示词对于生成图的控制能力。生成图好看:这没什么好说的,生成图无论如何都是炸的话,那这个模型也就没有存在的必要了。模型本身没有问题:一般而言是指不含有Junk data和VAE没有问题的模型3. 讨厌的junk datajunk data就是指垃圾数据,这些数据除了占用宝贵的硬盘空间外毫无作用。一个模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。一般而言一个7Gb的SD1.5模型,实际生成图片所用到的只有3.98Gb。模型并不是越大越好这些东西大部分都是EMA,模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。所以在尝试融合模型时期,请先使用工具删除模型EMA权重(后面讲模型融合的时候会提到)4. 你的AI浓度超标了!曾经时间大家的模型同质化都是比较严重的,按照出图效果分类可以将这一部分融合模型模型分为:橘子、蜡笔、Anything、cf等多种系列,每一种系列中的不同模型实际上都效果相差不大,完全没有必要去下载全部的模型。不了解AI的人所说的“AI浓度超标”“AI味”,其实指的是橘子(AOM)这一系列模型的风格,具体效果是人物身体的表面有一种油光,多了解之后你就会发现,类似这种一整个系列都会有相似的风格。5. 你的VAE?不,是你的VAE!VAE重复问题在SD1.5是比较严重的,例如Anything V4.5 VAE,实际上和novelai的VAE是完全相同的,有不少模型自带的VAE是使用了其他的VAE并且只是更改了文件名称而已,实际上这些VAE的哈希值都是完全相同的。相同的VAE无需重复下载,这些完全重复的VAE除了占用宝贵的硬盘空间外毫无作用。下面是笔者这里所有的VAE的哈希对照:(当然并不是全部,肯定还有其他的)掌控全局:ControlNet控制网ControlNet是stable diffusion的一个插件,它可以通过添加条件图片的形式来自定义很多内容达到自己想要的效果扩展插件: Mikubill/sd-webui-controlnetControlNet的保存库: lllyasviel/ControlNet1.  ControlNet基本功能想要使用控制网,首先需要点击启用(Enable)不然再怎么调整都是没有任何效果的(不启用怎么可能有效果)图片位置:你可以选择需要使用的图片导入至此,用以制作模板预处理:指你想要如何处理上传的模板图片。对应的控制网模型需要与之相对应的模板。CN模型:选择你要使用的模型,例如人物姿态控制就需要使用openpose,想要切换图片的白天黑夜状态就需要使用shuffle,不同的模型对应不同的功能选择优先考虑对象:给提示词更好的表现还是给控制网更好的表现选择缩放模型:你可以类比为windows系统的壁纸,可以调整生成图和模板分辨率不同的时候如何处理。Control Type:图上没标注,为不同模型的预设设置,很方便。另外还有这三个选项也是很常用的:从左到右的顺序是控制网权重、控制网介入时机、控制网引导退出时机。实际效果顾名思义即可。2.  推荐教程我这里不可能讲解的面面俱到,而且很多内容仅停留在会用上,你可以查看一些up的视频来学习大江户战士的个人空间_哔哩哔哩_bilibiliControlNet1.1场景氛围转换_哔哩哔哩_bilibili我们可以炼丹了,你不觉得这很酷吗?(lora)1. 没有脚本,炼个P这里推荐使用秋叶的LoRA模型训练包https://www.bilibili.com/video/BV1AL411q7Ub/也可以使用Kohya的训练脚本kohya-ss/sd-scripts (github.com)或者是HCP-diffusion(相信会用这个的大概不会来看这个入门级文章的吧)7eu7d7/HCP-Diffusion: A universal Stable-Diffusion toolbox (github.com)不推荐使用任何预设参数的一键炼丹炉2. 开始训练的准备工作①首先你需要一个6GB以上显存的NVIDIA显卡,如果没有,可以尝试云端炼丹②你需要一个祖宗级基础模型sd1.5 2.0、novelai,不推荐使用任何融合模型。③如果使用非秋叶包,那么你还需要在webui上使用tagger插件④准备训练集:训练集打标可以使用秋叶整合包中的tagger模块,也可以使用webui中的tagger插件。但是需要注意:任何AI打标都不可能100%准确,有条件尽可能人工筛查一遍,剔除错误标注一般而言需要准备一个训练集文件夹,然后文件夹中套概念文件夹命名格式为:x_概念tagx为文件夹中图片的重复次数(repeat)【这个参数不在训练UI里调节,而是直接在文件夹名称上调节】训练集是LoRA训练的重中之重,训练集直接决定了LoRA模型的性能3. 你所热爱的,就是你的参数①学习率设置UNet和TE的学习率通常是不同的,因为学习难度不同,通常UNet的学习率会比TE高。我们希望UNet和TE都处于一个恰好的位置,但是这个值我们不知道。如果你的模型看起来过度拟合,它可能训练Unet过头了,你可以降低学习率或更少的步数来解决这个问题。如果你的模型生成噪点图/混乱难以理解的图片,那至少需要在学习率的小数点后面加个0再进行测试。如果模型不能复刻细节,生成图一点都不像,那么就是学习率太低了,尝试增加学习率降低TE学习率似乎对分离对象有好处。如果你在生成图片过程中发现了多余的物品,那么就需要降低TE学习率如果您很难在不对提示进行大量权重的情况下使内容出现,那么你就需要提高TE学习率。更好的方法是先使用默认参数训练测试,然后再根据测试的结果来调整对应的参数。(秋叶训练包里的默认参数都是自带的)②优化器AdamW8bit:默认优化器,一般而言不了解/不知道测试结果的直接使用这个优化器即可AdamW:占用显存更高,但是比8bit效果更好一点DAdaptation:自适应调整学习率,显存占用极高。有不少人使用这个优化器来摸最开始使用的学习率SGDNesterov8bit:极慢,不推荐使用SGDNesterov:极慢,不推荐使用AdaFactor:(笔者没用过)似乎效果比DAdaptation好很多Lion:占用显存较高,效果极好,但是比较难以控制,需要bs或者等效bs大于64才能达到极佳的效果。Lion8bit:占用显存可能更低③调度器设置linear:不断下降,直到最后为零。cosine:学习率呈余弦波形上下波动。cosine_with_restarts:(没用过带其他人补充)polynomial:类似linear,但曲线更漂亮constant:学习率不会改变。constant_with_warmup:类似于constant,但从零开始,并在warmup_steps期间线性增加,直到达到给定值。④噪声设置noise_offset:在训练中添加噪声偏移来改良生成非常暗或者非常亮的图像,如果启用推荐为0.1金字塔噪声:增加模型生成图亮度对比和层次感,效果极佳建议开启4. 过拟合和污染①触发词和过拟合,并没有十分严格的界定,除非一些lora是过拟到非常糟糕,直接吐原图那种。毕竟训练人物特征本身就需要一定的“过拟合”②训练中常见污染,主要是因为打标器认不出或者遗漏(训练集质量),还有大模型的部分问题导致更容易被诱发的特征,包括:1. 混入其中的奇怪动物。2. 喜欢侧视和背视。3. 双马尾/兽耳。4. 胳膊喜欢披点东西(比如外套)。出现此类情况可以先先检查训练集和标注,然后再更换模型测试另外:角色的不对称特征请处理使其尽量在同一侧,且不要开启训练时镜像处理。5. 删标法之争,没有绝对的对与错在角色训练方面,一直有两种不同的观点删除所有特征标:多用于多合一,优点是调用方便,一两个tag就能得到想要的角色特征,但缺点是1. 一些特征可能受底模影响发生偏移。2. 要换衣服和nsfw比较困难。3. 容易出现不同概念的相互污染。4. 提示词会不准确删除部分特征标:仅删除多个决定角色特征的tag标注全标:优点是提示词准确,但是部分角色效果可能不好出现(还原性较差)是否删标取决于自己想要什么:假设说我的训练图是一个红色的苹果,如果我们标注这个苹果是红色的,那么你可以在生成图片的时候生成出绿色的苹果。如果我们只标注苹果,那么这个红色的就作为苹果的固有属性,只要出现苹果,那么就是红色的。6. LoRA进阶训练方法分层训练:https://www.bilibili.com/video/BV1th411F7CR/完美炼丹术,差异炼丹法:https://www.bilibili.com/video/BV11m4y147WQ/LoRA BW插件:https://github.com/hako-mikan/sd-webui-lora-block-weight模型Merge,并不科学但确实有效1. 你权重乱了融合模型前请先去除模型中的EMA权重:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用还会占用宝贵的硬盘空间2. 传统模型merge① 选择模型A、B、C②设置新模型名字一般来说可以设置为xxxMix(xxx为你想要的名称,Mix代表融合模型)在这里设置模型的名字。③设置Merge比例传统融合有两种方式,分别为:加权和Weighted sum:将两个模型权重的加权和作为新模型的权重,仅需要填入模型A和B,公式:A*(1-M) + B*M,倍率(M)为模型B所占比例加上差值Add difference:将模型B与C的差值添加到模型A,需要同时填入模型A、B和C,公式:A + (B-C)*M,倍率(M)为添加的差值比例④选择fp16请直接选择fp16,默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度是没啥意义的,不使用--no-half这些模型将完全相同。而实际上哪怕使用--no-half,模型的差别也并不会很大,所以直接选择fp16测试效果即可。⑤Merge点击它后等待一会即可,模型在你的webui根目录下的models/Stable-diffusion文件夹。需要注意的是:传统融合效果并非比现在的mbw等操作效果差3.  Merge Block Weighted扩展插件: bbc-mc/sdweb-merge-block-weighted-gui插件基本功能:开始合并:点击后直接开始融合清空数值:将下方的滑条全部置为0.5刷新模型列表:刷新模型列表。在webui开启状态下,如果模型文件夹新加入了模型,那么将会无法自动识别。如果原模型区域找不到新加入的模型,那么点击这里即可刷新模型列表模型A:选择需要融合的模型A模型B:选择需要融合的模型B输出模型文件名:你要输出的模型文件名称,通常为xxxMix预设权重:官方预设融合权重,选择后直接加载进下面的滑块权重框:输入自定义的融合权重,输入完成后点击下面的按钮直接加载进滑块文本编码器比例:A和B模型的语义分析模块的融合比跳过或重置CLIP position_ids键值:防止clip偏移导致模型出现各种提示词识别问题,强烈建议选择:强制重置Force ResetMBE能达到的效果:画风更换、人体修复、剔除污染层等更详细的MBW详解:Merge Block Weight 魔法密录1.0正式版4.  LoRA的注入与提取扩展插件:hako-mikan/sd-webui-supermerger插件基本功能除了MBW以外还有LoRA处理的相关功能:当然更多进阶的功能可以到插件仓库去查阅README.md,这里不做更详细的讲解。通过两个ckp大模型之间做差可以得到一个LoRA。需要注意的是这里需要在filename(option)这一栏输入想要的名称,不然无法提取点击下面的LoRA然后在上面选择模型,就可以把LoRA注入到ckp大模型里(同样需要在filename(option)这一栏输入想要的名称,不然无法注入)。需要注意的是,这里只能注入LoRA,并不能操作Loha等一系列其他模型,如有报错请检查模型格式是否正确。注意:部分模型做差提取LoRA后使用和原ckp模型效果差距很大,部分LoRA注入后和直接使用效果差距也会很大,具体是否可用请根据不同的模型自行测试5. 灾难性遗忘与模型融合限制很多模型灾难性遗忘(本来模型会的被炼到不会了)现象较为严重(排除掉lora的一些特定需求 其余的微调大部分层次的训练都可能有这个现象),而模型融合会放大这个现象。(比如模型只能出1girl)更多的功能,更多的插件,无限的可能注意:安装扩充功能可能会导致Stable Diffusion WebUI启动变慢,甚至无法启动,并且哪怕使用启动器也无法扫描出异常。请不要自行下载DreamBooth的WebUI插件!!!请不要自行下载TensorRT 的WebUI插件!!!请不要自行下载TemporalKit 的WebUI插件!!!请不要自行下载Deforum 的WebUI插件!!!自行下载这些插件并且炸了的唯一最佳解决方法:完全删除并重装WEBUI1. 用Webui图形界面安装①最简单的方法就是点击Extensions → Available的Load from:,就会列出可下载安装的扩充功能,点击安装②部分不在列表的插件,需要将Github库链接直接填入WebUI插件下载区,等待自动加载完毕即可③安装完成后必须点击这里重启UI网页界面(小退)才能使用,有的插件则是需要“大退”,即关闭Webui实例,重新启动。④更新扩展插件推荐使用启动器,而非Webui内的检查更新。webui内的检查更新大概率会卡住。2. 使用git安装①(安装前需要关闭你的webui实例)在你的webui根目录/extensions文件夹打开终端,运行git clone指令,安装扩充功能。例如:git clone https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git②打开WebUI,你就会看到新安装的扩展功能③windows系统插件更新同样可以使用启动器进行更新3. 使用压缩包安装①github界面点击【Download ZIP】注意:请在尝试了其他安装方式并且均失败的情况下再选择直接下载zip解压②完整解压后放在扩展文件夹:你的WebUI所在文件夹/extensions(需要关闭你的webui实例)③重新开启webui后能在插件列表中看到即为安装成功4. 停用、卸载、删除插件①对于暂时不使用插件,点击扩展前面的✔并且重启用户界面即可②删除、卸载插件最简单的方法是在启动器界面点卸载(卸载插件前请关闭你的Webui实例)请远离玄学民科1.  说明AI绘画使用的超低门槛与实际研究群体的超高门槛之间存在着非常严重的断层。这就意味着玄学民科的内容会非常的多。模型理论科普V2.0.0627这个文档反驳了非常多的玄学民科内容,然而还有更多的玄学民科内容还在等着我们去科普2.  现状SD目前并没有专门的交流社区/或者说即使有交流社区那么环境也是比较差的(例如猫鼠队),而一般的网站又过于简单零碎各自为阵的群聊也有一部分人在输出玄学民科内容,并且还有相当的一部分人进行吹捧。而刚接触的新人也没啥分辨能力,自然而然的会出现,玩了几个月发现自己玩的都是垃圾,或者自己也加入输出这种内容等等情况。彻底卸载Stable Diffusion Webui1.  删除环境/软件python、git等软件都可以在windows系统内设置界面直接卸载,直接打开设置-应用-安装的应用搜索卸载即可2. 删除Webui本体直接删除Webui目录文件夹即可。注意这里有一个魔鬼细节:请不要在windows资源管理器内直接右键删除文件夹,如果这样直接删除,那么大概率需要几个小时的时间来检索文件目录。长期使用的stable diffusion Webui本体很可能有几十万个文件,检索相当耗时。推荐三种方法:①打开终端使用命令行删除②使用FastCopy直接删除所有(注意不要点左下角的擦除&删除)③如果你听了我的建议整个Webui相关的东西都放在了同一个盘符中,那么推荐使用快速格式化,这样删除是最快最方便的。3. 删除缓存文件①Webui缓存C:\Users\你的用户名\.cache这其中这4个文件夹是Stable Diffusion Webui所创建的缓存文件,只需要删除这四个文件夹就可以了,多出来的文件夹是你安装的许多其他的东西。②pip下载缓存C:\Users\用户名\AppData\Local\pip\cache如果找不到AppData文件夹那么请修改文件夹选项:隐藏文件和文件夹-显示隐藏的文件、文件夹和驱动器。cache文件夹可以直接全部删除不会影响其他的东西Stable diffusion相关词汇表● artificial intelligence generated content (AIGC): 生成式人工智能● ancestral sampling: 祖先采样,又称向前采样● annotation: 标示● batch count: 批量数量● batch size: 批量大小● checkpoint: 存盘点,模型格式,附文件名为.ckpt。● classifier-free guidance scale (CFG scale): 事前训练的条件控制生成方法。● CodeFormer: 2022年由Shangchen Zhou等人发表的脸部修复模型。● conditioning:制约训练● ControlNet: 2022年由Lvmin Zhang发表,通过加入额外条件来控制扩散模型的神经网络结构。● cross-attention: 分散注意● dataset: 数据集● denoising: 去噪,降噪● diffusion: 扩散● Denoising Diffusion Implicit Models (DDIM): 去噪扩散隐式模型,2022年由Jiaming Song等人发表的采样方法。● Dreambooth: Google Research和波士顿大学于2022年发表的深度学习模型,用于调整现有的文生图模型。● embedding: 嵌入● epoch: 时期● Euler Ancestral (Euler a): 基于k-diffusion的采样方法,使用祖父采样与欧拉方法步数。可在20~30步数生出好结果。● Euler: 基于k-diffusion的采样方法,使用欧拉方法步数。可在20~30步数生出好结果。● fine-tune: 微调● float16 (fp16): 半精度浮点数● float32 (fp32): 单精度浮点数● generate:生成图片● Generative Adversarial Network (GAN):生成对抗网络,让两个神经网络相互博弈的方式进行学习的训练方法。● GFPGAN: 腾讯于2021年发表的脸部修复模型。● hypernetwork: 超网络● image to image: 图生图● inference: 模型推理● inpaint: 内补绘制● interrogator: 图像理解● k-diffusion: Karras等人于2022年发表的PyTorch扩散模型,基于论文〈Elucidating the Design Space of Diffusion-Based Generative Models〉所实作。● latent diffusion: 潜在扩散● latent space: 潜在空间● learning rate: 学习率● Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion (LyCORIS)● low-rank adaptation (LoRA): 低秩自适应,2023年由Microsoft发表,用于微调大模型的技术。● machine learning: 机器学习● model:模型● negative prompts: 负向提示词● outpaint: 外补绘制● pickle: 保存张量的模型格式,附文件名为.pt● postprocessing: 后处理● precision: 精度● preprocessing: 预处理● prompts: 提示词● PyTorch: 一款开源机器学习库● safetensors: 由Huggingface研发,安全保存张量的模型格式。● sampling method: 采样方法● sampling steps: 采样步数● scheduler: 调度器● seed: 种子码● Stable Diffusion: 稳定扩散,一个文生图模型,2022年由CompVis发表,由U-Net、VAE、Text Encoder三者组成。● text encoder: 文本编码● text to image: 文本生成图片,文生图● textual inversion: 文本倒置● tiling: 平铺● token: 词元● tokenizer: 标记解析器● Transformers: HuggingFace研发的一系列API,用于辅助PyTorch、TensorFlow、JAX机器学习,可下载最新预训练的模型。● U-Net:用于影像分割的卷积神经网络● unified predictor-corrector (UniPC): 统一预测校正,2023年发表的新采样方法。● upscale: 升频,放大● variational auto encoder (VAE): 变分自动编码器● weights: 权重● xFormers: 2022年由Meta发表,用于加速Transformers,并减少VRAM占用的技术。
64
8
新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略

新手小白向——吐司模型炼制小攻略 首先:打开吐司官网(https://tusiart.com/)进入模型训练界面:   第二步:上传训练数据集,最好是准备好事先裁剪好的素材(素材分辨率最好是64的倍数),上传然后打标;打标方式:Flux的模型训练推荐使用自然语言英文打标;其他sd1.0或者1.5的底膜使用wd1.4的打标模型打标即可;  真人模型推荐用自然语言,二次元推荐用wd1.4; 第三步:主要参数设置:单张重复次数(Repeat)代表训练一轮模型学习这张图片的次数,训练轮数(Epoch)代表,训练的总轮次,一般(Repeat)乘以(Epoch)达到100以上就有一个比较好的模型训练成果。两者相乘再乘以上传数据集的图片数量就等于总训练步数。接下来要设置的是:文本编码器学习率Text Encoder learning rate以F1的底膜为例,一般设置为:2e-6Unet 学习率Unet learning rate以F1的底膜为例,一般设置为:5e-4或者直接采用系统推荐的学习率参数    学习调度器选择:  优化器选择:  训练网格大小和alpha值设置:这两者决定了你训练出来的模型的文件大小,以F1的底膜为例,一般数据集比较小时设置成16-8,或者是32-16就可以,前者保持在后者的2倍,数值设置越大训练的速度越慢,相对来说学习深度越高。 最后设置样图的大小和样图提示词:噪声偏移及其他几种高级参数对F1的lora训练影响不大,保持默认值或者改成0都可。  别忘了添加你的触发词:使用批量加标签加入触发词  第三步:点击立即训练:完成你的lora训练吧! 第四步:训练完成后选择符合你要求的模型,吐司可以保存十个不同轮次的模型,从中挑选出你喜欢的。 通过查看loss值看模型的拟合程度: 
60
21
吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介

吐司在线Lora模型训练参数设置含义简介一:主要参数的含义: 底膜:训练用的大模型训练网络模块:包含lora,dora等 触发词:触发lora效果的提示词单张重复次数(Repeat):训练一轮模型学习这张图片的次数, 训练轮数(Epoch):训练的总轮次,总学习步数= (图片数量 重复次数 epoch)/ 批次大小以UNet学习率为1e-4为例,一般来说图片较少的时候训练人物需要至少1000步,训练画风则需要至少2500步,训练概念则需要至少3000步。这里只是最低的步数,图片多则需要更多步数。学习率更大可以适当减少步数,但并非线性关系,使用两倍的学习率需要使用比之前步数的一半更多的步数。 文本编码器学习率Text Encoder learning rate:在训练过程中,用于更新文本编码器模型权重的参数。学习率是一个重要的超参数,它决定了模型在每次迭代中权重更新的幅度。 Unet 学习率Unet learning rate:学习率决定了模型在每次迭代中参数更新的幅度,过大的学习率可能导致模型无法收敛,而过小的学习率则会导致训练过程缓慢且效果不佳。 训练图像尺寸:训练集的分辨率大小 种子seed:相当于图片的身份证 Clip skip:是指在图像生成过程中控制CLIP模型使用频率的参数。CLIP模型是一种先进的神经网络,能够将输入的文本提示词转换为数值表示,并通过多层处理生成图像。Clip skip参数决定了在生成图像时CLIP模型处理的层数,从而影响图像的质量和与输入文本的匹配度。 学习率调度器:是一种在训练过程中调整学习率的方法,通常会随着训练的进展而降低学习率。这有助于模型在训练开始时当参数远离其最佳值时进行大量更新。 优化器:用于调整神经网络的权重和偏置,以最小化损失函数,从而提高模型的准确性和性能‌。优化器的目标是通过对模型参数的调整,逐步降低损失函数的值,确保每次优化都朝着最快降低损失的方向前进‌ 训练网格大小‌训练网格大小‌通常指的是在机器学习或深度学习中,用于模型训练的数据集的划分方式。具体来说,它将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型参数,测试集用于评估模型的泛化能力。合理的网格大小划分可以帮助模型更好地学习和泛化,避免过拟合或欠拟合。 Alpha值:‌Alpha值‌在机器学习中通常指的是‌学习率‌,它是一个超参数,用于控制模型在每次迭代中权重更新的步长。学习率的作用是平衡模型的训练速度和稳定性。一个合适的学习率可以帮助模型快速收敛到最优解,而过高或过低的学习率都可能导致训练效果不佳。通常,学习率被设置为一个较小的值,以便模型在训练过程中能够缓慢地探索和学习,避免出现不稳定的情况‌ 噪声偏移:在训练过程中加入全局的噪声,增加生成图像的动态范围(黑的更黑,白的更白)。当不需要生成这类极亮或者极暗的图像时推荐关闭。如果需要开启,推荐设置值为0.1,同时需要增加学习步数作为网络收敛更慢的补偿。 多分辨率噪声袁减率Multires noise discount和多分辨率噪声迭代次数Multires noise iterations:多分辨率噪声减少(Multires Noise Discount)是一种算法,它通过迭代处理来减少图像噪声。这种方法通常用于图像的去噪过程。多分辨率指的是从高分辨率开始处理,逐渐降低分辨率,直到达到某个停止条件。在每次迭代中,处理过程可能包括滤波、图像重建或其他噪声减少技术。多分辨率噪声迭代次数(Multires Noise Iterations)则指的是在满足某些条件之前,需要执行多少次迭代。 卷积层维度conv dim和卷积层Alpha 值conv alpha:卷积层的维度(conv dim)‌是指卷积操作处理的数据的维度。在深度学习中,卷积层主要有三种类型:Conv1d、Conv2d和Conv3d,它们分别处理一维、二维和三维数据。卷积层中的学习率调整或权重初始化相关的参数。‌在卷积神经网络(CNN)中,卷积层是核心组成部分,主要用于特征提取。    
54
4
土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结

土司LoRA模型训练个人经验总结对于新手炼丹师来说,看到喜欢的图和风格就想自己练个模型来用,那么就用到LORA训练了!首先明确自己需要训练什么类型的LoRA,看你喜欢的是什么:看到一张美图,你到底喜欢的是哪些,想练的就朝喜欢的方向去。粗略分成:人物角色、画风/风格、概念、服饰、物体/特定元素(光、暗、火冰,色系等)etc。其次是收集素材。按照你喜欢的元素去收集,对照上面的喜欢的分类去收集素材,不是越多越好,一般建议20张左右即可。素材要求:高清,不同角度,不同背景,不同姿势,不同服饰,清晰无遮挡的图片,关键是高清!!!所以炼实物的请找这个物件自己拍照最好。第三步是处理素材,当然主要靠PS啦。不会PS就剪裁吧!清理不喜欢的东西,保留需要的高清部分。模糊、文字等不建议放入。第四步生成/优化标签(可选),土司网站上传后就自动打标签,所以不再多说,用工具即可(建议保留个txt文件,方便校验核对LORA效果)。你要自己打标签的就是同图片,同TXT文件包成.ZIP 文件上传即可,如FLUX、SD3.5用自然语言描述的就要打包。第五步触发词:选个个性化的英文词(要翻译器不认识的!!!),将触发词添加进每个图的标签里(见下图)。第六步选择训练LoRA使用的大模型:目前有SD1、SDXL、PONY、FLUX、SD3.5(这里的算力价格由低到高),其他如(混元、可图等),可选中间出样图(魔法词汇,请参考前面某个图的标签),没有也无所谓的,这里就略过了。第七步开始训练,在网站上炼就是消耗算力,高低扣除后,就是排队等候训练,让后训练中看看进度条,看看中间的样图...这个时间会比较久,慢慢等待就好。(一般扔进去,等一个晚上就好了)第八步,当然收获一堆炼丹结果,开始测试模型啦!从训练好的LoRA模型队列中,找出最后一个文件下载,当然(中间的也可以),本地SD/ComfyUI放到文件夹(sd-webui-aki/models/lora)中,刷新后就可以在SD中看到你训练的那个模型,FLUX/SD3.5就要先上传发布,可以先发个私用,再生图。按照自己图的TXT的标签,对好炼丹底模,通过不同权重去核对LORA效果,是不是很像??!!----------------以下经验:SD1的比较像,图形模糊(对应好底模出图)SDXL:找对底模,基本很像,清晰度一般PONY:NSFW利器,就是比较模糊,皮肤是3D硅胶的,没法看汗毛、毛孔的那种FLUX:高清但是不像,除非用F1.dev-F16的,才有点像。太耗显存了,网站都只用F8的,所以不像,经常输出2D图,累~SD3.5:风格比较像,清晰度也可以,无法NSFW
38
6
真正的立绘法——AI生成立绘图方法

真正的立绘法——AI生成立绘图方法

模型:【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn站内小工具(只能达到25%的效果):虚拟主播人设设计|吐司tusi.cn推荐模型&展示图片【均为本人粗制滥造随机出图,部分细节问题可通过图生图修改(例如:手、头发的错误)】旧的AnythingV3(FT)模型:(已删,想要此效果可以尝试AnythingV5)新的VUPportrait/l2d专用模型:(推荐,更便于拆分和后续制作)【立绘法】VUPportrait/l2d立绘- A33 |吐司tusi.cn目前只推荐使用A3.33/VUPportrait专用模型其余社区模型均不建议用于AI立绘制作。如果使用其他或者旧模型,会出现各种问题(例如经典的“怀旧服”“AI画风”,或者其他不可控因素)制作方法● 提示词:非lora立绘法起手式:(注意这里请不要使用立绘lora)official art,1girl, simple background,[(white background:1.5)::0.2],open-mouth,(whitebackground:1.2)+具体人设tag想加的可以加一个加个(实际上加不加都行)<lora:charturnbetalora:0.2>这个lora,在秋叶视频有这个lora的分享● contronet设置其次是对应的contronet设置,具体参数如下图所示,预处理选无,模型使用openpose,模板图在最下面,分三种体型在吐司工作台就选择点击controlNet选择openpose直接上传控制图就好了● 其他设置采样方式随意,目前测试Euler和DMP一系列还有UniPC都是没啥问题的必须开启高清修复,放大倍率推荐为2,重绘倍率开0.6以上输出图尺寸推荐为320*640放大后为640*1280【也可以跟图中一样,放大倍率4,输出尺寸160*320。放大后统一为640*1280】附带图片体型分别为:萝莉/少女(少年)/成女(成男)AI面补这里附带AI面补的相关内容,效果并不是很好,有条件请自行制作模型yuyuyzl/EasyVtuber: tha3, but run 40fps on 3080 with virtural webcam support (github.com)
36
2
AI模型的实际运用方式之一

AI模型的实际运用方式之一

传统流程:约摄影师->商量拍摄风格->找场地->准备服化道->准备相机灯光器材->现场实拍一天->第二天粗选图->再一周精修图,时间精力花的多,效果却不尽人意。AI绘画流摄影:约摄影师->使用自己的清晰照片30-70张->训练专人模型(保持人物一致性和适用性)->客户选择大概想要服装地点背景->出图,选效果满意的写真图。个人特色写真:婚纱,礼服,赛博等
34
10
来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

来自AI纯小白的血泪史_入坑1月感受 (AI绘画生坑中摸爬滚打)

1月总结:迷茫 啥啥啥?记不住!好难啊!头秃中....置顶:纯新手打怪路线推荐:别直接上来就挑战BOOS!想着开大!提醒:纯新手先别碰comfyui!别碰comfyui!别碰comfyui! 新手会很懵,加大你开始的学习难度! 一、【理解AI绘画】底层逻辑(打地基),赛博菩萨秋叶的30分钟扫盲教学:https://www.bilibili.com/video/BV1x8411m76H/?share_source=copy_web&vd_source=b5a4ab998d4d5ceea4b241206cd7f4b4*新手不用看懂里面的数据,了解个大概原理就可以了; 二、【尝试AI绘图】先别折腾本地部署跑AI,尝试AI网站出图,简单先上手;【线上出图】1、吐司AI(每人每天送100积分) 分享链接:https://tusiart.com/images/782796843861081022?post_id=782796843856886719&source_id=nja2oVjnnUawp_ssa3nz9Bku2、哩布哩布AI (每天300积分)https://www.liblib.art/两个平台每天都有免费积分,都有自己的界面可以都尝试尝试;网页AI学习资料:https://www.bilibili.com/video/BV1Ux421y7yd(可以看轻舟大佬的系列直播课,通俗易懂。)*一定要多看平台上别人的分享的模型、方法、***、工作流等,学习成功人的方法比自己瞎琢磨要好! 三、【进阶分支选择方向】:(目前我还在新手期,学习快的可以先走,后面记得带带我>.<)1、学习本地部署:这个看你的电脑:3090 4060TI这类显卡可以折腾,老电脑老实线上出图吧。(我就不服输用4G的AMD显卡折腾到最后还是老实线上了)2、学习图生图功能(比如换脸、换衣服、老图修复、划痕修复、磨皮等)这些都是未来可以可走商业化的。3、Comfyui:学习一段时间网页出图大概也了解很多英文是什么意思,有那些功能了,想折腾新功能或者专业化的就可以走这个路线,未来出教程、做定制化路线的可以找这方面的视频看了;4、炼丹:就说做自己的大模型、LoRA微调小模型,这个可以创作属于自己风格的风格模型,未来可以在出图网发布赚积分当分享大佬,做平台培训师;*本地部署的安装包、炼丹炉用赛博菩萨秋叶制作的:https://www.bilibili.com/opus/966959582618320965?spm_id_from=333.999.0.0置顶完成:下面是我的踩坑之路(废话篇可无视)看到这篇文章的新/老法师们,不知道你们入坑是哪年?第一脚是如何踩下去的?是看了某个文章/短视频好奇?是朋友画了一个巨好看的二次元卡通?还是觉得有更多收入? 我是后者觉得AI有潜力,学会能跟着产生收入。我是做PS的三线城市小设计师,也就会一些软件的基础操作和排版,简称套模板拖拉拽;基础太差,看专业设计师设计的图只有羡慕的命;2022年身边朋友就用AI来处理给工业零件去划痕,效果是真的好那时候也想学习,苦于当时电脑配置太低(现在也是十年前老电脑,因为PS设计配置要求不高),搭建很复杂,就放弃了。 直到24年10月,看了好多营销号宣传FLUX.1大模型XX厉害,画手XX强,又看了短视频直播好多人在分享comfyui做出的图片都好看,而且那个和蜘蛛网一样全英文的界面一看就好专业呀,我也要学习,踩坑开始。。。。 然后我就无脑的看了B站的那种comfyui的系列课程,一看两天过去了,然后我就脑子哦懂了,动手那是啥啥啥?我这是步子挎着太大,扯着蛋了,基础都没搞不懂,那就想专业的知识,越学越糊涂。后面短视频又看了很多老师直播讲课:想在想想哪是讲课呀,就是不停的说工作流,展示他们的作品,让加粉丝牌进群,然后转私域卖课:什么499、699、899这种系列课割韭菜,新手哪经得起这个诱惑啊,差点就花钱买课了。(最傻的是我纯小白发问:sd和comfyui他们区别是什么?人家压根不理我哈哈哈。) 买课前我心想不得让本地能先运行上在学习呀,要不等等,双11咬咬牙配一台好电脑也行呀,又网上营销号说FLUX:NF4 3G显卡就能运行,瞬间又懂了尝试本地部署的想法。兜兜转转又了解到有一个AI赛博菩萨秋叶大佬,她做了一个一键本地部署安装包,又折腾好几天、结果就是,我不配,老实生电脑或者线上玩吧。 不过好消息是看了秋叶大佬的视频后,也学习了一次基础扫盲,也了解线上有很多人赛博菩萨无私的为AI发展做奉献,真正的在分享知识,吐司里面的文章也有很多大佬在分享自己的教学,AI绘画学习门槛很高,对没接触过编程、AI、英语的人来说学习挺难的,每次都要翻译很多名词才知道意思,有的编程名词压根也没法翻译,所以要长时间的学习,而且AI绘画迭代升级真的很快,营销号/民间科学家(民科)视频看个热闹就好,大部分不是真的在教你知识,都是想赚流量或者想引私欲卖课的多,想要不被人带节奏就得沉下心来,把基础学会,多看别人的工作流,多练习把。 1、新手看轻舟的直播教学:https://www.bilibili.com/video/BV1Ux421y7yd*吐槽:讲的真的很细很适合新手,就是直播太、太长了,容易被弹幕带跑节奏。2、扫盲文章工具书,结合了很多、很多、多的文章,特别全面https://docs.qq.com/doc/p/230e7ada2a60d8e347d639edd5521f5e62332fe9*吐槽:专业信息术语太密集,纯新手看压力打,纯文章学渣压力大,可以先看轻舟大佬的直播教学在来看这个工具书,会事半功倍; 
31
4
AI绘画提示词及生成技巧

AI绘画提示词及生成技巧

一、AI绘画prompt词(一)人物相关外貌特征描述对于人物的外貌,详细的描述可以让AI生成更符合预期的图像。例如“a girl with long curly blonde hair, big blue eyes, and a small nose”(一个有着长长的金色卷发、蓝色大眼睛和小鼻子的女孩)。如果想要特定风格的外貌,可以加上风格形容词,像“a girl with anime - style big eyes and long purple hair”(一个有着动漫风格大眼睛和长长的紫色头发的女孩)。描述面部表情也很重要,如“a smiling boy with dimples”(一个带着酒窝微笑的男孩)。另外,还可以提及身材特征,“a tall and slender woman wearing a red dress”(一个穿着红色裙子的高挑苗条的女人)。身份与穿着明确人物的身份有助于构建画面,比如“a police officer in uniform, with a badge on his chest”(一个穿着制服、胸前戴着徽章的警察)。对于穿着,可以详细到衣服的款式、颜色和材质,“a young girl wearing a white lace dress and black leather boots”(一个穿着白色蕾丝裙和黑色皮靴的年轻女孩)。配饰也是丰富画面的元素,“a man with a black hat, a silver watch on his wrist, and a leather belt”(一个戴着黑色帽子、手腕上戴着银色手表并且系着皮带的男人)。动作与姿态描述人物的动作可以使画面更生动,“a dancer in mid - leap, with her arms outstretched”(一个正在跳跃、双臂伸展的舞者)。或者是静态的姿态,“a man sitting on a bench, reading a book”(一个坐在长椅上看书的男人)。(二)场景相关自然场景在描述自然场景时,可以提及各种元素。比如“a forest with tall trees, green moss on the ground, and a small stream running through it”(一片有着高大树木、地上长满绿色苔藓并且有一条小溪穿过的森林)。天气状况也能影响场景氛围,“a sunny beach with white sand, blue waves, and seagulls flying overhead”(一个有着白色沙滩、蓝色海浪并且海鸥在头顶飞翔的阳光海滩)或者“a misty mountain covered with pine trees”(一座被松树覆盖的雾蒙蒙的山)。建筑场景对于建筑,可以描述建筑的风格、颜色和功能等。例如“an old Gothic cathedral with stained glass windows and flying buttresses”(一座有着彩色玻璃窗和飞扶壁的古老哥特式大教堂)。建筑内部场景也可描述,“a cozy living room with a fireplace, a soft colored sofa, and a bookshelf filled with books”(一个有着壁炉、浅色沙发和摆满书的书架的舒适客厅)。(三)风格相关艺术风格从传统艺术风格来看,“a painting in the style of Van Gogh, with bold brushstrokes and vivid colors”(一幅有着梵高风格、笔触大胆且色彩鲜艳的画)。现代艺术风格如“a digital art in the style of cyberpunk, with neon lights and high ”(一幅有着赛博朋克风格、带有霓虹灯和高科技元素的数字艺术作品)。绘画类型风格如果想要特定绘画类型的风格,可以说“a watercolor painting of a flower garden”(一幅花园的水彩画)或者“an oil painting of a still life”(一幅静物油画)。(四)画面质量相关像“high quality, detailed, and realistic”(高质量、细节丰富且逼真)或者“masterpiece, best quality”(杰作、最佳质量)这样的词可以让AI知道要生成高质量的图像。二、AI绘画优质prompt词和参数实例(一)实例一Prompt词“A beautiful princess in a long white dress, with a golden crown on her head, standing in a magical garden full of colorful flowers and a small fountain. The painting is in the style of watercolor, high quality and detailed.”(一位穿着白色长裙的美丽公主,头上戴着金色王冠,站在一个满是五颜六色花朵和小喷泉的魔法花园里。这幅画是水彩画风格,高质量且细节丰富。)(二)实例二Prompt词“A young man in a leather jacket, riding a motorcycle on a desert road at sunset. The scene is in a realistic style, with detailed textures of the motorcycle and the desert sand.”(一个穿着皮夹克的年轻人在日落时骑着摩托车行驶在沙漠公路上。场景是写实风格,摩托车和沙漠沙子有详细的纹理。)四、不同风格AI绘画的prompt词与参数(一)写实风格Prompt词对于写实风格,要注重细节和真实感的描述。例如“An old man sitting on a wooden chair in a dimly lit room. His face is wrinkled, and he is wearing a worn out sweater. There is a small table beside him with a half -empty glass of water. The scene is highly detailed and photo realistic.”(一个老人坐在光线昏暗的房间里的木椅上。他的脸上有皱纹,穿着一件破旧的毛衣。他旁边有一张小桌子,上面有半杯水。这个场景细节非常丰富且像照片一样逼真。)(二)动漫风格Prompt词“A cute anime girl with long pink hair, big purple eyes, and a school uniform. She is standing in a cherry blossom garden, with petals falling around her. The style is anime like, with bright colors and simple lines.”(一个可爱的动漫女孩,有着长长的粉色头发、大大的紫色眼睛,穿着校服。她站在樱花花园里,花瓣在她周围飘落。风格是动漫式的,有着明亮的色彩和简单的线条。)(三)抽象风格Prompt词“A composition of geometric shapes in bright colors. There are triangles, circles, and rectangles overlapping each other, creating a sense of movement and energy. The painting is in an abstract style, with a sense of depth and texture.”(由明亮颜色的几何形状组成的构图。有三角形、圆形和矩形相互重叠,创造出一种运动和活力的感觉。这幅画是抽象风格,有深度和质感。)五、提高AI绘画效果的prompt词和参数技巧(一)明确描述主体和细节主体明确在prompt词中首先要明确画面的主体是什么。如果想要画一只猫,不能只说“a cat”,而是要更详细地描述,比如“a black cat with green eyes, a white patch on its chest, and a long tail”(一只有着绿色眼睛、胸前有一块白色斑块并且长尾巴的黑猫)。这样AI就能够更准确地知道要画什么样的猫。细节补充除了主体的基本特征,补充更多的细节可以让画面更丰富。例如在描述人物时,除了外貌,还可以描述人物的情绪、动作、所处的环境等。“A sad little girl sitting on the floor, hugging her teddy bear, in a dark and empty room”(一个悲伤的小女孩坐在地板上,抱着她的泰迪熊,在一个黑暗空旷的房间里)。(二)控制画面风格直接指定风格直接在prompt词中明确指出想要的风格,如“in the style of impressionism”(印象派风格)或者“a digital art in the cyberpunk style”(赛博朋克风格的数字艺术)。这样可以避免AI生成不符合预期的风格。混合风格创造新效果尝试混合两种风格来创造独特的效果,例如“a painting that combines the style of traditional Chinese painting and surrealism”(一幅结合了中国传统绘画风格和超现实主义风格的画)。不过这种情况下要注意两种风格的平衡描述,以免画面过于偏向某一种风格。(三)调整参数以适应需求尺寸与比例调整根据最终用途来调整图像的尺寸和比例。如果是用于手机壁纸,可以选择9:16的比例和适合手机屏幕分辨率的尺寸。如果是用于电脑桌面壁纸,16:9或者16:10的比例可能更合适。在生成之前要考虑好这些因素,选择合适的参数
30
3
黏土风格火了!这些lora效果网友都在找(建议收藏)

黏土风格火了!这些lora效果网友都在找(建议收藏)

"黏土风格"是一种艺术表现形式,它通过对黏土的塑造和处理,创造出具有特定外观和感觉的作品。这种风格在近年来的短视频创作、图像编辑、手工艺品制作等领域中尤为流行。毒法师对黏土这种风格和纹理也是抵抗不住,熟悉毒法师的小伙伴都知道,我在流光器韵这个系列的LORA模型主打一个材质和纹理,所以最近也练了不同观感的几个黏土LORA,这里集中为大家介绍下使用方法和效果。一、风格介绍在手工艺品制作中,"黏土风格"通常指的是使用黏土材料制作的各种作品。这种风格的手工艺品具有较强的可塑性和创造性,可以让人们根据自己的想象和需求,打造出独一无二的作品。基于黏土这种特殊的材质,毒法师也是炼制了不同造型不同效果的几个LORA模型,目前有如下几个:1.黏土神兽2.黏土小人鱼3.黏土风格打工人4.黏土僵尸小女孩/小男孩5.黏土惊悚僵尸6.黏土调皮北鼻这几个LORA模型总体上都是粘土风格,但是在黏土的细腻程度、色彩以及纹理方面有较大差异,有的粗糙、有的细腻,有的色彩丰富、有的色彩单一,当然,造型也是大不一样,可用于游戏角色、海报画面,甚至是文创IP,只为满足大家不同的使用场景和期望的效果。二、使用说明目前这些LORA有的已经发布,有的还没有发布,毒法师这里以前两个为例介绍下画面效果和使用方法。1.模型获取:怎么获取这些LORA模型呢?请移步毒法师主页,https://tusi.cn/u/662557069739585057/models可以在主页看到这些黏土风格的LORA模型,使用可以在线跑图,也可以下载后在本地使用,个人经验,在线和本地跑图效果会有细微差别,不过主体风格是保持一致的。2.使用操作:底模的选择,使用写实类底模一般都能够出效果,不过不同的底模画面效果肯定会有差异,推荐使用GhostMix鬼混、麦橘系列以及天海Tenkai的模型,这几款毒法师在线跑图效果都很美丽。如黏土小人鱼这个,不仅可以出IP效果,使用写实真人模型,可以出真人效果。提示词的书写:这个没什么可说的,毒法师所有的LORA模型主打一个懒人使用、新手无门槛、单词恐惧患者友好,所以你只需要输入基本提示词即可,如1girl、1boy,dragon等等,简化到基本可以不写,当然,权重开大的话,你真的可以不写。另外,每个模型毒法师都会在线跑一些图,也会在每个模型的说明中有不同的关键词,调用更多效果,具体可以在模型的说明中查看。如黏土小人鱼这个,你可以加object on head,粘黏土神兽可以加teeth等。权重的选择,这几款的权重在0.65-0.85效果最好,但要注意,不同底模你的权重可能需要灵活调整,当然,权重的高低根据你想要的效果调整,如果连权重高LORA模型效果明显这种基本都不知道的话,可以退出了。其他参数的选择不用纠结,在线基本默认即可,如果要调建议采样用DPM++ 2M SDE Karras、restart、Euler a等。看起来复杂,用起来基本都是无脑直接出效果,信我,用过你会欲罢不能。
29
1
关于喵?!多概念lora的一些细节

关于喵?!多概念lora的一些细节

lora模型链接:https://tusi.cn/models/718595960474874205喵?!lora使用了约18万张图片进行训练,其中大部分是一些热门动漫/游戏/画师的作品/掺杂了小部分的AI作品所以大部分热门游戏的角色该lora配合hansv35使用时都可以直出,不需要使用xxx角色lora(不过这不是喵?!lora的主要作用)喵?!lora和hansv35都是多画风的,而它们可以在一起使用,以达到风格混合的操作。和novelai3不一样的是。在novelai3中{风格A+风格B=风格C},而在这里它是{风格A+风格B=风格AB}。原因可能是它的训练量不够吧。喵?!有四个质量词,分别是Best-A,Medium-B,Low-C,Bad-D。在正常使用时只需要将质量词置入提示词的第一位即可。它还有约300个画风词。例如Chen_bin,shiratama\(shiratamaco\)这些...在使用时需要将画风词置入提示词的第二位。需要注意的是,置入在第二位的画风词为主导画风(在不增加其他风格提示词的权重的情况下)。例如仅shiratama\(shiratamaco\)风格仅Chen_bin风格在shiratama\(shiratamaco\)提示词的第二位提示词使用了Chen_bin风格由于第二位提示词是主要控制整个画面风格的提示词。如果这个风格提示词在第二位那它就是整个画面的主要风格,不过它依然会被其他风格提示词影响。当然,还有一些其他的奇妙操作。例如分步渲染强混合两种风格像这样[Chen_bin|shiratama\(shiratamaco\)],还可以和底模的风格进行混合(没想到吧!)例如与hansv35的3D_Style,进行混合[Chen_bin|3D_Style],很怪吧!还有一些更高级的操作例如break语句精确控制等高阶提示词编写方法。(虽然在吐司大部分情况下用不了就是了)。其他:喵?!lora是变速箱的升级版。因为底模的不同,所以不算同版本。喵?!仅兼容hansv35。在其他的任何模型上使用都会导致画风的偏移。严重的会无法出图,画面崩坏(所以不要想着融我lora了,只能融到hansv35里的)关于新版本:我的版本更新与hans同步更新,当hans更新新的二次元底模版本时,我会使用他的底模进行训练。这时,更新的lora版本是完整版。平时更新的都是裁剪版。因为我的数据集已经及其庞大了(百万级)。有这么大的数据集为什么不训练全量微调:一个字,穷,全量微调训练起来速度太慢了,烧钱。我又没有自己的显卡。烧不起。关于喵?!lora的训练参数以及训练方法(我是臭民科。别杠,杠就是你对)Unetlr=4e-5(学习率和bs挂钩)textlr=4e-6(学习率和bs挂钩)batchsize=5(低bs训练,追求更好的细节)gradient_checkpointing=true(不开爆显存)gradient_accumulation_steps=1(不开爆显存)optimizer_type=AdaFactor(问就是习惯,用其他的咳嗽(lion,aw8b,轮椅神童都用过,别杠,杠就是你对))resolution="1024,1024"(懂的都懂,不懂的说了也不懂)enable_bucket=true(分桶训练,将数据集按照分辨率划分成不同的桶)min_bucket_reso=768(最小桶分辨率)max_bucket_reso=1_536(最大桶分辨率)不开金字塔与噪声偏移max_train_epochs=1(我的训练方法只训练一个ep,出了就是成了,一切关于训练是否拟合的计算在处理数据集时就已经计算好了)数据集处理操作由于喵?!lora是一个多概念lora。它的每个概念的被训练量都是不同的。而我根据每个数据集的评级(best-A,medium-b,low-C,Bad-D)给他们设定合适的re平衡大数据文件夹和小数据文件夹的原始step量。让他们尽量平衡(而不是re1训练,出来的大概率会有些画风训练过量,而有些欠拟合)再加入泛化集。不让训练的某个概念影响到原始画风。(如果你跑图的时候什么风格词都不加,跑出来的大概率是泛化集的东西在进行数据集处理时我先使用超分辨率工具将所有任意h或w低于832的图片进行超分随后再压缩回任意等宽高最高h,w至1536(因为我的bucket分辨率为1536)随后进行数据集校验(使用脚本跑一遍检查图片格式是否正常图片是否损坏图片是否有对应的标注是否有其他怪东西等操作)数据集打标(第一位为质量词,为我的主观评级“说人话就是第一眼看起来好不好看”,第二位为画师名称,这方面不细说懂得都懂。)(当然我在训练其他lora的时候还有一些其他的奇妙操作(例如多次训练,混合训练等奇妙操作)这些就不讲了,对我有用对其他人就不一定了。每个人的训练方法都不一样。能训练出一个好的模型,那它就是好(如果几张图开256dim的话当我没说)
25
5
AI视觉革命:广告图片智能设计全流程解析与实战指南

AI视觉革命:广告图片智能设计全流程解析与实战指南

开篇:从PS到SD——设计工具的范式转移 2023年,可口可乐全球创意团队用MidJourney生成的广告图在戛纳创意节摘金,这张融合气泡动力学与梵高笔触的视觉作品,仅用2小时完成从概念到成稿的跨越。这场变革标志着广告设计进入AI原生时代——设计师的核心能力正从操作技巧转向「提示词工程」与「算法审美」。本文将拆解AI广告设计的完整工作流,并提供可落地的实战方法论。---一、AI广告设计双螺旋流程 1. 需求解码阶段 - 关键词蒸馏术:用品牌定位立方体(Brand Cube)分解需求 案例实操:运动品牌新品推广 - 产品属性:气垫跑鞋/减震科技/超轻量化 - 情感诉求:自由感/突破极限/城市穿梭 - 文化符号:霓虹光效/赛博朋克建筑/流体动力学 - 视觉语法转换:将抽象概念转化为AI可识别参数 ``` /imagine prompt: Nike Air Zoom Pulse 2024, cyberpunk cityscape background, neon light trails with fluid dynamics simulation, ultra-detailed 3D rendering, dynamic angle 45 degrees, cinematic lighting, chromatic aberration --v 6 --ar 16:9 ``` 2. 算法共创阶段 - 多模态模型组合拳: - Stable Diffusion XL:基础构图生成 - ControlNet:精确控制姿势/透视(OpenPose+Depth Map) - LoRA微调:注入品牌视觉DNA(如Hermès橙色调校模型) - 迭代进化策略: 1. 批量生成200+变体 2. 用CLIP模型进行美学评分排序 3. 对TOP10作品进行特征解构 4. 重组优势基因二次进化 ---二、三大核心技术教学 1. 提示词炼金术(Prompt Engineering) - 结构化公式: ``` 主体描述+ 风格指令+ 技术参数+ 质量强化 ``` 实战案例:高端香水广告 ``` A crystal perfume bottle exploding into galaxy particles, Baroque floral patterns blending with quantum dots, Octane render 8K, Unreal Engine 5 lumen lighting, --chaos 60 --stylize 850 ``` - 语义杠杆技巧: - 权重分配:`(golden hour:1.3)` 强化黄昏光线 - 否定提示:`--no flat lighting, low contrast` 2. 风格迁移实战 - 三步打造品牌专属模型: 1. 收集品牌历史视觉资产(300+高清图) 2. 使用Dreambooth进行微调训练 3. 输出`.safetensors`格式风格模型 - 实时风格测试指令: ``` /test style_model_X perfume_ad --compare original ``` 3. 动态广告生成技术 - Runway Gen-2视频工作流: ``` 静态图→ 添加动态蒙版→ 设置粒子运动轨迹→ 输出15秒视频广告(含光流补帧) ``` - 交互式广告开发: 使用Three.js+Stable Diffusion API构建网页端实时生成广告系统,用户滑动改变产品颜色时,AI实时渲染对应场景。---三、商业级设计规范 1. 合规性检查清单 - 版权检测:用LAION-5B数据库反向溯源 - 品牌安全:设置负面词过滤器 ``` blocked_words = ["violence", "nudity", "competitor_brand"] ``` - 文化适配:部署地域化审核模型(如中东版本自动添加长袍元素)2. 人机协作SOP - AI负责: - 80%基础素材生成 - 100%风格化渲染 - 动态效果预演 - 人类负责: - 核心创意概念 - 情感温度把控 - 文化隐喻植入 ---四、未来战场:生成式AI的进化挑战 1. 版权困局突破:Adobe Firefly构建的伦理训练模型,使用4亿张授权图片的数据集 2. 实时生成革命:NVIDIA Omniverse+AI工作流,实现广告画面随环境数据动态变化 3. 脑机接口预演:Neuralink动物实验显示,通过脑电波信号调整视觉参数的可行性 设计师生存指南: - 掌握「视觉策展人」新角色:从创造者进化为AI训练师 - 建立「算法审美」评估体系:量化美感要素(黄金分割比/色彩熵值/视觉焦点热力) - 修炼「跨次元叙事」能力:在物理世界与数字孪生空间同步设计 ---结语: 当Canva的最新AI工具能在11秒内生成300张合格广告图,设计师的价值不再体现在鼠标点击次数。那些懂得用提示词吟唱视觉诗篇、能用算法缺陷制造意外惊喜、在数字洪流中坚守人性温度的新世代创作者,正在重新定义广告设计的本质。记住:AI是0与1的排列组合,而人类始终掌握着启动算法的那个「灵感开关」。
25
提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

前言元素同典:确实不完全科学的魔导书【原文】如下,本文章内容大量借鉴/引用元素同典原本的内容,故本问内容所有资料同样均可被自由引用。最终解释权归元素法典策划组&千秋九所有元素同典:确实不完全科学的魔导书这是一篇提示词指南,旨在为刚刚接触AI绘画 的萌新快速上手AI 作画。笔者(在本处与下文代指本文的所有笔者)将简单分析 parameters 中乱七八糟的基础逻辑和应用,如有错误或疏漏之处,也请多多包涵,或者直接对元素法典策划组进行发癫也行。欢迎各位在批注中留下对于本文的建议/意见。本文基于无数高阶魔法师的经验与对 parameters 相关的内容进行挖掘所得成果总结而成,且包含许多个人理解和主观观点。非常欢迎各位前往元素法典交流群讨论。由于本魔导书内容较多且篇幅较长,请妥善利用目录功能及文档内搜索功能寻找需要的资料。准备工作:神奇AI绘画在哪里?本段内容直接复制Stable Diffusion潜工具书的内容,不想看可以不看,“透明版本”链接:Stable Diffusion 潜工具书● SD WebUI有能力的可以自行部署stable dffusion相关UI,不过一般而言更推荐下面的整合包(工具)- git仓库AUTOMATIC1111/stable-diffusion-webuiSD WebUI秋叶整合包与SD Webui绘世启动器- 【AI绘画·11月最新】Stable Diffusion整合包v4.4发布!- 【AI绘画】绘世启动器正式发布!!SD WebUI秋叶整合包A卡适配版- 【AI绘画】Stable Diffusion A卡专用整合包(DirectML)SD WebUI贴吧一键整合包搭载了dreambooth等插件,方便的自己炼制大模型(最低要求12G显存)。能够有效避免自行安装dreambooth插件时出现的各种问题。同时贴吧整合包适配A和和I卡,更方便使用- WebUI | SD - WebUI 资源站(123114514.xyz)WebUI设置、预设文件搬迁(更换整合包)- 【AI绘画】换整合包/自部署WebUI如何搬家设置与模型?● ComfyUI- git 仓库:comfyanonymous/ComfyUI: The most powerful and modular stable diffusion GUI with a graph/nodes interface.SD Comfy秋叶整合包:- 【AI绘画】ComfyUI整合包发布!解压即用一键启动工作流版界面超多节点☆更新☆汉化秋叶整合包SD ComfyUI 无限圣杯AI节点:无限圣杯工具是由只剩一瓶辣椒酱-幻之境开发小组开发的一款基于SD ComfyUI 核心的Blender AI 工具,它将以开源&免费的方式提供给blender 用户使用。- 无限圣杯AI节点(ComfyUI) 使用者手册(shimo.im)Comfy的其他整合包/工作流:- 懒人一键制作Ai视频Comfyui整合包AnimateDiff工作流_哔哩哔哩_bilibiliComfy使用其他模型- city96/ComfyUI_ExtraModels: Support for miscellaneous image models.书写你的第一段咒语当代赛博法师使用电子魔杖、虚拟魔导书来无中生有创造出美丽的图案,尽管更多人可能认为我们在成为弗兰肯斯坦。咒语是什么?在AI绘画中,我们使用一段prompt 来引导AI 使用“噪点图”反向扩散从而召唤出我们最后的图像。Prompt (提示词,又译为关键词)通常由英文构成,主要内容为以逗号隔开的单词/词组/短句(二次元模型),有一些模型可以使用自然语言进行描述。除了英文之外prompt 还可以识别一些特殊符号。AI 会通过寻找符合关键词描述的方向而有明确指向地去噪点(diffuse)。同样,如果包含Negative Prompt(负面关键词),AI 就会尽可能避免含有负面相关要素的部分。换句话说,prompt 就像是哈利波特里面的咒语,它直接决定了最终我们会得到什么。AI 对于关键词的辨识以从前到后为顺序,以逗号为分割。对于基本操作,可以以大括号、小括号、中括号调整权重。在 WEB-UI 中,小括号增加为1.1 倍权重,中括号减弱为0.91 倍权重(相当于除1.1),多次嵌套括号效果相乘。但大括号在WEB-UI 中默认并没有用,在NovelAI 上则会增加为1.05 倍权重。Cheat sheet: a (word) - increase attention to word by a factor of 1.1 a ((word)) - increase attention to word by a factor of 1.21 (= 1.1 * 1.1) a [word] - decrease attention to word by a factor of 1.1 a (word:1.5) - increase attention to word by a factor of 1.5 a (word:0.25) - decrease attention to word by a factor of 4 (= 1 / 0.25) a \(word\) - use literal () characters in prompt With (), a weight can be specified like this: (text:1.4). If the weight is not specified, it is assumed to be 1.1. Specifying weight only works with () not with []. If you want to use any of the literal ()[] characters in the prompt, use the backslash to escape them: anime_\(character\). On 2022-09-29, a new implementation was added that supports escape characters and numerical weights. A downside of the new implementation is that the old one was not perfect and sometimes ate characters: "a (((farm))), daytime", for example, would become "a farm daytime" without the comma. This behavior is not shared by the new implementation which preserves all text correctly, and this means that your saved seeds may produce different pictures. For now, there is an option in settings to use the old implementation. NAI uses my implementation from before 2022-09-29, except they have 1.05 as the multiplier and use {} instead of (). So the conversion applies: their {word} = our (word:1.05) their {{word}} = our (word:1.1025) their [word] = our (word:0.952) (0.952 = 1/1.05) their [[word]] = our (word:0.907) (0.907 = 1/1.05/1.05) See https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features for full details and additional features.因此,一针见血的关键词才是我们所需要的,不建议咏唱不必要的咒语音节。擦亮你的法杖工欲善其事,必先利其器。伏地魔都会追随老魔杖,那赛博法师又怎能不入乡随俗?在AI绘画中,如果说prompt 是咒语,那旁边的参数面板就是法杖。这一些参数就是你的杖芯、杖柄,或许还有其他世界穿越来的附魔也说不定?选择你的采样方法与调度类型:Sampler & Scheduler开始调整所有参数之前,请选择你的采样方法。“请选择你的捍卫者”。 WEB-UI 都内置了许多采样方法,包括且不限于最常用的Euler A 和Euler, 以及原生默认的LDM 等 。采样方法组成了图片生成的第一大要素,它决定同样的prompt 下AI 会选择以何种方式去噪点化以得到最终图片。同时,它还会决定运算速度。其中,你是否注意到某些采样器名字里带了一个字母a: Euler a / DPM2 a / DPM++ 2S a。这些就是Ancestral 采样器,这些采样器会在每个采样步对图像添加噪声,就是其采样结果图片不会收敛。调度类型简单而言就是去噪速度。常见的调度类型有:Karras / Sgm_uniform / Exponential / ddim_uniform……,目前推荐使用Exponential 方法,可以得到更好效果。迭代数量/采样次数:Sampling Steps首先,在介绍关于迭代的理论之前,需要说明的是迭代并不总是越多越好。对于不同的模型也有不同的理论:例如 DPM A 和Euler A 都是所谓的非线性 迭代方法,它们的结果并不会因为迭代增加而无休止地变得更加优秀,在大于一定的迭代值之后反而质量会快速下滑。而DDIM / Euler 等线性 迭代方法则恰恰相反,质量往往依托于迭代的次数。但也存在边际效应的问题,当迭代大于一定程度时,再增加迭代次数也不会让画面产生显著变化。因此,实际使用时往往需要根据画布大小和目标是否复杂来综合考虑。对于正常画布,使用Euler A /UniPC 等低数要求算法的迭代次数通常推荐 12 或以上(笔者本人一般使用Euler A 20Steps),而使用DPM2 A 等高步数要求算法则往往要求更高一些。使用LCM等优化方式,迭代次数可以非常低,部分模型甚至可以“一步出图”我的魔导书在哪里?咒语的基础理论已经了解了,但此时此刻我们对于魔法的释放还是一头雾水:哪里去获得prompt?又有哪些prompt 是我们真的需要的?在最理想的情况下,一位赛博魔法师首先应当试着去理解danbooru.donmai.us,这是NAI 和一些二次元模型的重要训练来源,也是绝大多数关键词的出处(至少覆盖80%+),所以在里面找到的引用数大于2000 的tag 在绝大部分二次元模型里基本都可以直接当作prompt 使用往往都能出效果,你甚至还能发现诸如颜文字当做prompt 的惊人用法——而这都是可行的。但danbooru 的访问需要跨越屏障,较为不便。而除此之外还应该自己去收集可以用做prompt 的材料,但是一个人上路太孤独了,拿着这把全村最好的法杖吧!Stable Diffusion 潜工具书去寻找各种各样的帖子或者指南。抽丝剥茧地借鉴前人经验,批判思考地获取其中的精华(前人可能会因错误习惯而被干扰),也能得到不少效果很棒的prompt。闭目凝神,咏唱咒语总而言之,你查阅资料或突发奇想,得到了一些咒语。将它填入第一栏,然后再在第二栏填入随处可见的通用反咒(Negative Prompt),点击Generate,你的第一段咒语就完成了(笔者在此演示最简单的召唤术):masterpiece, 1 girl, cute face, white hair, red eyes以防有人没查到——反咒是:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet如果充分理解了前文内容,并且咏唱地不那么夸张,那么第一次施法往往将无惊无险地获得成功。现在你已经脱离麻瓜范畴,拥有成为魔法学徒的潜质了,向着魔法的大门前进吧!咒法二次不完备进阶Once we accept our limits, we go beyond them.我们至今为止的所有努力,并非全部木大。权与重上文提到了关于()、[] 的使用。以防刚把魔杖捂热的新魔法师看到这里已经忘了它们是什么意思—— 一对小括号意味着把括起来的prompt 权重* 1.1,中括号则是/ 1.1,大括号在WEB-UI 中无调整权重作用,且会被作为文本而解析。如果因为某些需求而要大量抬升权重,可以对prompt 进行多次括号,比如((((prompt)))),这意味着将它的权重* 1.1 四次,也就是1.4641。但这个写法太吓人了,数括号也很浪费时间,所以应该直接为一个prompt 赋予权重:(prompt:权重乘数)外层一定是小括号而非其它括号。比如(red hair:1.5) 将直接给red hair 赋予* 1.5 权重,清晰简洁,便于自己回顾和他人理解,强烈推荐。但务必请不要做出诸如((red hair:1.5)) 的奇怪写法。虽然在大多数情况下,它们的确会产生互相叠乘的正常效果,但在某些离谱的情况下则会导致权重无效。而除了整词权重之外,也可以进行部分权重,比如如下例子:1 girl, white long (messy:1.2) hair, red eyes将专门对messy 部分赋予* 1.2 权重,其它部分不受影响。高权重的元素会在画面中有着更大的占比或更强烈的存在感或更多的数量,是能可观地影响构图的原因之一。笔者非常不建议给出十分离谱的权重值,这个也包括负面权重,三个小括号也只有1.3 左右,而一般来说1.6 就已经很极端了,再高至例如2.0 只会在大多数情况下让咒语变成召唤古神。高级咒术解析上述的小括号、中括号与带权重小括号都属于低阶语法,比如(((prompt)))。而接下来要介绍的是更长更复杂一些的高阶语法。高阶语法都以[] 作为外层包括,包括分步描绘、融合描绘两种,使用高阶语法时这一对中括号不会让权重降低。高阶语法内可以嵌套低阶语法,低阶语法内也可以嵌套高阶语法——但为了交流方便不建议嵌套,高阶语法之间能否互相嵌套因具体情况不同而异,下文会做出介绍。下列介绍全部基于编纂本篇时推出的最新版 WEB-UI,对于Comfy 或较远古版WEB-UI 可能不适用。首先介绍分步描绘的各种形式:[from:to:step] [from::step] (to 为空) [:to:step] (from 为空) [to:step] (奇怪但没问题的格式,非常不建议)它的作用是让prompt 在达到 step 之前被视为from,在达到后视为to。若是在对应位置留空则视为无对应元素。step 为大于1 的整数时表示步数,为小于1 的正小数时表示总步数的百分比。比如a girl with [green hair:red hair flower:0.2] 会在前20% 步数被视为a girl with green hair,在后80% 步数被视为a girl with red hair flower。需要注意这两个描述之间的兼容性和覆盖——在步数合适的情况下,最后形成的人物会拥有绿色头发和红色花饰,但也可能因为颜色溢出导致头发也变为红色,毕竟后80% 没有绿色头发的限定,AI 完全可以自己理解一个随机的发色。在最新版中,分步描绘可以嵌套,形如[from:[to:end:step2]:step1] 的语句是可以被正确识别的。且分步描绘现在支持逗号分割,形如[1 girl, red hair: 2 girls, white hair:0.3] 的语句也可以被正确识别。分步描绘不特别擅长细化细节,与其分步描绘不如将细化部分直接写入持续生效的部分。分步描绘更擅长在画面初期建立引导,大幅影响后续构图或画面生成。需要注意的是,分步描绘具有视觉延后性——当要求AI 在比如第20 步开始描绘另一个不同的物体时,可能在比如第24 步(或更晚)才能从人眼视觉上感知到另一个物体勉强出现在画面中。是因为steps的原因,很多时候前面的step,人眼可能是看不出来新的事物的(这跟你不开启LCM等加速的情况下step开到5以内是一个道理)。然后介绍融合描绘的两种形式:[A | B]它还有可无限延长版:[A | B | C | ...]对于形如[A | B] 的第一种,AI 将在第一步画A、第二步画B、第三步画A...交替进行。而对于无限延长版,则变为第一步画A、第二步画B、第三步画C...循环往复交替进行。融合描绘不可嵌套,但同样支持逗号分割。融合描绘擅长将两种事物混合为一起,比如a [dog | frog] in black background。这两个高阶语法有着明显的区别,尤其是在高步数下更不可以一概而论。分步描绘的40 步A 再加上40 步B 最后可能形成一个带有B 基底特征的A,但它会表现出明显的分立感。而融合描绘的40 步A 再加上40 步B 最后将形成简直像是化在一起的融合体。短元素,中元素与长元素咏唱大致有着三种不同形式——最常见的直接咏唱、稍不常见的短句咏唱和堪称行为艺术一般的长咏唱。假设要生成一个有着黄色头发、蓝色眼眸、白色上衣、红色裙子、黑色裤袜的全身坐姿二次元美少女,且强调服饰颜色,那么这三种咏唱分别看上去大概是这样的:直接咏唱(pitch 式咏唱):masterpiece, best quality, 1 girl, (blue eyes), (yellow hair), (white clothes), (red skirt), (black leggings), sitting, full body短句咏唱(AND 强调咏唱):masterpiece, best quality, 1 girl, (blue eyes) AND (yellow hair), (white clothes) AND (red skirt) AND (black leggings), sitting, full body长咏唱(自然语言咏唱):masterpiece, best quality, (1 girl with blue eyes and yellow hair wearing white clothes and red skirt with black leggings), sitting, full body注意短句咏唱的AND 必须是三个大写字母,AND 两侧的小括号是不必要的(但建议加上),这是一个专用语法。此外,该语法并不能应用于所有采样方法,例如DDIM 就不支持AND,会导致报错。我的法杖不听话了?有的时候会返回黑色图片或者直接没了,黑色图片俗称黑图。图直接没了的最简单直接的原因是显存爆了,查看后台是否出现类似于CUDA out of memory,如果出现那就真的是显存爆了,提高配置或降低画布大小吧。不过在更多时候,法杖不听话的表现并不是黑图。例如在比2k*2k 稍小一些的1.2k*1.2k 画布中,可能会出现如下情况:masterpiece, 1 girl, white hair, red eyes明明要求1 girl,但为什么它生成了2 个人?简单来说就是图太大了,超过了模型适合的使用范围。但对于这段如此简单的咒语而言,将画布缩减为1.2k*1.2k 依然显得有些太过自由了。画完一个美少女之后该怎样填充剩下的画布呢?AI 可能会使用纯色背景、构筑一个简单的空间,但它更可能会做的事情是——把已有的东西重复再画一份。(如果往深处讲,那就要涉及到目前SD 训练模型时的方法导致目前AI 的局限性。SD 训出来的模型其实并不理解数字,对于AI 而言1 girl 和2 girls 并不互相冲突,再加上懂得都懂的那些训练集里的各种共有tag 会给它们一定程度上的联系,所以在无物可画但必须要填充画面时倾向于多画一份。)所以要解决这个问题也不难。减小画布,限制它的自由度即可。masterpiece, 1 girl, solo, white hair, red eyes, black gown, in room, chair, vase, red carpetHigh res. fix 也能解决此类问题,但它是利用先在小分辨率渲染再放大到目标分辨率的方法。最符合字面意义的做法还是直接从根源下手。最后是一些碎碎念...不必为每个prompt 都加上过多小括号来提高权重,如果你发现你真的需要给绝大多数元素都加上四五个小括号才能让你想要的东西确保出现,那么更建议酌情普遍删掉一些括号,改为拉高CFG Scale ,比如12 甚至14。在极端情况下,给单个prompt 加上过多权重,可能会导致古神。除非明确清楚重复prompt 意味着什么、且有强烈的对应需求,否则不建议重复输入prompt。重复输入prompt 的语义相当复杂,不在入门范畴内。不必保持如此神秘的敬畏...既知が世界だ,未知はいらない!未知的,不需要。已知的,才是世界!魔法的极致或许是科学了解各类prompt 的存在并不意味着就掌握了一切,摘抄别人的prompt 囫囵吞枣地使用也不是上乘。如果想要让AI 创作出更佳的作品,那么还需要深入了解各个prompt 到底有着何等作用,以备日后使用。各个prompt 之间的互相影响如同魔法反应一样,大多数情况下并不像是仅仅简单字面意义上的互相叠加那样简单。举个例子,比如an extremely delicate and beautiful girl 其实就会导致不少风格化表达被覆盖;而light 用作颜色在很多情况下不是指淡而是发光,甚至在某些稀有的组合里还专指黄光;让一个角色手上握着武器可能不仅仅要holding weapon 还需要加上weapon 本身,诸如此类。因此,各类科学分析方法甚至是研究方法都是有必要的。元素魔法?定性定量分析法!授人与鱼不如授人与渔。对于同一组prompt 而言,魔法师们常以良品率作为无意识的定性分析的结果,但对于其它方面也可以进行分析,比如单个prompt。SD 模型基于种子(seed)来进行生成,如果条件都相同,则生成的图必然相同。利用这个特性可以对不同的prompt 进行定定性分析,填写一个种子,固定其它参数,固定绝大多数prompt,然后调整/添加想要测试的那一个prompt,来确定它的作用、效果。想知道一个prompt 是否真的有意义吗?是否真的有传言所说的种种作用?它和某些组合的搭配真的很好吗?来定性分析它吧。介绍如何使用Script 中的X/Y plot(X/Y 坐标图)来辅助分析。注意seed。在输入框输入等待被替换的prompt,然后使用X/Y 的Prompt S/R 功能。在右侧的X values 中进行填写。第一个prompt 是被替换位点,而后面的则是希望替换为的prompt,最后生成即可得到结果。字数限制请看下篇:提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书》
24
4
用几句话拍成一部王家卫风格的电影片段

用几句话拍成一部王家卫风格的电影片段

~ 写在前面~我打算用三种方式尝试用AI创作短剧片段,分别是:1、混元文生视频2、万相图生视频3、常用云端资源创作图生视频。本文着重介绍第一种:混元文生视频。你也可以点击了解第三种:时下热门的AI短剧创作过程。 ~ 正文开始~王家卫导演的电影独具风格,其电影画面氛围丰富而忧郁、光影效果对人物性格的塑造令人过目不忘。他的电影,总是以一种独特的艺术风格吸引着观众的目光。他善于运用光影的变化,营造出一种既真实又梦幻的氛围,让观众仿佛置身于一个充满诗意的世界。而他对人物性格的塑造更是细腻入微,通过光影的交织,将人物的内心世界展现得淋漓尽致,令人过目不忘。本文将通过混元文生视频大模型,结合人物LoRA进行作品创作。先欣赏一段AI生成的电影介绍:因为吐司文件上传限制(不能超过5M),因此这段视频效果已经大打折扣,无论从清晰度和色彩上都损失了很多,也无法听到背景音乐,强烈建议点击这里查看清晰原视频。如何创作这样的视频?第一步:你要本地部署混元文生视频工作流,这个不是本文的阐述范围,如果你需要混元部署相关的资源,可以点击这里免费获取。第二步:非常重要的环节,要给自己要创作的片段做脚本规划,你要表现什么内容,这段内容可以分为几个分镜头,每个分镜头用什么文生视频提示词。如果你不好掌控,可以尽量利用deepseek,让ds帮你写一段1分钟的王家卫导演风格的电影片段,反应女主角的生活片段(具体可以简单要求),并设计分镜头,每个分镜头的文生视频提示词。这段23秒的视频内容比较简单,就是女主人公的某个生活瞬间,其实只用了两段提示词,一段描述抽烟,一段描述向镜头走动。因为AI生成内容的随机性,我们得到了丰富多样的动作效果,从抽烟时的悠闲姿态到向镜头走动时的自信步伐,每一个细节都被精准地捕捉和呈现。第三步:有了脚本和分镜头,接下来就是通过混元文生视频工作流创作视频。注意,你可能在这个创作过程中获得更多的灵感,反过来调整你的脚本和分镜头。需要说明的是,为了保证模特脸部的一致性,我专门训练了一个混元文生视频的人物模型LoRA,LoRA对脸部和身体都做了训练,经过多次测试,LoRA模型展现出了出色的泛化能力,无论是在多变的服装还是复杂的场景中,都能稳定地呈现出高质量的视觉效果。这种稳定性,正是得益于混元文生视频大模型的卓越性能。关于LoRA的训练,在几秒钟的短视频中似乎不重要,但如果你要创作短片,主角需要多次出现,那么定脸的LoRA就至关重要了。如果你要学习视频LoRA的训练,可以联系雯雯wenwen061106进行一对一的教学。这段抽烟视频,AI赋予了人物转身的动作(提示词里没有),动作自然流畅:这段脸部特写的正面抽烟视频,虽然没有烟雾,但我很喜欢,在剪辑中全部都用了:第四步:剪辑合成。使用剪映对你在第三步中创作的视频素材进行剪辑加工,增加背景音乐、音效、过场效果等等,最终形成短片成品,点击这里查看清晰原视频。抛砖引玉,这段视频不代表什么,只是一次文生视频的尝试,是在不到几个小时内完成的,你如果对影视创作很熟练,相信效率会更高、效果也会更好。~ 复盘~最后从价值上简要的分析。创作这个片段的目的,最大的意义就是文生视频的锁脸。在传统的AI短视频制作流程中,创作者通常需要先设定一个具有独特个性的IP形象,然后通过文生图技术生成静态图像,再将这些图像转化为动态视频。这个过程不仅耗时,而且在图像到视频的转换过程中,往往会丢失一些细节,导致最终效果不尽如人意。然而,混元、万相等文生视频的出现,为这一流程带来了革命性的变化。通过上述例子,我们可以清晰地看到,混元视频结合LoRA锁脸技术和提示词场景服装行为设定的方式,能够直接通过提示词生成高质量的视频素材,极大地简化了制作流程,提高了创作效率。与现在主流的通过图片锁脸的文生图+图生视频素材准备过程不同,文生视频+LoRA锁脸+提示词场景服装行为设定的方式,完全可以直接通过提示词实现账号素材的准备工作。这种新的创作模式不仅节省了时间和精力,还能够更好地保持IP形象的一致性和连贯性,使得视频内容更加生动和真实。随着技术的不断进步和应用场景的不断拓展,混元视频有望成为未来AI短视频制作的主流方式,为创作者带来更多的创意空间和商业机会。更多视频、短片创作推荐文章:时下热门的AI短剧创作过程如何用文生视频创作商品广告一次叫外卖引发的LoRA创作灵感作者雯雯(VX:wenwen061106),一个八级LoRA炼丹师,设计师,国际PS认证师,AI精品资源站 站长,雯雯AI影视工作室期待你的加入。
23
1
AI绘画prompt食用指南(简化版)

AI绘画prompt食用指南(简化版)

Stable Diffusion Prompt Tips(描述的注意事项)如果你不指定任何东西(例如"a kawaii girl"),你将只得到一张平面图片。 因此,你需要找到缺少的细节,并将其添加到提示中。 指定多种颜色的提示语很难控制,因为提示语的词序在前面更有影响力,而后面的词更容易被忽略。 例如,在"a loli girl with long white hair wares pink dress and blue shoes."这样的提示中,蓝色的鞋子往往被忽略。 如果把蓝鞋带到句首,衣服和头发可能会变成蓝色。"trending on art station "很难改变结果。 然而,如果没有指定绘画风格,绘画将采用Art Station的风格,即模型最拟合的默认风格(过拟合风格)。词语可以有额外的含义(内涵)。 例如,blonde通常用于女性,而不仅仅是金发女郎;要去除blonde的女性含义,需要在否定提示(negative prompt)中输入woman或girl。要创建一个人,你可以把以下五要素放在提示中。 但是,提示的词序在前面更有影响力,所以如果人比背景更重要,就应该先描述人。 如果先描述背景,那么无论对人的描述多么详细,都可能被忽略。 相反,如果先对人物进行描述,往往会产生肖像式图像。·天气/白天的时间·地点/背景·人·摄像机(视觉角度)·风格颜色光亮度Taglight(光亮)dark(黑暗)pale(苍白)deep(加深)天气/时间带由于背光不能作为一个单独的词来指定,用逗号隔开的",golden hour lighting, strong rim light, intense shadows,"更有可能产生一个背光的图像。golden hour lightingstrong rim lightintense shadowsin the rainrainy dayssunsetcloudy地点/背景如果你对背景不讲究,你可以指定以下词语之一:bokeh 虚化、soft focus柔焦、F1.4等来模糊背景。 还建议使用一个季节性词语,因为它在结尾处效果很好。建物in the baroque architecturein the romanesque architecture streetsin the palaceat the castle(在城堡外部背景)in the castle(在城堡内部背景)in the streetin the cyberpunk cityrainy night in a cyberpunk city with glowing neon lightsat the lighthousein misty onsen(温泉)by the moonin a bar, in barsin a tavern(居酒屋)Japanese arch(鸟居)in a locker roomcityspacepower lines 山on a hill(山区)the top of the hill(山顶)海on the beachover the seabeautiful purple sunset at beachin the ocean(在海里)on the ocean(在海上,在船上或者别的)陆地in a meadow(牧草地)plateau(台地高原)"on a plateau" 将意味着"停滞不前on a desert(沙漠) 季节in springin summerin hawaiiin autumnin winter幻想与暗黑元素granblue fantasyoctopath travelerbloodbornedark soulagainst backlight at duskin the alice in wonderlandluminous particles☢启示录lightning effectno humans(没有人类)nobodyscenery人物人们有许多可以被指定的要素。 反射范围、发型、头发长度、颜色、皮肤颜色、眼睛颜色、张嘴、姿势、面部表情、服装、服装图案、年龄等。highly detailed symmetric faces 和 extremely detailed symmetric faces 和 very gorgeous face来设定。 然而,最好是裁剪脸部,用img2img只重新生成脸部,然后用绘画软件ps,sai2合成。如果你想强调眼睛,可以加上"symmetric highly detailed eyes, fantastic eyes, intricate eyes"。人数当服务对象超过一人时,皮肤往往会融合,因此建议使用长袖和长裤以防止融合。solo1girl2girls, 3girlseveryone(集合绘)absolutely everyone(成人的集合绘)snuggled(分身? 批量生产分身)snuggled up selfie(粘在一起自拍;当你想做一些类似于百合的事情时)in a ((crowd)) of people(背景是人群)可爱化?kawaiiflat chest(loli)ojousama(loli)bishoujomesugakisuccubus(梦·魔)demon girl(恶魔)adorable girl, adorable face肤色---褐色类,黑皮tannedred skinsuntanned red skintanlines(晒痕)bikini tan(泳装晒黑)dark skin映射的范围构成和要显示的面积主要由种子决定,所以与其在提示上下功夫,不如在种子上做文章。"如果你按照'mid shot中景、背景描述、人物描述'的顺序写提示,你更有可能得到人物在背景中的构图。如果强调的是身体,则包括所有的词语,如full body全身、tachi-e立绘或breasts胸、navel肚脐、thighhighs大腿等。 指定鞋子也是有用的。角度from above(从上面)from below(从下面)straight-on(正面)selfiefrom side(横向)拉,鸟瞰,全身aerialtachi-e(立絵)full bodywide shot其他close-uppantyshotcowboy shot(头部至大腿中部)cowboy 如果你不把"牛仔"放在负面的位置上,那就是牛仔landscape(风景拍摄)portrait(肖像)等身chibi(Q版)nendoroidnendroid-like(下半身高度)mini girldwarf(矮人)toddler body年龄中年可以直接指定,例如30 years old或40 years old;缩写形式的30yo也被认可。 然而,Danbooru标签中没有yo和year old,因此在旧版本中无法使用。aged down(老化)teenageoffice ladymature female(成人女性)old woman(老年女性)表情gloating(心满意足)mesugaki smile(杂鱼~杂鱼~)grinevil grinexcitedhappy:d, XDtempting mesugaki smile with blush cheeks(挑逗)seductive smileshowing ahegao, mesugaki smile, torogao with (frown eyebrows), excited(诶嘿颜)(Seductive face), (nervous smile)expressionless, bored, half-closed eyes, light frown感情angrybitterdisgustembarrassedevil smilescaredhorrifiedlonelysadSurprised口部closed mouthopen mouthmole under mouth(嘴下有痣)chestnut mouth, triangle mouth(三角口)ahegao(张嘴)smirk(傻笑):3(嘴像猫一样ω):q(呸罗呸罗,舌头向上):p(呸罗呸罗,舌头向下):t(不嫌弃):|tongue out(吐舌头)long tongue吃(行为动作)如果eat不起作用,让他们吐出来(vomit, spitting)。eatvomitblowing ramen out of her mouthSpitting脸颊Blush(腮红)鼻dot nose眼睛long eyelashes(长睫毛)closed eyeshalf-closed eyesjitometaremeupturned eyes(翻白眼)heart-shaped pupilsheterochromia(异色瞳,随机不可控)jewelry eyes, jewel like eyes(宝石)mind control eyesempty eyesexpressionless eyeshollow eyes@_@| |0 0> <= =^ ^^o^眼镜(装饰)glassessemi-rimless eyewearrimless eyewearunder-rim eyewearover-rim_eyeweareyewear on head头发forehead(额头露出来,可以玩圈圈叉叉)blunt bangs(钝化的刘海)long hairstreaked hearhair over one eye(头发遮住一只眼睛)colored inner hair(彩色的头发阴影部分)hair ornament(发饰)解像度在衣服和面孔前面加上分辨率词,会产生复杂的纹理,如highly detaiiled face高度详细的面孔、extremely detailed lace极其详细的蕾丝和insanely detailed frills令人难以置信的详细褶皱。highresabsurdresDetailed衣服otokoyaku(宮廷衣装)nun(修道女)jirai kei(地雷系)olympic 运动名称competition(比如lacrosse, wrestling, rhythmic gymnastics 等等)fantasy priestethnic costume-like bikini armorchina dressknightess(女骑士铠甲)Highleg (高腿?)highleg leotardhighleg pantieshighleg swimsuithighleg bikinihighleg dressblue dungarees(工装)pelvic curtain(像前胸或腰带的衣服)oversized clothescenter frills(前面有褶皱的衣服)yukatakoshihimo(浴衣)wrapped a large white towelpantyhosegarter beltgarter strapspleated skirtlifebuoy(救生圈)school uniformschool swimsuitone-piece swimsuitcompetition swimsuitbarefoot(玉足)shoe soles(靴底)Navel 有时与"服装指定,Navel  "相呼应。例:"navel, black sleeveless shirt, bare arms, bare shoulder"bare shoulder(露肩)cleavage cutout(开胸)breast rest(莱莱放在某处)breasts on tablechoker, black chokerVictorianfiligree(金丝)latex ~(光泽胶服)latex rubbershiny slik(光泽丝绸)no bra(与其他服装一起使用)skindentation(穿膝袜时在大腿上形成的凸起)student training wear(体操服)(((Japanese school student gym class uniform underpants))) (和谐)如果不包括负面提示((sport gym)) ,则成为健身服。sleeves past wristssleeves past fingers透明度有一些方法,如AUTOMATIC1111中的Prompt Editing中的[cloth:wet:0.5]等,或者通过在img2img中输入一个有衣服的图像,然后用wet等提示创建。(要锁种子)translucent(半透明)transparent(透明)see-throughsweaty_clothescovered by thin translucent clothclear acrylic resin glass figma-like 衣服名体形abs(腹肌)plump(饱满)skinny(瘦身)voluptuousThicc姿势standingwalkingrunningsitting on(跪坐)kneeling(跪)tilting head(歪头)dakimakura of (床上睡觉)dakimakura of ~ from backdakimakura of ~ looking backdakimakura medium from behindlying on back(躺)lying on sidelying on lap(膝枕)arms upflirtfinger to mouthfinger to cheekspread legsarmpitturning aroundsitting thighhighslooking back, from behind, looking at viewerlooking back, from behind, looking at cameraembrace each otherhug from behindhug each other tight2girls kiss (百合行为)a girl kissing a girlholding handstouch each other's lips face to face影响(线条,粒子)heart shape particle?, ??!, !!...+++(你笑的时候出现的那个)^^^(注意,冲击效果)notice lines(3条注意线)!?spoken question markmotion linesjaggy lines(运动模糊)speed linesemphasis lines(集中线)steaming bodyheavy breathing(沉重的呼吸)
21
2
手部、脚部崩坏最实用的修复方法!

手部、脚部崩坏最实用的修复方法!

很多人在作图的时候,容易出现手部、脚部蹦坏的情况。其实最实用的办法就是,打开FLUX ,然后使用重绘功能,手部崩坏就涂抹手部重绘,脚部崩坏就涂抹脚部重绘。总之哪里不足就重绘哪里。为什么选择的是用FLUX的重绘功能呢。因为在修复手脚的Ai理解上,更加优秀。基本上重绘几次就能完美的修复手脚。
20
3
带刺的守护

带刺的守护

你眼中的我,是温柔的玫瑰,还是满目的荆棘?而这浑身的带刺,又是为了守护什么?是满是疮痍的内心,还是你?
20
5
【吐司创造营】特训班第二课:正则化训练!Lora的更多训练方法等你来解锁!

【吐司创造营】特训班第二课:正则化训练!Lora的更多训练方法等你来解锁!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Vt421j7hc概念本质上是dreambooth的内容,通过添加额外的约束和惩罚项,来改进学习算法的表现,以减少过度拟合问题,能提高模型的泛化能力。正则化是一种先验知识。就像临摹字帖,提前学习数据,让AI知道它的训练范围在哪儿。 好处避免了过拟合可能会带来的各种崩坏情况;给机器一个参考图片,机器就会根据参考图片去学习;提高模型的精准度数据集质量不高或者数量少,就需要正则化来限制模型的复杂程度,避免过拟合 正则化图片的选取原则正则化图片放训练集以外的内容但是和原训练集有某些共通之处图片数量一般多余数据集不需要打标训练细节且原本模型里面体现不出来的特征相同底模,对想泛化的特征出图 多类型lora的详细用法多合一lora:通过不同触发词来调用强调面部特征 10_face 10_body多服装进一个lora 10_reddress 10_bluedress强调姿势 5_dance 10_body 功能性lora:加强特征加强某个关键词的特征,让他更稳定效果更好,如果prompt词里面出现了正则化里的关键词,则效果会被放大正则化- 先验损失权重prior_loss_weight:默认1,正则本身的影响权重,1的话代表你在正则里放的图片和训练集里图片的权重是一样的,你的正则100%影响你的训练集dim和alpha尽量小一点,让原本画风对他的污染效果变低 手动正则法:泛化特征,在少量数据集的情况下使用数据集更少的情况下可以使用镜像翻转,数据集不足势必要在更多地方花更多的时间。比如粗略的用1张图出lora,然后通过lora出图再作为训练集进行下一步的训练。通过控制repeat数可以控制三个文件夹中图片的权重。原因:不适用系统正则是因为图片少,正则的权重不好控制,不如直接调控repeat内容:4-5张各种姿势,内容可以通用。使用nsfw的内容可以不污染服装,脸部需要涂黑(遮罩)并且绑定在faceless上,只要不输入faceless是不会出现黑块的。保证reg文件夹中的图片数×repeat等于或略微大于body文件夹中的图片数×repeat 、tag原则发色瞳色等简单特征全部删除为头部、上半身、下半身、脚分别设置触发词细节,头饰、纹身之类的建议保留补充locon:随机洗像素,也是提高泛化性的一个手段,不用卷积会更偏向原数据集的图片,缺点是人物姿势比较固定,比较适合炼画风,更有随机性。卷积和正则化都是降低模型的拟合度增加模型的泛化性,让模型更有随机性,不适合人物的训练。
15
材质纹理LORA究竟怎么用?这个操作开眼了!

材质纹理LORA究竟怎么用?这个操作开眼了!

但凡玩AIGC的小伙伴,一定对于LORA模型不陌生,不过很多人钟情于人像不可自拔,而对于材质纹理类LORA嘛,很多人不知道有啥用,更不清楚怎么用。其实,质纹理类LORA模型在产品渲染、海报设计以及字体设计等等领域都有很广泛的应用,这里毒法师就介绍下自己炼制的材质纹理类LORA,同时以在字体设计领域的应用为例,教你掌握此类模型。一、材质纹理类LORA介绍毒法师有一个“流光器韵”的LORA模型系列,该系列主打一个器物之美和创意设计的泛化应用。这个模型系列有陶瓷材质、红铜材质、青铜材质、古玉材质、金属材质、流体材质等等,同时,在纹理上以中国传统纹理龙纹、花纹等为主,这些模型把材质和纹理相结合,效果喜人。以下是一些流光器韵系列的模型:1.商周style青铜纹饰2.绿松石遇见金3.远古石刻4.瓷雕石刻5.瓶中星河6.皮囊之下7.神龙纸雕8.玉质龙雕有些小伙伴可能问了,材质就材质吧,为啥还要搞纹理?这是因为单纯的材质或者是纹理,跑图出来的效果都一般般,当然,主要是毒法师偏爱中国传统材质和效果,所以会把纹理材质一起炼制,当然,还有龙、少女等等造型也会一起炼制,而不是简单的材质或者纹理。毒法师炼制的流光器韵系列模型,背景大多是极简干净风格,一是为了突出字的视觉效果,再就是为了方便抠图,让你的字可以随心使用。该系列模型是用于设计字、海报效果极佳,当然,对于人物背景和服饰效果控制也有一定效果。二、字体设计领域的应用那么,这些材质纹理类LORA怎么用?一般直接在跑图时添加LORA模型即可出效果,毒法师所有的LORA模型主打一个懒人使用、新手无门槛、单词恐惧患者友好,所以你只需要输入基本提示词即可,如bronze,dragon等等,简化到基本可以不写,当然,权重开大的话,你真的可以不写。这里重点分享下这些模型在字体设计领域的应用。1.前期准备接触过字体设计的小伙伴应该知道,出街的字体效果,一方面是笔画造型方面的设计,另一方面就是视觉特效方面的打造,而材质纹理类LORA模型就是在后者层面发挥作用。所以,在使用LORA模型打造字的效果前,需要你提前设计好字形,要不然就直接用字库里的字形。如下效果,是的,准备的这张字形图片,就是白底黑字的字形图。然后,我们就可以在字形的基础上打造材质纹理效果了,核心操作其实就是使用Controlnet功能。2.Controlnet设置底模的选择、采样器以及提示词等等基本操作毒法师这里就不啰嗦了,我们直接进入Controlnet的操作,把上面准备好的字形图片直接拖进来,启用、低显存模式(电脑配置低可选择上)、完美像素、允许预览,打上勾。3.Controlnet操作控制类型这里选择Canny,也就是“硬边缘检测”,这是一种线稿提取方式,该模型能够很好的识别出图像内各对象的边缘轮廓。此外,深度、线稿也是常用的选择,可以根据自己想要的效果来。最后一步就是调节控制权重,这个操作非常重要,一般在0.6左右,要想字形更清晰,可以适当提高权重。换言之,控制权重越高字形就更清晰。以下这个是我使用瓶中星河LoRA的效果,无需过多提示词,即可触效果。以下是使用毒法师的瓶中星河LORA模型效果:使用毒法师的上周出土LORA模型效果:使用毒法师的国风好物LORA模型效果:使用毒法师的皮囊之下LORA模型效果:4.效果优化如果出图效果整体满意,但是对细节还是不满意,那么你还可以利用图生图使用title功能,再次优化细节。这样一张不错的字体效果图就可以收工了。以上就是今天分享的所有内容,感谢你的阅读,祝你高质高效用好材质纹理类LORA。
16
2
膨胀工作流

膨胀工作流

展示图:如何直接使用:方法一:直接使用此链接:https://tusi.cn/template/run/727198960355304059?source_id=601113246111368709点击生成后,直接上传图片再点在线生成即可方法二:①在吐司(tusi.cn)搜索:膨胀图标LOGO或者直接打开以下链接:https://tusi.cn/template/727198960355304059②在右侧点击上传你需要处理的图片,点击在线生成即可原理:工作流是很常见的ControlNet工作流:利用ControlNet使用输入的LOGO图作为控制图,再通过专用模型来实现效果。如何搭建类似工具:搭建类似的工作流可以查看以下教程文档:如何DIY模板小工具
14
点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”

点击TA 2024回忆报告,查看你深度参与的“环节”请注意!前方正在向你走来的是,2024 TA年度报告。出乎整个运营团队预料的是,今年站内的年度prompt词是「hair」。这意味着, hair被大量的写入提示词中,且是站内使用频率最高的提示词。hair的使用次数高达惊人的 2亿+ !但仔细想来,如果想对某个人物图像、角色图像做到更精确的控制,头发是必不可少的一环,而头发往往又代表角色的鲜明特征。回顾站内的提示词构成,诸如「long hair」「short hair」「red hair」等简单对头发的描述占大量比重。今年下半年开始,中文提示词的占比也逐渐上升。是的没错,我们很高兴看到中文模型生态在吐司不断孕育发展壮大。从此,生图不用再受英文提示词束缚,有了全新中文语言的可能,可以一起用中文描绘独属于国人的究极浪漫。提示词从“头”开始,和我们从新起航,在即将到来的新的一年里TA也要和大家继续相伴,今天你生图用「hair」了吗~截止目前,我们在全球托管40w+ AI模型,其中热度top5的模型是日均生成量30w+,每天有超过2w+ 个帖子发布在平台上,月均浏览2,700w+,分享内容350w+ ,这是今年热度Top5的帖子在今年,我们拥有过万的工作流和AI小工具,使用场景也更加多样,能够解决更多实际应用场景上的问题很高兴在今年网站用户突破320 w!有超过千位在吐司诞生月份就加入的老朋友依旧保持活跃!翻看站内的作品和社群,我们看到很多在网站建立之初加入,并一直陪伴着我们的用户,小李、今宵、hans、浅笑、千秋九月等等等等,感谢你们在网站还相对简陋不成熟的时候选择我们并一直活跃在吐司这个大家庭里。是因为你们的信任和陪伴,才不断推动着我们,激励着我们越来越好。在城市分布方面,广州、上海等一线城市占比最大,相比较去年东莞、佛山、福州等二三线城市的使用人数也有大量涨幅。用户的年龄结构方面,26岁-35岁占比高达38%,年轻用户对新鲜事物充满好奇,具有较强的创新意识和表达欲望,是推动AI 生图多样化创作风格的主力军。但50+岁的用户也不遑多让,占比也是创意生图的中坚力量,他们可能在职场的间隙,抽空呼吸放松,用AI描绘出心中的诗与远方。对比去年,18-25岁用户占比也有显著提升!从今年的数据上来看,女性用户的数量同比增长5%,占比也来到了20%不论是城市、年龄还是性别,我们团队对比过往数据,能够得到一个令人惊喜的结论:AI技术正在向全民化发展。人们使用AI的壁垒在不断减少,获得AI相关信息更加便捷全面,而这也是我们希望看到的。今年,我们完成了几十次的功能更新和数百次的bug修复,我们始终把用户体验放在第一位,而产品功能更是我们的立身之本。比如,我们创造性的推出AI小工具,可以理解为一个mini版的app!对创作者而言可以把复杂的工作流包装得到更多的传播和使用;对于使用者而言不需要了解背后的复杂逻辑,一键使用。我们目前已经可以做到覆盖设计、视觉、游戏、建筑、艺术等多行业的实际应用场景解决方案。在不久的将来,更将推出全新设计师友好的灵感发散工具今年,吐司一共上线20余场站内活动,30余场站外(社群社媒)活动,更有多场直播、免费b站课程等。我们非常高兴看到越来越多的用户参与到我们的活动中来,更令我们感动的是,许多用户会认真支持每一场活动,醉梦星河、叽里呱啦、天海、剑舞清风、RelianceXL、焦糖拿铁多加奶、青旭、蔚蓝blue,还有更多更多的用户!这些昵称,我们运营团队都妥帖的记在心里。与此同时,今年我们在外部合作上有了更多拓展。在此就不一一穷举,新的一年跟我们一起探索更多可能。今年各类新基座模型百花齐放,我们一直鼎力支持并承载每一新技术的发展!毫不夸张的说,大部分基座模型我们可以做到T+0支持在线生图,T+1支持多种网络模块的在线训练。(产研:在做了!在做了!)在AI快速发展的浪潮下,我们从未放缓过技术创新的脚步。在AI井喷式发展的这两年里,放眼全球,我们的算力价格都是极低的。在用户增长和新技术成本增大的情况下,我们依旧保持原有优势,保障算力充足,并让用户能够用更低的成本体验AI。除了追逐新技术以外,还做了全面的工作流AI小工具的功能,探索各类应用场景。从产品雏形诞生那一日起,我们的初心就从未改变:让每个人都能体验到AI创作的乐趣。而“Trained Once, Thrive everywhere.”这一理念也绝不是说说而已。这句话的意思是,一旦你在我们的平台上训练了一个模型,后续的活动(如发布、运行模型、被他人纳入工作流程或AI小工具)都将持续为你产生收益。当然,我们不仅只有追新,只有探索,我们也有对陪伴我们的创作者有更多的回馈。我们期望平台创作者能够通过创作获得收益反哺。因此,我们设立了创作者中心,以帮助创作者监控他们上传作品的收益,创作者激励相比较去年涨幅523%。显卡基金、充能、订阅,我们给创作者提供了更多的收益方式,创作者人均收入增长8.15倍。我们一直将扶持国内AIGC生态为己任,除了上线功能全面的在线训练,降低训练门槛以外,也一直在探索更多有可能的收益方式使创作者得到应有的物质回报。我们希望创作者在为热爱发电的同时,能感到有更足的底气。即将上线会员模型,这么多收益方式,总有一款适合你!从2022 年底ChatGPT 引发生成式人工智能的热潮,到2024 年初Sora 模型以文生视频技术令世界瞩目,AI 技术在软件代码、文本、语音、高保真图像和交互式视频的创作上取得了显著突破,不断推动着多领域的革新。AI行业的发展绝不仅仅是靠某一公司的成功而前进,我们也在这些优秀的同行身上获得启发,并为之努力奋斗。AI是一片热忱的土地,长满关于科技与梦想的各具特色又生机勃勃的植物,我们在上面种下一颗名为吐司的种子,期待它的不断生长。年度榜单TA有自己的年度榜单,快来看看你上榜了没榜单直通车在此,死手,快点啊!👉年度榜单👈
28
MIST & MIST FXXKER Lora Trianing TEST

MIST & MIST FXXKER Lora Trianing TEST

"主不在乎" ----《三体·黑暗森林》"光锥之内就是命运"mist github url/项目地址mist fxxker本次测试所用训练数据集和成品LORA/train data&lora file in this test相关清理代码/测试图片/训练设置在本页附件内原文地址:MIST & MIST FXXKER Lora Trianing TEST | Civitai微博上看到个很有趣的项目,声称可以保护图片使其无法训练。”Mist是一项图像预处理工具,旨在保护图像的风格和内容不被最先进的AI-for-Art应用程序(如Stable Diffusion上的LoRA,SDEdit和DreamBooth功能和Scenario.gg等)模仿。通过在图像上添加水印,Mist使AI-for-Art应用程序无法识别并模仿这些图像。如果AI-for-Art应用程序尝试模仿这些经Mist处理过的图像,所输出的图像将被扰乱,且无法作为艺术作品使用。“https://weibo.com/7480644963/4979895282962181https://mist-project.github.io/下载,这个项目环境配置本身比较困难,而且刚性需求bf16(在一台2080ti设备测试,其实有一部分可以运行在fp16上,但急着测试没时间修改代码,本机有4090重新配环境太麻烦),最后还是请朋友帮忙处理了图片。本次测试所用训练集/原图/lora文件已附上,请自取。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - train_data | 吐司tusi.cn测试介绍/Introduction to testing测试图片/Testing images本次测试图片分为四组。通过爬虫获取的原图。经过mist v2在默认配置下处理的原图。mist-fxxker,使用第一阶段clean 处理[2]图片(注:该阶段处理耗时约25s/106张图@8c zen4)mist-fxxker, 使用clean+SCUNET+NAFNET 处理[2]图片(注,该阶段8s/每张图@4090)测试模型&参数/base model &parameter testing1.训练使用nai 1.5 ,7g ckpt.MD5: ac7102bfdc46c7416d9b6e18ea7d89b0SHA256:a7529df02340e5b4c3870c894c1ae84f22ea7b37fd0633e5bacfad96182280322.出图使用anything3.0MD5:2be13e503d5eee9d57d15f1688ae9894SHA256:67a115286b56c086b36e323cfef32d7e3afbe20c750c4386a238a11feb6872f73.参数因本人太久没有训练1.5lora,参考琥珀青叶推荐&经验小幅度修改。4.图片采用narugo1992 所推荐的three stage切片方法处理(小规模测试里,未经three stage处理放大特征的话,很难学习到mist v2的效果)测试流程/Testing Process通过爬虫获取booru上一定数量柚鸟夏图片通过mist v2 & mist fxxker 处理,获取剩余三组图片。把四组图片当作下载后原图,引入训练工作流,进行打标,识别,切片,处理后获取四组训练集。用这四组训练集训练产生对应lora测试lora测试结果/Results说明:结合图片观感,本人认为在15ep以后,已经基本达成了角色拟合和训练需求,正常训练时也不会超过这么多ep,因而测试基于15ep,其余lora和训练集请自取测试。总测试参数/Total test parameterDPM++ 2M Karras,40steps,512*768,cfg 7if Hires. fix:R-ESRGAN 4x+ Anime6B 10steps 0.5all neg:(worst quality, low quality:1.4), (zombie, sketch, interlocked fingers, comic) ,Trigger Words:natsu \(blue archive\)直接出图测试/Direct testing测试1:prompts:natsu \(blue archive\),1girl, halo,solo, side_ponytail, simple_background, white_background, halo, ?, ahoge, hair_ornament, juice_box, looking_at_viewer, milk_carton, drinking_straw, serafuku, blush, long_sleeves, red_neckerchief, upper_body, holding, black_sailor_collar,测试2:natsu \(blue archive\),1girl, solo, halo, pleated_skirt, black_sailor_collar, side_ponytail, milk_carton, chibi, black_skirt, puffy_long_sleeves, ahoge, white_cardigan, white_footwear, black_thighhighs, shoes, white_background, v-shaped_eyebrows, full_body, +_+, blush_stickers, standing, sparkle, two-tone_background, holding, twitter_username, :o, red_neckerchief, serafuku, pink_background, open_mouth测试3:prompts:natsu \(blue archive\),1girl, cherry_blossoms, outdoors, side_ponytail, solo, black_thighhighs, halo, drinking_straw, ahoge, tree, white_cardigan, looking_at_viewer, milk_carton, long_sleeves, pleated_skirt, day, neckerchief, open_mouth, holding, juice_box, black_sailor_collar, blush, black_skirt, serafuku, building, zettai_ryouiki小结:测试原图放在附件了,可以自行对比查看。就目前测试而言,单步骤的clean过后,即便放大后仔细查看,肉眼也很难分辨图片是否经过mistv2污染。即便不经过任何处理,mist的污染也需要放大图片同时提高显示器亮度才能发现(这是100%污染图源作为训练素材)项目地址展示结果目前暂时无法复现。直接出图后高清修复测试after Hires. fix经过上一步,下面我们只测试经过mistv2处理后训练集直出的lora在higher fix后的表现高清修复参数: R-ESRGAN 4x+ Anime6B 10steps 0.5出图后清洗只经过clean特别加测不使用three stage的结果:SD1.5 补充测试/add test论文里使用的是sd1.5底模,因此简单尝试了一下在sd1.5能否复现论文所展示的model attack性能。图片显示即便被攻击过的数据集也并没有影响到对角色特征的学习,mistv2带来的污染在使用对应lora后也能够清除。其他方面不太能确定,毕竟sd1.5模型对于二次元角色本身就是个灾难,自己看图吧。MIST & MIST FXXKER Lora Trianing TEST LORA and Dat - lora_sd1.5 | 吐司tusi.cn总结/Summary什么样情况下lora会受到mistV2的影响1.训练集没有经过常见的预处理流程2.使用了three stage方法3.mist v2处理后图片比例占绝对优势。1,2,3任何一项的缺失都会让mist V2的效果显著下降。污染了怎么办1.训练前:请使用最简单的方法清除即可,0.25s/per image。2.训练后:请以适当的负数权重合并调整loraAdjusting Mist V2 effect / Mist V2 效果调节- v1.0 | 吐司3.出图阶段: 同上,可以请谁写个小扩展?评价/Evaluationit is better than nothing.
17
2
全网独家丨pony原神全角色124位丨使用指南—璃月篇

全网独家丨pony原神全角色124位丨使用指南—璃月篇

全网独家丨pony原神全角色124位丨使用指南—璃月篇感谢@苍凉如梦和他的舍友帮忙整理提示词文档璃月白术/baizhu_(genshin_impact)触发词:baizhu_\(genshin_impact\), 1boy, glasses, changsheng_\(genshin_impact\), white_snake, crop_top, short_sleeves, hair_stick, tassel, animal_around_neck, black_gloves, cropped_shirt, midriff, bead_bracelet行秋/xingqiu_(bamboo_rain)_(genshin_impact)触发词:xingqiu_\(genshin_impact\), xingqiu_\(bamboo_rain\)_\(genshin_impact\), 1boy, official_alternate_costume, official_alternate_hairstyle, long_sleeves, short_ponytail, white_shorts, blue_socks, low_ponytail, blue_jacket, shoes行秋雨话竹身xingqiu_(aoi_no_okina)_(genshin_impact)触发词:xingqiu_\(aoi_no_okina\)_\(genshin_impact\), xingqiu_\(genshin_impact\), monocle, 1boy, long_sleeves, wide_sleeves, frilled_sleeves, white_cape, holding_book, japanese_clothes, sidelocks, chinese_clothes申鹤冷花幽露shenhe_(frostflower_dew)_(genshin_impact)触发词:shenhe_\(frostflower_dew\)_\(genshin_impact\), shenhe_\(genshin_impact\), black_dress, detached_sleeves, 1girl, official_alternate_costume, bare_shoulders, sleeveless_dress, large_breasts, thighs, long_sleeves, hair_over_one_eye, black_sleeves, parted_lips雷电真/ makoto_(genshin_impact)触发词:raiden_shogun, japanese_clothes, kimono, flower, 1girl, sash, braid, purple_kimono, obi, mole_under_eye, 2girls, mole, purple_flower, hair_flower, breasts, long_sleeves刻晴霓裾翩迁/keqing_(opulent_splendor)_(genshin_impact)触发词:keqing_\(opulent_splendor\)_\(genshin_impact\), keqing_\(genshin_impact\), 1girl, cone_hair_bun, bare_shoulders, double_bun, cleavage, official_alternate_costume, strapless_dress, black_dress, black_pantyhose, detached_sleeves, medium_breasts, hair_ribbon甘雨暮光之花/ ganyu_(twilight_blossom)_(genshin_impact)触发词:ganyu_\(genshin_impact\), ganyu_\(twilight_blossom\)_\(genshin_impact\), bare_shoulders, official_alternate_costume, detached_sleeves, 1girl, blue_dress, black_gloves, black_dress, thighs, long_sleeves, sleeveless_dress, medium_breasts, official_alternate_hairstyle嘉明/ gaming_(genshin_impact)触发词:gaming_\(genshin_impact\), 1boy, fingerless_gloves, black_gloves, long_sleeves, chinese_clothes, tassel, mole_on_neck, red_shirt, hooded_jacket归终/guizhong_(genshin_impact)触发词:1girl, guizhong_\(genshin_impact\), bare_shoulders, detached_sleeves, white_dress, sleeves_past_fingers, wide_sleeves, short_hair_with_long_locks, long_sleeves, barefoot, sidelocks钟离zhongli_(genshin_impact)触发词:zhongli_\(genshin_impact\), 1boy, long_sleeves, black_gloves, single_earring, low_ponytail, tassel_earrings, collared_shirt, red_eyeshadow, standing, white_necktie钟离摩拉克斯/zhongli_(archon)_(genshin_impact)触发词:zhongli_\(genshin_impact\), zhongli_\(archon\)_\(genshin_impact\), 1boy, official_alternate_costume, hood_up, ponytail, arm_tattoo, single_earring, sleeveless, tassel_earrings, bare_shoulders, hooded_cloak, hooded_coat云瑾/ yun_jin_(genshin_impact)触发词:1girl, yun_jin_\(genshin_impact\), bonnet, long_sleeves, pink_capelet, lolita_fashion, qi_lolita, vision_\(genshin_impact\), tassel, black_headwear烟绯/yanfei_(genshin_impact)触发词:1girl, yanfei_\(genshin_impact\), red_headwear, detached_sleeves, bare_shoulders, midriff, crop_top, long_sleeves, cleavage, stomach, navel瑶瑶/yaoyao_(genshin_impact)触发词:1girl, yaoyao_\(genshin_impact\), hair_bell, yuegui_\(genshin_impact\), long_sleeves, sidelocks, jingle_bell, backpack_basket, braid, :d夜兰/ yelan_(genshin_impact)触发词:1girl, yelan_\(genshin_impact\), large_breasts, bare_shoulders, bob_cut, cleavage, earrings, dice, mole_on_breast, black_gloves, fur-trimmed_jacket, white_gloves, armpits, mismatched_gloves辛焱/ xinyan_(genshin_impact)触发词:xinyan_\(genshin_impact\), 1girl, dark-skinned_female, spikes, black_nails, cleavage, holding_instrument, medium_breasts, nail_polish, hair_down, spiked_hairband行秋/xingqiu_(genshin_impact)触发词:1boy, xingqiu_\(genshin_impact\), long_sleeves, single_earring, frilled_sleeves, tassel_earrings, chinese_clothes, holding_book, wide_sleeves魈xiao_(genshin_impact)触发词:xiao_\(genshin_impact\), 1boy, forehead_mark, white_shirt, arm_tattoo, bead_necklace, sleeveless_shirt, black_gloves, tassel, red_eyeshadow, long_sleeves闲云/ xianyun_(genshin_impact)触发词:1girl, xianyun_\(genshin_impact\), cloud_retainer_\(genshin_impact\), glasses, red-framed_eyewear, large_breasts, semi-rimless_eyewear, tassel_earrings, bodystocking, long_sleeves, gloves, aqua_lips, black_gloves, thighs香菱/xiangling_(genshin_impact)触发词:xiangling_\(genshin_impact\), 1girl, hairclip, fingerless_gloves, guoba_\(genshin_impact\), bare_shoulders, braided_hair_rings, black_gloves, thick_eyebrows, china_dress, small_breasts申鹤/ shenhe_(genshin_impact)触发词:shenhe_\(genshin_impact\), 1girl, blue_eyes, hair_over_one_eye, white_hair, large_breasts, hair_ornament, long_hair, very_long_hair, grey_hair, nipples, hip_vent, tassel_earrings凝光/ningguang_(genshin_impact)触发词:ningguang_\(genshin_impact\), 1girl, hair_stick, large_breasts, white_hair, black_gloves, bare_shoulders, red_eyes, elbow_gloves, china_dress, sidelocks, long_hair, sitting, tassel_hair_ornament凝光纱中幽兰/ningguang_(orchid's_evening_gown)_(genshin_impact)触发词:ningguang_\(orchid's_evening_gown\)_\(genshin_impact\), ningguang_\(genshin_impact\), official_alternate_costume, 1girl, blue_dress, bare_shoulders, cleavage, large_breasts, vision_\(genshin_impact\), bracelet, sidelocks, detached_sleeves,七七/qiqi_(genshin_impact)触发词:1girl, qiqi_\(genshin_impact\), hat, long_sleeves, qingdai_guanmao, bead_necklace, jiangshi, ofuda, purple_headwear, white_thighhighs, vision_\(genshin_impact\), black_nails刻晴/keqing_(genshin_impact)触发词:keqing_\(genshin_impact\), 1girl, bare_shoulders, medium_breasts, thighs, large_breasts, detached_sleeves, purple_dress, black_pantyhose, cleavage锅巴/guoba_(genshin_impact)触发词:guoba_\(genshin_impact\), red_panda, xiangling_\(genshin_impact\), hairclip, 1girl, fingerless_gloves, chinese_clothes, twin_braids, sidelocks, black_gloves, :d, thick_eyebrows, braided_hair_rings, chili_pepper, bare_shoulders胡桃/hu_tao_(genshin_impact)触发词:1girl, hu_tao_\(genshin_impact\), flower-shaped_pupils, long_sleeves, black_nails, boo_tao_\(genshin_impact\), black_headwear, hat_flower, black_shorts, nail_polish, thighs甘雨/ganyu_(genshin_impact)触发词:ganyu_\(genshin_impact\), 1girl, neck_bell, bare_shoulders, detached_sleeves, black_gloves, bodystocking, sidelocks, medium_breasts, video, animated, sitting, large_breasts, outdoors重云/chongyun_(genshin_impact)触发词:chongyun_\(genshin_impact\), 1boy, chinese_clothes, fingerless_gloves, hood_down, black_gloves, long_sleeves, black_bodysuit, popsicle北斗/beidou_(genshin_impact)触发词:beidou_\(genshin_impact\), 1girl, large_breasts, eyepatch, cleavage, hair_stick, hair_over_one_eye, fingerless_gloves, colored_eyepatch, one_eye_covered, thighs, black_gloves, bare_shoulders, hairpin萍姥姥/ madame_ping_(genshin_impact)触发词:madame_ping_\(genshin_impact\), bare_shoulders, detached_sleeves long_sleeves, wide_sleeves, chinese_clothes, aged_down, black_gloves, hair_stick,应答/ indarias_(genshin_impact)触发词:indarias_\(genshin_impact\), 志琼/zhiqiong_(genshin_impact)触发词:zhiqiong_\(genshin_impact\), 1girl, cleavage, green_headwear, red_necktie, sidelocks, medium_breasts, backpack, hair_bun, green_dress, speech_bubble, english_text, single_hair_bun
12
1
【吐司创造营】第一期第四课:ControlNet!一网打尽全16种控制方式!

【吐司创造营】第一期第四课:ControlNet!一网打尽全16种控制方式!

 该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Ep421y7KX一、ControlNet定义以特定信息引导,实现一些我们通过文生图、图生图不好精准控制的特征。预处理器可以从图片里提取特征信息,训练过的controlnet模型读取这些信息,并引导SD生成过程。ControlNet 的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像结果。这些条件就是通过调节预处理器参数来实现的,所以我们首先要先了解下ControlNet 各种预处理器的功能。 二、参数详解控制权重:主要影响控制力度引导实际:生成过程中controlnet的生效时间控制模式:更倾向于提示词还是controlnet改变控制力度的方式:加大力度:提高权重降低开始引导步数并提高结束引导步数选用controlnet更重要模式降低力度:减小权重提高开始引导步数并降低结束引导步数选用提示词更重要模式 三、ControlNet详解ControlNet的大致分类轮廓类Canny:边缘检测预处理器可很好识别出图像内各对象的边缘轮廓,常用于生成线稿。控制线条轮廓,线条粗细是一样的,白底黑线线稿应该用inver,反色成黑底白线才可以正常识别,线条不宜太过密集。MLSD:M-LSD 线条检测用于识别画面里的直线条,生成房间、直线条的建筑场景效果比较好。M-LSD 直线线条检测预处理后只会保留画面中的直线特征,而忽略曲线特征。Lineart:跟canny比较像,但是会有一些艺术化的处理,它的使用场景会更加细分,包括Realistic 真实系和Anime 动漫系2 个方向。Lineart 是有的明显笔触痕迹线稿,更像是现实的手绘稿。SoftEdge:控制线条轮廓,但更加柔和,放松,线条有粗有细;几种预处理器没有太大差别,与canny对比,对轮廓线条的还原更生动,不会太过于刻板。它的特点是可以提取带有渐变效果的边缘线条,由此生成的绘图结果画面看起来会更加柔和且过渡自然。在官方介绍的性能对比中,模型稳定性排名为PiDiNetSafe > HEDSafe > PiDiNet > HED,而最高结果质量排名HED > PiDiNet > HEDSafe > PiDiNetSafe,综合考虑后PiDiNet 被设置为默认预处理器,可以保证在大多数情况下都能表现良好。Scribble:涂鸦引导画面生成,应用一些灵魂画手,它检测生成的预处理图更像是蜡笔涂鸦的线稿,在控图效果上更加自由。Segmentation:语义分割,用颜色把不同类型的对象分割开,它可以在检测内容轮廓的同时将画面划分为不同区块,并对区块赋予语义标注,从而实现更加精准的控图效果,让AI能正确识别对象类型和需求生成的区界。比如说绿色代表的是草地,蓝色代表的是天空。景深类Depth:深度图,通过提取原始图片中的深度信息,生成具有原图同样深度结构的深度图,越白的越靠前,越黑的越靠后。leres精度高,midas较为泛用,精度越高的预处理,花费时间一般越久。 对比来看,LeReS 和LeReS++的深度图细节提取的层次比较丰富,其中LeReS++会更胜一筹。而MiDaS 和ZoE 更适合处理复杂场景,其中ZoE 的参数量是最大的,所以处理速度比较慢,实际效果上更倾向于强化前后景深对比。 NormalMap:法线贴图,法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图,便于AI给图片内容进行更好的光影处理,它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多,常用于贴在低模上模拟高模的复杂光影效果。更精准的识别物体的凹凸体积关系,甚至是材质,常见用于室内设计,产品设计。对比Bae 和Midas 预处理器的出图效果,也能看出Bae 在光影反馈上明显更胜一筹。对象类Openpose:姿势生成,可生成图像中角色动作姿态的骨架图,控制姿势、手部、面部。 重绘类Inpaint:类似局部重绘,但是融合会更好。局部重绘这里提供了3 种预处理器,Global_Harmonious、only 和only+lama,整体来看出图效果上差异不大,但在环境融合效果上Global_Harmonious 处理效果最佳,only 次之,only+lama 最差。Tile:无缝拼接,用来添加细节和高清放大;Tile 中同样提供了3 种预处理器:colorfix、colorfix+sharp、resample,分别表示固定颜色、固定颜色+锐化、重新采样。看到三种预处理器的绘图效果,相较之下默认的resample 在绘制时会提供更多发挥空间,内容上和原图差异会更大。Shuffle:随即洗牌,打乱噪声和像素点,提取颜色信息和色彩。随机洗牌是非常特殊的控图类型,它的功能相当于将参考图的所有信息特征随机打乱再进行重组,生成的图像在结构、内容等方面和原图都可能不同,但在风格上你依旧能看到一丝关联。pix2pix:指令性的controlnet,指导图生图,它的功能可以说和图生图基本一样,会直接参考原图的信息特征进行重绘,因此并不需要单独的预处理器即可直接使用。比如说着火。特殊类Reference:参考信息,根据原有的图像信息去生成。这里提供了3 个预处理器adain、adain+attn、only。其中adain、adain+attn 是V1.1.171 版本后新增的预处理器,其中adain 表示Adaptive Instance Normalization 自适应实例规范化,+attn 表示Attention 链接。Recolor:重新上色,黑白图像变成有颜色的。它的效果是给图片填充颜色,非常适合修复一些黑白老旧照片。但Recolor 无法保证颜色准确出现特定位置上,可能会出现相互污染的情况,因此实际使用时还需配合如打断等提示词语法进行调整。这里也提供了intensity 和luminance2 种预处理器,通常推荐使用luminance,预处理的效果会更好。T2I-Adapter 文生图适配器:它的作用是为各类文生图模型提供额外的控制引导,同时又不会影响原有模型的拓展和生成能力。IP-Adapter 图生图适配器:要用来提升文生图模型的图像提示能力Clip_vision:腾讯出的,color adapter是用图控制色彩,style adapter是用图控制风格。
14
提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

提示词入门教程·下篇:《元素同典:确实不完全科学的魔导书(2024重制版)》

字数原因,链接上篇:提示词入门教程·上篇:《元素同典:确实不完全科学的魔导书》除此之外还可以尝试其它不是Prompt S/R 的选项,比如用Seed 比较不同种子,用Step 比较不同步数,诸如此类。更深一步则是进行多组分析,以及通过排列组合或其它统计方法来确定多个要素之间的作用等。如果不做定性/定量分析,那么可能将持续沉浸在知其然不知其所以然的程度,也可能仅满足于妙手偶得而产生相对片面的理解。始终记得赛博魔法的本质是科学。力大砖飞,超级步数出奇迹【此部分现已不建议参考】在上文基础部分,笔者推荐在简单情况下将步数设为不算高的数值,因为在简单画面的情况下步数过高也似乎没有什么好细化的。但要是在一个细节稍复杂的场景里把步数做得很高很高那么会发生什么?(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, forest, blue sky, cloud, sun, sunlight不难发现画面的确变得精细了。空中的云变得更真实,人物背景从简单的树林过度到有层次的树林再变成土丘上的树林。当然,最显著的还是人物体态的变化——虽然手部的举起与放下之间似乎无法分辨出什么规律,但似乎也有着被进一步细化的情况。总得来说,简略与详细都有独到之处,是萝卜白菜各有所爱的程度,也难怪大多数情况下认为步数过高没有特别的收益...等等。我们刚刚是不是提到了手?(masterpiece), best quality, 1 girl, red eyes, white hair, white gown, hands人物整体在20 步就已经奠定完毕,后续步数没有显著改动,但是手却不一样。20 步的手就是一团错位的麻花,40 步虽然显得扭曲但是已经能和胳膊接上,60 步除了部分手指以外都做得不错,80 步更是在此基础上进一步降低了融化程度。虽然80 步的手也没有达到理想中的效果,但是不难发现高步数下,人物手部的表现有着明显提升。这个结论在绝大多数情况都适用——如果想要特别细化手部表现力,那么请忽略上述步数建议,将步数拉到80 甚至更高。而进一步推论是,高步数在合适prompt 的引导下,对于大多数细小、解构复杂的区块都效果拔群,只是对于大块非复杂场景方面的营造存在显著边际效应。魔法公式入门首先,prompt 并不可以随意堆积,不是越多越好。模型读取promot 有着明确的先后顺序,这体现为理解顺序的不同。比如又一个著名的“少女与壶”试验所展示的:masterpiece, 1 girl, red eyes, white hair, blue potmasterpiece, blue pot, 1 girl, red eyes, white hairmasterpiece, blue pot, ((1 girl)), red eyes, white hairmasterpiece, blue pot, ((1 girl)), red eyes, white hair在种子相同且其它参数也完全相同的情况下,仅仅是颠倒了1 girl 与blue pot 的顺序,构图就产生了极大的变化。不难发现,1 girl 在前的情况下,画面围绕着人物展开,blue pot 体现为环绕着人物的场景物件。而blue pot 在前的情况下,画面围绕着盆展开,人物反而退出了画面中心,甚至哪怕加大1 girl 权重也无法让人物比盆在画面中更重要。这其中的原理不适合在入门魔导书中详细解释,但可以提供启发—— prompt 的顺序将影响画面的组织方式,越靠前的prompt 对构图的影响越“重”,而越靠后的则往往会成为靠前prompt 的点缀或附加物。顺序对于构图的影响在大多数情况下甚至大于权重的影响。对于SD1.5来说可以使用早期法典时期搞出来的三段式提示词,前缀+需要重点突出的物件/背景+人+人物特征/元素+人物动态+服饰整体+服饰细节元素+大背景+背景元素+光照效果+画风滤镜+微小辅助元素+后缀而到了SDXL,请根据模型作者所标注的提示词顺序来进行编辑,有些人会在使用SDXL模型的时候继续沿用SD1.5的习惯格式而不用模型卡的推荐设置,这会导致出图达不到预期。请记住:在SDXL的模型中,不存在“三段式”或者所谓“4W1H”这种提示词的固定格式,一切需要按照模型卡来当然出图达不到预期这只是现象,这实际上只是模型作者在训练的时候使用的标注格式不同。比如kohakuXL就是使用的如下:<|special|>, <|characters|>, <|copyrights|>, <|artist|>, <|general|>, <|quality|>, <|meta|>, <|rating|>那么我在使用其他的tag格式的时候,出图就很难达到预期(有些效果出不来,有些效果乱出)。下面是另外两个模型的tag格式。而最近讨论度较高的ArtiWaifu Diffusion,则是有着更严格的格式限制奏咒术一曲蔌蔌,浩渺无声我曾见过,你们新魔法师永不会相信的东西。在⚪山上面堆积着的咒语,在论文式长文中崩坏的结构。然而所有这些都将随时光而去,就像咒语中的音节。一个词要见另一个词并不容易掌握上文的顺序公式,其实也只是开始中的开始。大致顺序固然很重要,但它太过大致了。不难发现实际应用并不是那么简单的“后者叠加在前者之上”关系,与理想中的一一对应式叠加相差甚远。既然现实与理想不符合,那么是时候看看为什么会这样了。试一下吧。假设现在我们需要生成一个在有着许多花的平原里的二次元美少女,这个美少女没有花发饰。假设我们同时还需要在画面中生成特别特别多的花,那么就应该给flower 一个比较高的权重,比如1.35。masterpiece, 1 girl, blue eyes, white hair, (flower:1.35), in field, blue sky, sun, cloud情况不符合没有花发饰的预期。事实上不仅仅是这一张图,上述咒语生成的大多数图片都会让人物带上发花装饰。这不难理解,flower 的权重过大,导致它在画面中倾向于占有更大的比率、更强的表现,迫使元素与元素被错误地绑定了——是与上文提及的元素不绑定相反的情况。降低flower 的权重可以一定程度上解决问题,但在实际应用中,很可能出现某个物件必须要有较高权重才能达成预期效果的情况,或者权重已经非常低了依然出现这种尴尬情况。既然不可以降低权重,那还能怎么办呢?两倍的长度,一半的意义那么有没有办法让花也不出现在衣服上?如果继续维持权重不可改变的限制,也不应用其它技巧,那么最简单的思考方向是让flower 和一切形容人物的咒语部分都拉开更远的距离,加上一些用于描绘其它画面元素的词就能做到。但如果情况要求不应该为画面引入新元素,就不能这么做。注意到此时加入词的目的仅仅是为了拉开两个词的距离。但首先(虽然其实已经有些迟了),我们应当定义一下什么是“距离”。这个数字会出现在WEB-UI 的负面咒语输入框右上角。它严格的叫法其实是这段咒语“生成的向量/token 数”,但作为不需要深究法杖炼成原理、只需要掌握应用赛博魔法师,我们只需要清楚它代表一段咒语的“物量”就行了。(在实际使用中clip的有效token数就是75,当token数量大于75的时候webui会采用clip拼接的方式处理提示词,也就是绘本分在多段clip里,我们这里的定义只要两个词跨过75、150、225……这几个点,那么就说明这两个词“距离远”)物量可以用来衡量咒语的长度,而两个词之间的间隔物量数就是它们的距离。新加入的词本身应该是尽可能无意义的,并且在此基础上多占用一些物量来产生距离骗过自然语言处理部分,我们将这样的词称之为占位词。诸如 what which that 等在自然语言中无明显指代对象的词都一定程度上可以用作占位词,所以当你在一些老旧的提示词中找到了诸如“//////////”这种无异于的字符,不用怀疑这就是占位词。现在我们有更好的方式来强行进行clip分段,这就是BREAK这个词的作用masterpiece, 1 girl, blue eyes, white hair, BREAK, in field, blue sky, sun, cloud, BREAK, (flower:1.35)花彻底从人物身上移开了。虽然AI 的不稳定性让它依然有作为服饰或发花出现的情况,但概率被进一步降低了。占位词可以用于进一步调整词与词的距离,从而加强切割某些不希望绑定在一起的元素,是“元素污染”情况的又一有力解决方案。这就是“最简发花”试验。词与词之间也不能毫无节制地加入占位词来降低关系。根据测试,词与词之间的关联度似乎和距离有着一定程度上的反比例关系或保底关联度,因此加入过多占位词不会有额外的好处,适量添加即可。当然占位词现在已经不再使用了,直接用BREAK就行。而更深入的原因还可以是,WEB-UI 对于词的分割是每75 物量一组,使用占位词来略过接近75 物量的部分,可以避免连续的描述状态被切割。连续的描述状态被切割会导致无法预期的糟糕后果,所以应当避免。赛博音节会梦见电子杖心吗从SD 框架的自然语言处理部分可以提取出关联性和占位词的应用,而从训练集则还可以提取出其它知识。如上文所述,NAI 的重要训练来源是danbooru.donmai.us,而其它绝大多数模型也或多或少与这个网站的素材有所关联。如果各位赛博魔法师们真的前去调查了它的tag 标识,那么不难发现一些有趣的现象——许多tag 有着逻辑上合理的“前置”关系,比如存在sword 这个tag 的作品往往还存在weapon 这个tag、存在sleeves past finger 这个tag 的作品往往还存在sleeve past wrists 这个tag。这样在训练集中往往共存且有强关联的tag,最终会让模型处理包含它的咒语时产生一层联想关系。不过上述联想关系似乎不够令人感兴趣,毕竟这些联想的双方都是同一类型,哪怕sword 联想了weapon 也只是无伤大雅。那么是否存在不同类型的联想呢?答案是存在的:masterpiece, 1 girl, blue eyes, white hair, white dress, dynamic, full body, simple backgroundmasterpiece, 1 girl, blue eyes, white hair, white dress, (flat chest), dynamic, full body, simple background不难发现flat chest 除了影响人物的胸部大小之外还影响了人物的头身比,让人物的身高看上去如同儿童身高一般,如果调整画布为长画布还会更明显。因此称flat chest 与child 有着联想关系。人物胸部大小和身高是不同的两个类型,两个看似类型完全不同的词也可以产生联想关系。对flat chest 加大权重,会让这种联想关系会表现地更为突出。它的原理和上述同类型的联想一样,都是训练来源导致的。平胸美少女和儿童身高在同一个作品内出现的概率非常大,而模型训练的时候又没有很好的进行区分。这种联想关系在社区中曾被称为“零级污染”。除此之外最为常见的还是再CF3模型里,rain提示词必定会出现伞这一现象。掌握了联想关系的知识之后的用途仅限于灵活应用它来更准确地营造画面,联想词之间极易互相强化,进而提高画面的稳定性。例如给人物稳定添加一把剑的最好做法不是仅加上sword,而是加上weapon, sword。同理,其他存在强联想且希望出现的元素也可以同时在咒语内连续出现。为了在画面内取消两个词之间的联想,最简单但不一定有效的做法是将被联想词写入负面咒语并加上较高权重。如果没有效果,那么不妨试一试在咒语内加上被联想词的对立面,比如用aged up 对抗flat chest 对于child 的强联想。向着魔导科学的最根源嘟嘟嘟——魔导列车启动啦!请各位乘客注意安全,系好安全带,防止双轨漂移时被甩出车gdjhgvdjkhgvdfhdgvjfhhd重新解析咒语构成既然上文补充了标准顺序公式遗漏的细节,那现在能不能让它再给力一点?当然能!无数个疑问都指向了由词性分析与联想关系理论所引发的新思考方式。既然用于描述一个元素的词与用于描述另一个元素的词之间的距离会影响叠加的程度,那么不如直接将一切元素与其对应描述词的组合都抽象为一个“物”。人是一个物,人身上的一些小挂饰也是一个物(无论这个挂饰的数量是多少),背景里的建筑也是一个物,诸如此类。物!每个物都有能力成为主要描绘对象。如果是人,那么可以是人的立绘或特写,如果是挂饰,可以是它的展览模样,甚至背景大建筑也可以成为全景的视觉中心。而当画面中存在多个物时,将不可避免地分出主要的物和次要的物,次要的物还可以有相对它而言更次要的物。这和此前的基础顺序公式不同,因为基础顺序公式默认一切事物都可以互相叠加——但事实证明不是那样。无法被叠加的次要物不难注意到有些“物”像是无视了叠加式构图原则那样,除非权重高到让它占满屏幕,否则往往只能作为配角存在、难以被其它“物”作为叠的目标。这些“物”天生有着被视作次要的特征,和许多能做主能做次的物并不相同。那么什么因素决定哪些物更倾向于被视为次要呢?终极答案是生活经验。当1 girl 和earring 简单结合时,无论两者谁先谁后,最后都会变成“一个二次元美少女带着耳环”的样子,不会在简短描述下就轻易地出现诸如“美少女向前抬手捧着耳环、耳环在镜头前是一个特写、美少女的身体被景深虚化”的情况。因为在我们的生活常识中,大多数这两个“物”结合的情况都是前者,后者在作品描绘里出现的情况极少,因而这两者即使是顺序调换也只是让美少女是否摆出展示耳环的姿势,无法轻易地切换主次(继续深讲就到训练集的部分了,虽然它的本质是训练集与LatentDiffusion 对于自然语言的处理,但考虑到大多数组成训练集的作品都取自于生活经验/ 常见创作想象,且自然语言处理本就是努力拟合生活经验的过程,所以实际上并无明显不同,因而在此打住话题)masterpiece, 1 girl, earringmasterpiece, earring, 1 girl但当1 girl 和lake 结合就不一样了。lake 虽然往往被当做背景,但它完全可以成为风景画的主要描述对象,所以在除去刻意设置了镜头的情况下——当1 girl 在前,重要的“物”为人物,所以画面往往会让人物占据主要部分(包括人物全身像站在景物前、人物半身像加远景,甚至人物直接泡水),而当lake 在前,重要的“物”为湖,湖在我们的生活经验中的确可以成为主要对象,因此画面往往会让人物显得更小、更融入风景或距离视角更远。masterpiece, 1 girl, lakemasterpiece, lake, 1 girl当“物”的数量大于2,这个规律也依然适用, 1 girl 和lake 和bike 以及earring 之间的排列组合符合上述情况:earring 总是忽略顺序作为次要装饰在人物的耳边,人物、湖、自行车则根据顺序不同而有不同的强调位置,其中bike 即使靠后也往往不会过度隐入lake。masterpiece, 1 girl, lake, bike, earring但更重要的是,运用得当的次要物可以一定程度上打破叠加式顺序结构。因为AI 会努力把所有咒语中的内容都画出来,而次要物们恰好大多数是小块结构。在如第二张图一样的远景中画出让earring 被AI 认为是不可能的,所以它会强行打破叠加式结构,让人物被聚焦到画面相对更前的位置,作为对次要物的强调。masterpiece, lake, earring, bike, 1 girllake 在前,但是效果更接近于想象中lake 在后的情况。在这种强调情况下,甚至1 girl 在前也无法让它显著地再次提高强调。masterpiece, lake, 1 girl, earring, bike无论怎么说,它从原理和实际表现效果都和人有(一点点)相似之处。虽然AI 绘画看上去是一步成型,但它一定程度上还是会根据“物”与“物”之间的关系来决定构图,并结合场景与反常情况无视部分顺序。其中“物1、2、3...”是逻辑上能轻易成为主要聚焦点、占据大画面比率的物件,“次要物”则反之。物按照希望的构图主次顺序排列,而将次要物顺序放在其附着对象之后是为了结构简洁明确,也是为了避免超出预期的反常强调。“次要物”往往都具有能以各种存在形式附着于多种主要物件之上的特性,因此单个主要物的多个次要物按顺序集群排列,有助于避免相对重要的次要物错误绑定的情况。归根结底,这就是训练集“不平衡”造成的,除非自行训练,不然很难避免这种情况的产生当然了,再往后我们甚至就可以推导出NAI1.0训练的时候提示词大致的顺序了,这再很多其他模型上是并不适用的,《元素同典》之前是编辑再nai1的时代,很多东西都是围绕nai1这一个模型来研究的。是结束也是开始以上内容显然也不是一切的答案,毕竟它标志的是入门而不是大成——本魔导书所详细解释的一切内容都是入门级内容。它更像是对于如何理解AI 运作方式的思考帮助,而不是能无脑解决所有难题的万用工具,实际操作依然需要更多经验总结来灵活变通。但仅仅是入门也许并不能满足某些有着雄心壮志、求知欲强的赛博魔法师。赛博魔法似乎无法被穷尽,该如何再次启程呢?这里不作过多展开,仅留下一些思考线索:长咏唱能绑定元素,但为什么它的不稳定度反而比其它咏唱方式还高?分步绘画的画面在分步前后之间有什么关系?为什么分布绘画能一定程度上“识别”从何处替换物?每1 step 在不同完成度下对于AI 而言到底意味着多大的变化?不同种子同咒语的镜头为何在绝对意义上频频产生混乱?叠加式构图中“叠加”的根源是什么?当一个prompt 含有多个元素意义时,AI 会如何对颜色、形状等分别处理?为什么超高步数可以修手?为什么修手一定要那么高的步数?权重到底意味着什么?数量?画面占比?结构复杂度?重复输入prompt 到底意味着什么?单个单词也会被拆分吗?......魔法的殿堂恢宏而瑰丽,无尽的回廊里昭示着无限的可能性。朝更远处进发吧。♿ 蚌埠感言♿非常感谢各位的观看,但是非常感谢,总之非常感谢。前面忘了,中间忘了,后面忘了。一开始这本魔导书是一位可爱JK的个人经验集,但后来又不知道怎么回事莫名其妙变成了为新人提供从入门到精通的一条路径。又更后来,笔者仔细想了想,世界之大无奇不有,五花八门的技巧总会迭代,我们何德何能敢说读完这一本就算精通啊?所以就变成了从麻瓜到入门()安装、第一句话、注意事项、技巧补充、公式总结,一切都是那么水到渠成。有许多技术都是随着本魔导书的编写一同被研究而出的,就比如标准顺序公式、分步描绘应用和通用顺序公式。当时笔者还在群内说,通用顺序公式就是入门时期的最强武器了,写完通用顺序公式就结束吧,这个阶段也没什么可写的啦——结果,就在2022 年11 月2 日晚上20 点左右,笔者为这魔导书编写感言的时候,关于emoji 的认知出现了。这确确实实是打乱了一切,我们都绷不住了。紧急加章之后,在“啊差不多得了,这个世界还是毁灭了算了吧”这样的想法之下,我们为这本确实不完全科学的魔导书重新写下了另一版感言——也就是你现在正读到的这一版。😅 抱歉,流汗黄豆请不要出现,我们讨厌你。总之,这本魔导书在这里也算是完结了,感谢所有在编写过程中支持笔者的大家。我们下一本典(也许没有)再见!当然,某种超自然神秘的力量促使我在2年之后的2024重写这一样一本AI绘画提示词的入门文档。那可能是法典组所践行的,“开拓”的意志吧
14
2
在线FLUX出图 到本地修图放大全流程讲解

在线FLUX出图 到本地修图放大全流程讲解

15
8
【吐司创造营】第一期第一课:从0开始成为提示词高手!

【吐司创造营】第一期第一课:从0开始成为提示词高手!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Ux421y7ydAI现状分析与发展从0开始成为提示词高手
11
个人所有模型说明

个人所有模型说明

提前说明:Anything系列模型现已全部使用FairAIPublicLicense1.0-SD进行开源。本人的任何模型及衍生模型,禁止转载LiblibAI&ShakkerAI。若不同意此条内容,请立即删除您存储设备内本人的任何模型以及衍生模型。许可协议:本人所有模型(除特殊说明/继承原模型许可证之外)全部使用FairAIPublicLicense1.0-SD开源,关键点:修改共享:如果您修改模型,您必须共享您的更改和原始许可证(任何衍生模型必须同样使用FairAIPublicLicense1.0-SD开源)。源代码可访问性:如果您的修改版本是网络可访问的,请至少提供一种方法(如下载链接)让其他人获得源代码。这也适用于衍生模型。分发条款:任何分发都必须在本许可证或其他类似规则下进行。合规性:必须在30天内解决不合规问题,以避免许可证终止,强调透明度和遵守开源价值观。选择此许可证的原因是其中部分模型使用了此开源许可的,并且即使不存在以上内容我自己也会选择此许可证。它保护了贡献者和用户,鼓励建立一个协作的、合乎道德的开源社区。这确保了该模式不仅受益于社区投入,而且尊重开源开发自由。此外针对国内社区增加的额外注意事项:使用本人任意(除特殊说明/继承原模型许可证之外)的模型以及任何本人模型的衍生模型,制作任何可在线运行的Comfy workflow或者吐司AItools等,请至少提供一种方法让其他人能够查看或者获得此工作流,这也适用于衍生模型。免责声明:模型生成的所有图像均为用户自行生成,模型开发者无法控制用户生成图像的行为。对于可能涉及侵权或不安全的图像,模型作者将不承担任何责任。模型的使用应遵循与其他模型相同的原则,但用户必须遵守所在地区的法律法规(详见第1条,我们不对此负责)。如果用户违反规定使用模型,对我们造成负面影响,用户有责任消除这种负面影响。作者团队及本人不承担任何因非本人转载或分发模型而产生的任何后果。如果因此给我们造成损失,我们保留向转载者追究责任的权利。不建议使用:对于以下几类人群,我们不建议使用此模型,我们对此表示遗憾:无法容忍原始艺术风格/角色特征有任何偏差的人,即使是最微小的细节。面临对艺术风格/角色特征再现准确性要求极高的应用场景的人。无法接受基于Stable Diffusion算法的AI生成图像可能存在的随机性的人士。无法接受使用全自动化流程进行LoRA模型训练的的人,或者那些认为为了保持原始艺术视野的完整性,艺术风格训练必须完全通过手动操作来完成的人士。认为生成的图像内容冒犯了他们价值观的人。认为AI生图技术和自动训练技术是不尊重他们的人
10
2
IC-Light摄影级打光基础版

IC-Light摄影级打光基础版

AI小工具H5:https://tusi.cn/template/run/727505466401305687?source_id=601113246111368709AI小工具链接:https://tusi.cn/template/727505466401305687git仓库: lllyasviel/IC-Light: Morerelighting!(github.com)说明文档:ControlNet作者新作IC-Light:给图片重打光!-知乎(zhihu.com)实现以上工作流所需的Comfy插件:https://github.com/kijai/ComfyUI-IC-Light以上工作流是IC-Light最基础的实现方式,对于绝大部分图片打光的需求来说已经足够了如何搭建类似工具:搭建类似的工作流可以查看以下教程文档:如何DIY模板小工具
10
1
模型理论科普·第二辑

模型理论科普·第二辑

本文仅为科普、纠错、说明,并非研究性/新技术的讲解如有理论错误,欢迎联系修改。本文中所有资料均可被自由引用。最终解释权归 錾制千秋yuno779 所有。推荐阅读文档和视频:Finetune&LoRA&LyCORIS潜工具书:Stable Diffusion 潜工具书(中文最全文档)1.  融合模型是不是都是垃圾?首先可以明确的说:融合模型并不都是垃圾,只是有些人融合出的模型,确实垃圾。首先,融合模型是相当简单直接的一个事,你只需要webui整合包然后动动手指点点鼠标就可以了,搞的人多了自然而然的垃圾就多。现在无论是哪个平台绝大部分模型都是融合的,所有很多人对于融合模型是什么感知并不是很明显。具体自行尝试就可以了,以及还有一个插件叫“SuperMerge”也是很好用的。有问题的是有一部分人将一个现有的模型融了0.05的其他模型这种“冰红茶滴尿”的行为,这种有的时候因为原模型质量好且只融了0.05,模型其实也不差,但是我们依旧会称这个模型是垃圾模型。还有一部分人,将一些练的比较差的LoRA融到模型里,导致了模型出图烂,有些时候会出现细节爆炸的情况。这些模型使用还是用于训练,都是很痛苦的。见得多了就会有刻板印象认为融了LoRA的模型都是垃圾,但并不是说融了LoRA的模型质量都很差。使用LoRA/LyCORIS去炼底模是相当常见的,Kohaku V3/4/5、Kohaku XLdelta、SDAS A3.33等这些模型都是用这样搞得。另外,绝大部分模型的融合配方其实都保存在了模型里,一查便知这融了什么模型。当然有些操作可以将其删除或者更改,不过除了metadata这种直接的方式查看模型的成分之外,还有其他方法可以找到这个模型的融合配方,麻烦一点而已。下面是GhostXL的模型融合元数据:有的人总是标榜自己是什么模型大师什么名校毕业,然后随便融合出来一个模型说这是我自己做的新的模型,并且还不标注融合配方,或者标榜自己的模型有多高的热度多么的nb。融合模型其实是非常棒的,你可以循序渐进的调整出自己想要的东西,不管是画风还是人物,但是请你再介绍自己融合的模型的时候,留下原模型的名字或作者来表示对他人的尊重。2. LoRA适配性越高模型质量越好?● 模型训练在数学上是怎么讲解的一个很简单的模型:(看不懂回去读高中)F(X)=WX+B从F(X)为基础训练一个g(X)=W'X+B,只改变上面的W,W→W'这个过程就是微调● 而LoRA/LyCORIS可以这样解释同样是考虑W→W',我们可以将其看成g(X)=WX+B+(W'-W)X,也就是g(X)=F(X)+(W'-W)X,相当于说微调就是在F(X)的基础上,额外加上一个h(X)=△W(X),其中△W=(W'-W)如果你的模型很大,这就意味着你的h(X)也很大,代表你需要使用更多的资源去微调你的模型,代表你的显卡可能装不下,最开始炼制SDXL使用3090/4090的24G都可以吃满,这个时候我们就不想要花这么大的力气去处理h(X),模型很大那么△W自然也会很大,因为矩阵是相同形状的,但是实际上很多时候我们并不需要这么大的△W。而LoRA(提供精简版的△W),LyCORIS(各种不同的方式去模拟一个△W),就是用更少的参数量去产生一个h(X)。(也就是PEFT)。本质上LoRA和LyCORIS就是微调,他们做的事情是一样的。在这个前提下,自然就没有“CKPT模型是画板,LoRA是画笔”这个说法● LoRA通用性越高越好?(错误)而LoRA适配性是只有在“模型都有同一个爹”(模型本身差别小)的基础上才会去讨论的。因为LoRA/LyCORIS的使用可以看作:g(X)=WX+B+(W'-W)X而这个W就是原本的模型。当这个W改变时(变成N),那么我所达到的效果就会变成这样:g'(X)=NX+B+(W'-W)X这个时候我们还想达到原来完全相同的效果就成了:g(X)=WX+B+(W'-W)X+(W-N)X这样这两个我们如果混用LoRA,那么始终就有有一个(W-N)X的差别g(X)-g'(X)=(W-N)X如果模型本身差别都很小(比如模型都有同一个爹),那么(W-N)X这一点差别是可以忽略不计的;如果模型本身差距足够大(例如:SDXL的二次元不同派系模型大都是从SDXL1.0基底直接训练的;SD1.5的ink_base和novelAi这些不同的从SD1.5本体直接练的模型),那么这个(W-N)X足够大,混用LoRA就会造成生成图扭曲甚至崩图的情况。总结下来就是LoRA的适配性(通用性)和模型的质量毫无任何关系那么我们有的时候需要使用别人已经训练好的LoRA的时候应该怎么办呢?首先如果你使用的是非常常见的CHECKPOINT模型我们可以直接拿对应模型的LoRA,一些人训练的时候会区分不同的版本。那如果并不是使用的常见的CHECKPOINT模型,那我们就要给这个模型溯源找近亲。比如你使用的CHECKPOINT模型是从KohakuXL上训练来的,那么这个时候(W-N)X足够小,混用LoRA对于本身的影响并不是很大,这个时候就混用影响并不是很大。当然二次元方面你也可以使用SD1.5的模型,SD1.5的二次元模型大致上只有Nai一个派系。这些模型的LoRA大都可以混用,因为这些模型都有一个共同的爹(NovelAI V1)当然了,有一部分人在SD1.5时期玩的多了,就根据片面的现象草草的认为LoRA泛用性跟模型质量有关。这其实是错误的,模型可以泛用其实是“附加题”,跟模型本身质量是没关系的。3.  模型越大越好?(junkdata!)老生常谈的问题,看下面秋叶的文章就知道了。当然了,下面举例不想看直接左侧目录跳转下一部分就行了。【AI绘画】模型修剪教程:8G模型顶级精细?全是垃圾!嘲笑他人命运,尊重他人命运 - 哔哩哔哩 (bilibili.com)这里举个例子,我把这个模型拆开后直接拿出了没用的键值:None-Bayonetta:embedding_manager.embedder.transformer.text_model.encoder.layers.0.layer_norm2.bias [768] embedding_manager.embedder.transformer.text_model.encoder.layers.0.layer_norm2.weight [768] embedding_manager.embedder.transformer.text_model.encoder.layers.0.mlp.fc1.bias [3072] embedding_manager.embedder.transformer.text_model.encoder.layers.0.mlp.fc1.weight [3072,768] embedding_manager.embedder.transformer.text_model.encoder.layers.0.mlp.fc2.bias [768] embedding_manager.embedder.transformer.text_model.encoder.layers.0.mlp.fc2.weight [768,3072] ……………… ………………(完整的垃圾数据在https://docs.qq.com/doc/p/048272b6f332c5dfb03d35a723d0bae5ae585426,受限于篇幅原因不写了)4. 模型prompt写法是不同的总有人在使用SDXL模型的时候继续沿用SD1.5的习惯格式而不用模型卡的推荐设置,这会导致出图达不到预期。当然出图达不到预期这只是现象,这实际上只是模型作者在训练的时候使用的标注格式不同。比如kohakuXL就是使用的如下:1girl,  klee, genshin impact,  XXXXX,  cabbie hat, twintails, coat, watermark, sidelocks, sparkle background, red coat, long hair, bag, hair between eyes, backpack, pointy ears, pocket, clover, hat, holding, sparkle, chibi, red headwear, low twintails, brown gloves, sparkling eyes, gloves, simple background, light brown hair, hat feather, four-leaf clover, artist name, ahoge, feathers, solo, sparkling aura, hat ornament, orange eyes, food in mouth, clover print, white feathers, long sleeves, +_+, masterpiece, newest, absurdres, safe那么我在使用其他的tag格式的时候,出图就很难达到预期(有些效果出不来,有些效果乱出)。下面是另外两个模型的tag格式。5.  有些东西压根就不是过拟合!(错误言论)1girl出好图出角色就是过拟合等一系列跟“污染”“过拟合”有关的论点→污染是现象,但是大多数时候是来自于“欠拟合”或者低品质资料集(该分清楚的标没分清楚)→实际上很少有练到过拟合的模型,大部分人对过拟合的标准低估了大部分人看到的可能是灾难性遗忘等,模型本来会的被搞到不会了,过拟合一般来说是出完全一模一样复制出来的图。例如下面这个图就是过拟合的(图片来源:2024-02-24直播錄播[Finetune/LoRA/LyCORIS]_哔哩哔哩_bilibili)左:生成的图      中:原图      右:原图过VAE另外差异炼丹过程中,虽然也要炼成出原图,但是模型拟合的目的就是自己,因此不能称为过拟合。● 1girl出好图首先1girl出好图也并不能直接说明模型的质量就很烂。这个说法的出现是因为在很久之前是因为曾有大量模型提示词是几乎没有什么效果并且会乱加不相干的景物细节(写负面提示词都无法去除),生成的图跟在这些模型输入1girl抽卡差不多。而这些模型普遍的特征就是1girl能出比较完善的图,所以有人就通过现象来总结得出结论“1girl出好图的模型十有八九质量都很烂”
10
模型理论科普·第一辑

模型理论科普·第一辑

本文仅为科普说明,并非研究性/新技术的讲解如有理论错误,欢迎联系修改。本文中所有资料均可被自由引用。最终解释权归作者 所有。特别鸣谢:元素法典作者群/秋叶甜品店潜工具书:Stable Diffusion 潜工具书(中文最全文档)部分引用资料:stable-diffusion-webui-model-toolkit/README.mdSkip/Reset CLIP position_ids FIX (rentry.org)【腾讯文档】元素同典:确实不完全科学的魔导书一、 使用工具修复/检查模型所使用的工具的下载和安装这里模型常用的模型检测与处理工具为:Clip check tensors/model toolkit/model converter注意:部分插件仅能对于SD1.5的模型使用,SDXL无法使用1. 工具下载这3个插件都不是web-ui自带的,所以需要先安装,以下是安装步骤。Clip check tensors:iiiytn1k/sd-webui-check-tensors (github.com)model toolkit:arenasys/stable-diffusion-webui-model-toolkitmodel converter(模型格式转换)Akegarasu/sd-webui-model-convertera.使用webUI直接安装将网址打开后的链接直接填入WebUI插件下载区,等待自动加载完毕即可b.压缩包下载【PS:请在任何其他手段均无法下载时使用此方法,极不推荐使用】github界面点击【Download ZIP】完整解压后放在扩展文件夹:你的WebUI所在文件夹/extensions能在顶部栏看到即为安装成功(这里是Kitchen theme折叠了一部分顶部栏)2. 功能介绍CLIP tensors checker用于查询偏移的Clipmodel toolkit用于修复损坏的Clip,导出/更换模型的Unet/VAE/Clip等model converter转换模型格式、修复clip、压缩模型二、 模型问题这部分为模型理论知识以及常见的模型问题有关Stable Diffusion的部分基本原理可以查看:【AI绘画】大魔导书:AI 是如何绘画的?Stable Diffusion 原理全解(一) - 哔哩哔哩 (bilibili.com)有能力的也可以查看生肉文章:What are Diffusion Models? | Lil'Log (lilianweng.github.io)这里只讲解通俗易懂的模型相关的内容,所以这里不会摆出一大堆晦涩难懂的“基础知识”来唬人或者是撑篇幅。3. 【基础】模型三大件:clip、unet、VAETextEncoder(Clip):会把tag转化成U-net网络能理解embedding形式【简单的说就是将“人话”转换成AI能够理解的语言】U-net:对随机种子生成的噪声图进行引导,来指导去噪的方向,找出需要改变的地方并给出改变的数据【简单的说就是死盯着乱码图片,看他像什么】VAE:AI原本的生成图不是人能看的正常图片,VAE的作用就是把AI的这部分输出转化为人能够看的图片。【简单的说就是把AI输出翻译成人能看到的图片】模型问题修复前后对比(上面是修复后的)4. VAE问题a.VAE问题的原因模型输出图发灰说明这个模型的VAE出现问题了,常见于融合模型中。不同VAE之间的任何Merge都会导致VAE中的某些东西被破坏。并且很多融合的模型再拿去融合,那么VAE就会跟着破坏。这就是为什么很多模型输出图是灰色的,以及人们热衷于单独使用加外置VAE的原因。遇到这种情况,一般而言需要修复VAE才能使得模型正常使用。不过web UI提供了外置VAE的选项,可以在生成时忽略模型的VAE而使用外置VAE替代。例如这种图就是典型的VAE损坏b.更换模型VAE更换/使用其他VAE并非很好的解决方案,部分模型在更换VAE后会出现输出图模糊或者线条混乱的情况。不过不能更换其他VAE并非不能使用原本模型的VAE,Merge模型可以使用原本合并之前的模型VAE,这样效果上就不会出现各种各样的问题。c.VAE重复VAE重复:有的人喜欢自己重命名一些现有的VAE,然后把这个VAE当作自己模型的VAE来使用,这就造成了下载了很多VAE,但是一检查哈希发现都是一模一样的。下面是我这里所有的VAE的哈希对照:d.常见误区/错误说法【1】“VAE没有注入到模型里,可以自由选用想用的VAE”"VAE是加滤镜的" "VAE可有可无"这种说法都是错误的【2】VAE颜色深度排序相关的内容同样的不科学的,例如什么“NAI的VAE颜色最浅、840000VAE的颜色最深”之类的。随意更换VAE会影响输出图,部分模型的输出模糊或者线条爆炸就是因为这样产生的。使用没有问题的外置VAE发现输出图发灰那是模型本身的问题,与VAE无关。【3】VAE的作用并非纠正色调或者是“模型滤镜”5. clip损坏a.clip偏移通常意义上的clip损坏指代clip出现偏移,类似于下面这种这些东西的是一个 值从 0 到 76int64 张量,模型Merge会将这些张量转换为浮点数并引入错误数值。例如在 AnythingV3 中,值 76 变为 75.9975,当由 webui 加载时该值被转换回 int64结果为 就变成了75。(所以上面这张图其实只有值41会影响模型的正常使用,在toolkit上只显示了会影响模型正常使用的clip值,这也是两个检测工具输出不同的原因)b.clip偏移的影响clip偏移会影响模型对于对应位置的token语义的理解,详情可以查看早期“微笑测试”实验(下面的链接),这里引用部分实验内容。测试参数如下:seed是固定的、clip skip=1、eta=0smile sleepy girl standing bearSteps: 40, Sampler: Euler a, CFG scale: 7.5, Seed: 651296271, Face restoration: CodeFormer, Size: 512x512我们对其修改如下:1-0:tensor([[ 0,0,2,3,4,5 …2-0:tensor([[ 0,1,0,3,4,5 …3-0:tensor([[ 0,1,2,0,4,5 …3-1:tensor([[ 0,1,2,1,4,5 …顶部是常规的8528d-fix,smile被忽略。keychange_8528dfix是修复后的, smile又回来了。3. break_1-0 smile再次消失4. break_2-0 sleepy没有体现5. break_3-0 girl不见了,变成了熊。6. break_3-1 girl部分的值为1, 女孩没有消失,1的笑容也没有消失。 break_3-1 结果比较难以分辨【更详细的测试在链接指向的文章】引用自:[調査] Smile Test: Elysium_Anime_V3 問題を調べる #3|bbcmc (note.com)当然了,详情也可以查看下面链接的文章简单说明/修复:Skip/Reset CLIP position_ids FIX (rentry.org)很久之前有人通过裁剪FP16的方式“修复”clip,不过现在使用toolkit等插件可以很轻松的修复clip。6. junk dataa.垃圾(无效)数据的产生模型融合经常会出现很多webui在跑图过程中实际用不上的junk data,模型里只有固定的那些内容才能够被加载,多出的全是垃圾数据。很多的融合模型都带有这么一堆的垃圾数据,并且很多人总是认为这些junk data删掉会影响模型本身而不去删除。【1】其中影响最大的是模型EMA:模型在Merge后EMA将不再准确反映UNET,这种情况下EMA不止没啥用,还会影响模型的训练。如果你希望大家能有效的使用EMA,那么请使用训练模型。(融合模型前建议先把模型的EMA全部删掉,因为只要是Merge模型,那么EMA就可以等同于垃圾数据)【2】部分将LoRA注入到ckp大模型中的操作会产生一部分无效数据【3】其他不知道哪来的无法使用的数据(原因有很多,不展开讲,真要塞我甚至可以在模型里塞一个原神)比如有10G多Junk data的传世经典17G模型:b.模型一般大小一般模型大小为1.98Gb和3.97Gb有的为7.17G,除非模型各部分精度不同造成的其他模型大小之外,一般而言奇怪大小的模型都会或多或少的存在junk data。此外,noVAE模型的大小为1.8G左右,noVAE&clip的模型为1.6G7. 无效精度a.实际使用更高的精度是没意义的默认情况下,webui 会将所有加载的模型转换为FP16使用。所以很多时候更高的精度是没啥意义的,不使用--no-half这些模型将完全相同。而实际上哪怕使用--no-half,模型的差别也并不会很大。很多人对精度本身是没有什么认知的,普遍的直觉是"单精到半精的性能损失是线性的",即一半精度,性能为原本的一半,但在SD推理上事实上的差别是非常小的。不看标题你能分辨出哪个效果好哪个效果差吗,不叠图的话啥什么都看不出来↓FP32与FP16的叠图对比:https://imgsli.com/MTgwOTk2b.作妖的float64一般而言最常见的是旧版本SuperMerge插件整出来的问题(新版本已修复)。通过检测发现,在一个3.5GB的“FP16”模型里面混又有不少float64的weight,导致了模型出现奇怪的大小。早些时候的toolkit会存在bug无法处理这些float64的weight,更新最新版本后应该解决了这一问题
12
【SD潜工具书②】模型or干什么 | 模型、还有工作流等

【SD潜工具书②】模型or干什么 | 模型、还有工作流等

5. 加速优化| 提高你生图的效率与质量!- Stable Diffusion XL优化终极指南a. TensorRT 【特别推荐】NVIDIA官方发布的Stable Diffusion Web UI 的TensorRT 加速插件,可将GeForce RTX 性能提升至高达2倍(实测在文档作者本人的设备上提升3倍左右,下图是在作者本人设备上跑SDXL的大图的速度),TensorRT能大幅提升SD图像的生成速度,且完全不损失质量,目前TensorRT已经支持LoRA和ControlNet。- 使用教程:在Webui上使用TensorRT(教程已经过时,很多东西现在都可以自定义了)- git仓库:AUTOMATIC1111/stable-diffusion-webui-tensorrt- 网站:TensorRT SDK 开发工具包- 安装教程:Tensorrt安装及使用- 环境安装包:SD_webUI_Trt安装环境包.7z(PS:文档作者的TRT一键体验包正在绝赞内测中,如果你需要Python的地方就一个AI绘画且没有使用秋叶包,那么可以试一试)如果有能力安装TensorRT那都推荐去尝试一下(后续我在笔记本上幻16星空版4090 也装了一个发现提升并不是很大,但是也有1.5倍以上的加速,当然这可能是我自己这的原因)。如果没能力自行安装并且跑起来,那就别尝试了,你问别人不会得到除卸载以外的任何答案。b. 其他加速算法● LCM- LCM论文:[2310.04378]- LCM Lora论文:[2311.05556]- LCM官网:Latent Consistency Models:- LCM git仓库:luosiallen/latent-consistency-model● SDXL Turbo- 官网:Introducing SDXL Turbo- HF链接stabilityai/sdxl-turbo- 试用:Clipdrop - SDXL Turbo● SDXL Lighting- ByteDance/SDXL-Lightning● Trajectory Consistency Distillation根据论文说法,TCD 在质量和速度方面都提供了卓越的结果,超越了LCM。相比LCM,TCD 在高NFE 下保持卓越的生成质量,甚至超过了使用原始SDXL 的DPM-Solver++(2S) 的性能(秋叶测试:没比LCM 强什么)。- 论文:[2402.19159]TCD LoRa:该LoRA 需配合TCD 采样器使用,目前还没有在几个UI 内实现。- TCD SD1.5 LoRa:h1t/TCD-SD15-LoRA- TCD SDXL LoRa:h1t/TCD-SDXL-LoRA● OneFlow- 说明文档:刷新AI作图速度,最快开源Stable Diffusion出炉- 源码解析:OneFlow源码解析:Global Tensor- 源码:Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.- diffusers:GitHub - Oneflow-Inc/diffusers● Hyper-SD字节跳动宣布推出Hyper-SD 一步蒸馏SD,支持SD1.5和SDXL。(高级版本的TCD蒸馏,也支持SD1.5版本,有LoRA可以直接用,最少一步。)- 网页:Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis- 论文:[2404.13686] Hyper-SD- HF:ByteDance/Hyper-SD- T2I Demo:Hyper SDXL 1Step T2I- Scribble Demo:Hyper SD15 Scribble- Webui可用:青龙圣者的动态c. IC-LightIC-Light的全称是“Imposing Consistent Light”,它可以给输入的图像重打光。目前IC-Light支持两种方式:基于文本引导和基于背景图来引导。- git:lllyasviel/IC-Light: More relighting!- 说明文档:ControlNet作者新作IC-Light:给图片重打光!- Comfy:ComfyUI-IC-Light/README.md at main · kijai/ComfyUI-IC-Lightd. ELLA是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提示时的语义对齐能力。现有的扩散模型通常依赖于CLIP作为文本编码器,在处理包含多个对象、详细属性和复杂关系等信息的长文本提示时存在局限性。因此,研究团队提出了ELLA,使用一个时序感知语义连接器(TSC)来动态提取预训练LLM中的时序依赖条件,从而提高了模型解释复杂提示的能力。- 主页:ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment- 代码:GitHub - TencentQQGYLab/ELLA: ELLA- 论文:[2403.05135] ELLA- Comfy节点:GitHub - ExponentialML/ComfyUI_ELLA- 模型:QQGYLab/ELLA at main- T5模型:google/flan-t5-xl at maine. HidiffusionHidiffusion是字节跳动和旷视推出的一个调整框架,由分辨率感知U-Net (RAU-Net) 和改进的移位窗口多头自注意力(MSW-MSA) 组成,Hidiff使预训练的t2i扩散模型能够有效地生成超过训练图像分辨率的高分辨率图像.- 网站:HiDiffusion- 论文:[2311.17528] HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models- 代码:megvii-research/HiDiffusion - Colab demo:hidiffusion_demo.ipynb- comfy节点:florestefano1975/ComfyUI-HiDiffusion6. 模型合集| 都整理好了,在这里提示:不建议使用一部分国内的AI模型站(LibLibAI、海艺AI),其中曾出现过例如“霸王条款事件”(了解过自然知道,不了解的我也懒得说)等众多离谱操作,如有能力还是尽可能使用Civitai和hf。a. 不推荐的模型正常模型整个几块钱十几二十几的块钱的下载赚点辛苦费也就算了,平台上挂个会员下载也没啥可说的。种大几百的模型纯属智商税,这插件丢人都丢到国外去了。挂羊头卖狗肉的纯噱头模型↑。总之,除此之外类似性质的模型还有很多,注意分辨,不建议使用。b. 综合模型社区● Modelscopehttps://modelscope.cn/● 抱脸(hugging face)应该是最大的AI交流站,内有部分sd模型- Hugging Face – The AI community building the future.c. Stable diffusion AI绘画模型站● Civitai也就是常说的C站,使用最为方便,绝大部分模型都是从这里发布的。至少这里不是每个模型不管质量就只能说好,垃圾模型或离谱言论也会被人指出。(上不去别多问,不知道为什么就去tusi的C站镜像)- civitai● AITool模型交流站上不去Civitai和Huggingface的可以使用这个网站,比较方便。- AiTool.ai - Explore the world of AI● 吐司AI国内新晋AI模型站,因其方便免费的生成图功能等而广受好评(我推荐是因为这网站没搞过离谱操作)。特色是具有功能比较全的在线文生图功能。- 吐司Tusi.cnd. 其他模型站/合集● TI模型站远古时期的ti模型站,主要分享ti模型为主,现状用处已经不是很大了- Stable Diffusion Textual Inversion Embeddings● 臭站国内社群制作的Stable diffusion资源站,内容比较多但是目前似乎缺乏更新- 主页| SD - WebUI 资源站● Stable Diffusion Models- Stable Diffusion Models ● 建筑模型共享文档- AI辅助设计-SD模型共享文档7.  模型相关| 我们保留了一点点垃圾数据LyCORIS是项目名称,这里面包括LoCon、LoHa、LoKr 等(这些是算法名称),这些不同算法出来的模型可以叫LoCon模型、LoHa模型、LoKr模型……,请不要将其混为一谈。a. 推荐的好模型/不推荐的热门模型推荐模型和不推荐模型懒得说了,垃圾模型更新太快不可能全都列举,大部分垃圾模型灾难性遗忘相当严重,比如墨幽人造人几乎只会出同一张脸。很多都是老生常谈的问题,但很多人还是把一堆答辩奉为圭臬。建议放下助人情节,嘲笑他人命运。b. 模型基础● 模型基础理论V2.0从原理和模型结构上详解了模型的一些基本的东西,有助于帮助大家分别好模型和不好的模型。以及帮助大家自己制造比较好的模型。模型为啥推荐为啥不推荐,在这个文章都有答案。- 模型理论科普V2.0.0627- Model basis theory | Civitai● clip与提示词的测试&clip修复微笑测试:- [調査] Smile Test: Elysium_Anime_V3 問題を調べる #1- [調査] Smile Test: Elysium_Anime_V3 問題を調べる #2- [調査] Smile Test: Elysium_Anime_V3 問題を調べる #3clip修复:- Skip/Reset CLIP position_ids FIXc. 并不科学的Model Block Merge注意,MBW相关内容请不要无脑的认为那一层是画什么的,现有的这一部分理论都是有限实践测试的内容,仅在部分条件下通用。- Merge Block Weightedを使ってモデル合成をする方法|フェイさん- [実験レポ] Model Block Merge で、 U-Net の各レイヤーの影響を調べる- What is Block merging? (rentry.org)- Merge Block Weight 魔法密录1.0正式版mbw相关git地址- MBW Gui:bbc-mc/sdweb-merge-block-weighted-gui- SuperMerger:hako-mikan/sd-webui-supermergerlbw(LoRA Block Weight)- 使用方法:炜哥的AI学习笔记——Lora-Block-Weight 插件- git仓库(内含一些内容,希望看完redme.md)hako-mikan/sd-webui-lora-block-weightd. 从扩散模型中删除概念可以删除模型中的某些概念,且对于模型其他部分的影响较小。- 项目网站:Erasing Concepts from Diffusion Models- 相关论文:[2303.07345] Erasing Concepts from Diffusion Models- git仓库:rohitgandikota/erasing: Erasing Concepts from Diffusion ModelsUCE概念编辑:- 项目网站:Unified Concept Editing in Diffusion Models- 相关论文:[2308.14761] Unified Concept Editing in Diffusion Models- git仓库:rohitgandikota/unified-concept-editingg. 生态互通SD1.5的controlnet和lora等都可以无缝迁移到XL模型上,目前使用的是@Kijaidesign做的插件,项目地址:- https://github.com/kijai/ComfyUI-Diffusers-X-Adapter8. 训练相关| 人人都可以炼丹,这太酷了不建议使用使用任何所谓打着“降低炼丹门槛”名号,但是参数为固定预设值的一键炼丹炉,除非你想批量制造垃圾!a. 相关链接Finetune/LoRA/LyCORIS 差异详解重新理解模型训练- 2024-02-24直播錄播[Finetune/LoRA/LyCORIS]本文档作者制作的部分内容整理:- Finetune&LoRA&LyCORIS- Dreambooth网站:DreamBooth- Dreambooth论文:[2208.12242] DreamBooth- Dreambooth插件:d8ahazard/sd_dreambooth_extension - Lora论文:[2106.09685] LoRA: Low-Rank Adaptation of Large Language Models- Lora论文解读①:爆火的stable-diffusion微调方法lora论文逐段精读- Lora论文解读②:LoRA(下):爆火的stable-diffusion模型微调方法- 附加:【论文串读】Stable Diffusion模型微调方法串读- TI论文:[2208.01618] An Image is Worth One Word- TI git仓库:rinongal/textual_inversion - DreamArtist论文:[2211.11337] DreamArtist- DreamArtist git仓库IrisRainbowNeko/DreamArtist-stable-diffusionb. 模型训练前置相关前置知识By:秋葉aaaki- 【AI绘画】过拟合、欠拟合是什么意思?AI训练前置知识(二)- 【AI绘画】LoRA训练与正则化的真相:Dreambooth底层原理二次元LoRA模型模型不建议无脑使用AnythingV3/5或AnyLora等模型(在因为某些原因Nai1无法作为训练底模使用的时候,Anything V5可以是很好的替代选择),真实LoRA模型不建议使用墨幽或MajicMix等模型。一般而言是想要在哪个模型上使用这个LoRA就用哪个模型训练。如果追求多模型通用,可以使用SD1.5本体(二次元可以使用NaiV1)c. 推荐UP主&训练教程● 青龙圣者LoRA的详细训练教程推荐查看青龙圣者的视频教程,讲解极为详细- 青龙圣者的个人空间- 青龙圣者的个人空间_合集·AI绘画进阶教程- 【神童优化器!全程自适应训练】最新lora训练教程11● 大江户战士- 大江户战士的个人空间-大江户战士个人主页- 大江户战士的个人空间-合集·AI绘画相关● 一般训练教程- Lora训练入门教程- THE OTHER LoRA TRAINING RENTRY- Hypernetwork training for dummies● kohya_ss/sd-scripts市面上见到的绝大部分教程视频、说明文档等内容,都是围绕这个展开的,git仓库地址:- kohya-ss/sd-scriptssd-scripts的docs中文文档内容- kohya_ss/docs/train_README-zh.md- kohya_ss/docs/train_db_README-zh.md- kohya_ss/docs/train_network_README-zh.md另附:秋叶魔改的LoRA训练器,中文UI界面更直观,并且自带tagger等功能,十分方便。- Akegarasu/lora-scripts社群、交流站的训练教程- Stable Diffusion 训练指南(LyCORIS)……(自己b站找吧,太多了)● HCP-DiffusionHCP这东西你用我推荐,反正我不用。HCP-Diffusion/HCP-Diffusion-Webui的github仓库地址(不推荐使用HCP-Diffusion-WebUI,因为全是bug)- 7eu7d7/HCP-Diffusion: A universal Stable-Diffusion toolbox- 7eu7d7/HCP-Diffusion-webui: webui for HCP-Diffusion相关教程链接:- Welcome to HCP-Diffusion documentation! — HCP-Diffusion 0.1.0 文档d. 数据集● 常用数据集部分常用、经常提到的数据集(更多其他的数据集可以自行去搜索,篇幅原因只放几个常见的):- 原神合集:animelover/genshin-impact-images- Danbooru 2023:nyanko7/danbooru2023- Danbooru 2021:Danbooru2021: A Large-Scale Crowdsourced and Tagged Anime Illustration- NijiJourney数据集:Korakoe/NijiJourney-Prompt-Pairs- NijiJourney-pixivLinaqruf/pixiv-niji-journey- NaiV3整流:shareAI/novelai3HakuBooru:动画风格图像的文本图像数据集生成器,该项目是为了防止过度使用爬虫脚本干爆网站。- KohakuBlueleaf/HakuBooru: text-image dataset maker for anime-style imagesdeepghs:已知游戏角色的数据库。数据库每天刷新一次,托管在huggingface - deepghs/game_characters上。- deepghs/game_characters- GitHub - narugo1992/gchar: Crawler and cleaner of data for novelai embedding's training● 数据集处理- 手动打标GUI:arenasys/sd-tagging-helper数据集预处理包,批量处理图片、标签、过滤等- waterminer/SD-DatasetProcessor: 🛠一站式的图片数据集预处理工具包一个针对单张图片的DanBooru标签精修小程序- Aleiluo/danbooruTagEditor: 针对sd训练的danbooru标签编辑器lax团队针对XL训练研发的开源美学评分与数据清洗工具组,可用于大数据集训练的预处理,美学评分与质量词自动标注- Anime Thetic - a Hugging Face Space by Laxhar● imgutils一个方便和用户友好的动画风格的图像数据处理库,集成了各种先进的动画风格的图像处理模型。- 代码:GitHub - deepghs/imgutils- 文档:Welcome to imgutils’s Documentation — imgutils 0.4.1 documentationf. D3PO- 论文:[2311.13231] Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model - git仓库:yk7333/d3po: Code for the paper "Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model"一个评分模型:这个模型作者正在用来搞一些自动的东西,有时间搞好了大概会发出来:- chikoto/ConvNeXtV2-IllustrationScorer自动炼丹- 全自动番剧数据集:cyber-meow/anime_screenshot_pipeline利用waifuc可以自动获取训练所需数据集:- 工具链接:deepghs/waifuc: Efficient Train Data Collector for Anime Waifu- 说明文档:https://deepghs.github.io/waifuc/main/index.html- C站文档:V1.5 Auto-Waifu-Training IS COMING! | Civitai基于Waifuc自动炼化炼丹的角色模型库:「narugo1992」的C站主页。如果纯新人且没有学习的需求(仅为了跑图)的话,那么有什么想要的角色LoRA模型可以到这里找找,很多时候自己练出来的效果是比不过这种自动化炼丹的。- narugo1992 Creator Profile | CivitaiCyberHarem一键炼丹,自动化训练工具- deepghs/cyberharem:Cyber Harem of All the Waifus in Games,Mua~使用此自动炼丹工具,训练出的模型比绝大部分的手工炼制的模型都要好=DeepGHS=- deepghs (DeepGHS) (huggingface.co)- DeepGHS (github.com)
9
【吐司创造营】特训营第一课:模型训练!你想知道的都在这里!

【吐司创造营】特训营第一课:模型训练!你想知道的都在这里!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1BZ421e7fE概念基本定义:将提供数据、引导机器学习的过程叫做训练,训练得到的结果叫做模型,用模型解决问题的过程叫推理。数据集=图像+文本,图片里蕴含的"像素分布规律",解释这些不同颜色的像素点是如何排列组合形成各种事物的。Embedding:嵌入向量的本质是一串很长的数字序列,每个数字对应一个维度,用于描述某一种向量空间里的特征。向量指一个同时具有大小和方向的量。提示词:分解为token(机器学习里的一个最小语义单位),文本编码器会将token里的含义转换成一组拥有768个维度的词元向量token embeddings,vae变分自编码器把向量转换回肉眼可以分辨的正常图片。生图还原度:将提示词里的各种描述信息转换成了一个个向量然后和训练时掌握的各种规律一一对号入座。训练方法Dreambooth——CheckpointLora——LoraTextual Inversion——Embedding正式训练流程训练集准备:训练集注重的是质量,数量则保持在15 -30张图片以上即可。一个characters 人物角色需要10 到50 张训练图片, styles 某种风格则需要100 到4000 张,某种concepts 概念则需要50 到2000 张。 eg.如果是训练脸部模型,则需要照片的主体区域大部分为人脸,各个角度,多种表情,不同光线下的,清晰的脸部图片。构图简单一些,尽量少一些背景元素对前景人脸的干扰,避免重复高度相似的图像,以避免过拟合。可以适当有一两张全身像。 其他主题也是一样的考虑,训练什么,训练集的图片中的主体就突出什么。围绕不同角度,多进行取材。避免画面中其他元素的干扰。图片预处理:让训练集更符合模型训练本身的规范,即裁剪和打标。  裁剪:SD1.5 最低512*512,SDXL 1024*1024,可以裁剪成长方形,但一定要是64x的倍数。  打标:不是越多越好,机器打标不一定100%准确,模型标签的筛选有一个非常简单好记的原则,需要什么就删除什么(绑定在模型上,不需要输入词就可以生成);触发词不能是通用词语需要是词典里没有的单词,不然会让AI产生混乱。任何你没有标注的内容,就是模型要学习的主要对象的天生内在的独有特征。风格、概念的打标不用太过于细致,调一个相对低的打标阈值。Mixed precision混合精度:no、fp16、bf16 三个选项。此为设置训练期间权重数据的混合精度类型,用以节省CRAM。最初,权重数据是32位的(即在设置为no 情况下)。fp16 是一种精度减半的数据格式,它可以节省大量VRAM (显存)并提高速度,但效果没有bf16 好。bf16 是NVIDIA RTX30 系列显卡以后的版本才有的,是一种用于处理与32 位数据相同的数字宽度的数据格式。如果你的硬件支持bf16,最好选择它。如果VRAM 小于16G 的话,请选择fp16。 Save precision储存精度:float、fp16、bf16三个选项。此为指定要保存到LoRA 文件中的权重数据的精度。float 是32 位,fp16 和bf16 是16 位。 默认值为fp16。同样,bf16 的效果要好于fp16,但需要硬件的支持。如果你想缩小模型的文件尺寸,该选项将起到一定的帮助(如果你通过DreamBooth 或Fine-tuning 方式存储模型文件为Diffusers 格式,则设置该选项无效)。正则化:用于避免图像过拟合的方式(见第二课) 调度器:一般设置为constant 或者constant_with_warmup。 如果下面的Optimizer 优化器设置为Prodigy神童,则Prodigy 在学习率调度器为constant 的设置下可以很好地工作,学习率统一设置为1。如果设置为constant_with_warmup 以配合Prodigy,则需要更多的学习步数。大约10 % 学习率预热LR warmup 时,可能需要一两个额外的epoch 轮数来补偿。 LR warmup (% of steps)滑块:1~100数值选择。此为学习率预热步数,一般以总学习步数的百分比形式出现,即总学习步数的前百分之多少步为逐渐预热期。所谓逐渐预热是指学习率从0直至事先设定的最高学习率的逐渐提高过程(学习率的提高代表着学习速度的提高,即学习得越来越不细腻)。 调度程序中选择了constant_with_warmup 则设置此项,如果你的调度程序不是constant_with_warmup,则可以忽略它。默认为10,即10%。 优化器:决定了AI如何在这个过程里把控学习的方式,直接影响到学习效果。此项默认为AdamW8bit。优化器是确定在训练期间如何更新神经网络权重的设置。LoRA 学习最基础用的是“AdamW”(32位)或“AdamW8bit”(8位)。 AdamW8bit 使用较少的VRAM 并且具有足够的精度,因此如果你不确定哪个更适合,请使用“AdamW8bit” 。另外,融合了Adam方法,根据学习进度适当调整学习率的“Adafactor”也经常被使用(使用Adafactor优化器时,学习率调度设置则被忽略)。 “Lion”是一个相对较新的优化器,尚未得到充分验证,据称AdamW 更好。“SGDNesterov” 学习准确率不错,但速度较慢。DAdaptAdam 是比较稳妥的通用的选择,Prodigy 则是Dadaptation 的升级版,适合在SDXL 的环境,它会随着步数增加寻找最优的学习率,在训练SDXL 的LoRA 模型时选择它可以达到很好的结果。学习率:AI学习这些训练集图片的强度,学习率越高,AI就更能学的进去。(学习率越大学习速度越快但学得也越粗犷,反之越细腻但效率也越低。)过拟合:AI过于紧密或精确的匹配训练用的数据集导致它无法良好地根据新的数据生成新的结果。关于Optimizer 优化器额外的解释和建议Lion 的训练结果经常给人一种很奇特的感觉,比如你要想训练一个有着白色头发的角色,结果训练出来的模型的头发却呈现出了彩虹色的混乱效果,于此同时用其他优化器训练同样的训练集则会得到正确的白色头发效果,这足以证明Lion 可能存在某种不一样的地方,会为模型添加某些独特的元素,但现在尚无人能总结出确切的规律。 Lion 的学习速度相当快;AdaFactor 在训练时需要很长的时间,每训练一步时间都很长。它可能更适合风格或概念类的模型这种需要更多步数的训练;DAdaptation 目前已经被重命名为DAdaptAdam。它是一种自适应的优化器,即它会动态地自动地调整训练中的数值,省去你手动操作繁琐工作。 只要训练集本身没有问题,它通常会让你以最少的时间付出给出非常好的结果。目前为止,它应该算是最好用的优化器了。 DAdaptation 需要特定的参数设置才能起作用: --optimizer_args “de Couple=True” “weight_decay=0.01” “betas=0.9,0.999” 。 Scheduler 调度程序必须设置为constant 常量。 在使用DAdaption 时,很多网上提供的经验显示U-Net 和TE 的学习率似乎最好都是1.0,这个大家可以自己去尝试看看。不过,有一个问题需要注意, DAdaptation 对VRAM 的需求很重。它在batch size 为1 (512x512) 的情况下,使用6.1GB 的VRAM,因此6GB VRAM 用户将无法使用它。 在这种情况下,AdaFactor 可能是一个较好的替代方案。在尝试了各种Alpha 值来对应Dadaptation 之后,似乎Alpha 1 和Alpha 64( Network Rank (Dimension) 为128)。建议将Alpha 的值保持在Network Rank (Dimension) 的1 到一半之间(也就是说Rank 为128,则Alpha 的值设置为1~64。如果Rank 为32,则Alpha 的值设置为1~16);Prodigy 可是被视为DAdaptation 的升级版本,因此它与DAdaptation 一样, DAdaptation 的所有属性和注意事项也同样适用于Prodigy,VRAM 的使用率和训练速度大致也相同,设置也非常相似。同样的,Prodigy 具有自适应能力,可以随时自动调整数值以优化训练,似乎调整起来比Dadaptation 更精准。 Prodigy 可以用于SDXL 的LoRA 训练和LyCORIS 训练。在少量的测试中,我们发现在使用已经训练成功的LoRA 所配套各种参数和训练集的情况下,把DAdaptAdam 替换成Prodigy 可以得到更好的结果,进一步的确认还需要之后大量的训练实验来确定。尽管在之前的很多次训练尝试中,我们已经能够确认DAdaptAdam 是目前为止最好用的优化器,但是这不妨碍它的升级换代产品Prodigy 在未来成为更优秀的优化器的可能性,让我们拭目以待。Prodigy 可以设置如下的optimizer arguments 优化器参数:--optimizer_args “decouple=True” “weight_decay=0.01” “d_coef=2” “use_bias_correction=True” “safeguard_warmup=False” “betas=0.9,0.999”;拟合状态判断Network Rank (Dimension) :1~1024数值选择:LoRA 网络的“秩数”或“维度”(Rank 或DIM)。在LoRA 神经网络中,Rank 可以粗略地指代LoRA 网络的中间层的神经元数目。Rank 常用4~128,不是越大越好。神经元数量越多,可以保留的学习信息越多,但学习到学习目标以外的不必要信息的可能性也会增加。一般设置为64,再高必要性就不大了,超过了128 之后基本不会有什么变化。如果是32,越高的DIM 导致越多的占用VRAM 和越大的模型文件。此项的默认值为8 ;dim越高,要微调的数据量就越多,进而能够容纳更复杂的概念。复杂画风,二次元复杂程度比三次元低。 如何判断rank是否合适需要增加Rank的情况:训练集图片增加(100张以上);训练复杂概念及画风;疑似欠拟合(学不像)需要降低Rank的情况:出现突兀细节;出图效果混乱;疑似过拟合 Network Alpha(alpha for LoRA weight scaling):越接近rank则lora对原模型权重的影响越小,越接近0则lora对权重的微调作用越显著;0.1~1024数值选择。(实际上是1~1024 取值)这一参数的引入是为了防止保存LoRA 时权重四舍五入为0,即下溢。由于LoRA 的特殊结构,神经网络的权重值往往很小,如果变得太小,可能会变得与零无法区分,这与没有学习到任何东西的结果是一样的。 因此,提出了这种方法,以使LoRA 保持较大的权重值。在学习过程中,系统总是以恒定的速率将权重削弱一定的百分比,以使权重适当变小,但是削弱的步伐太激进则会下溢。Network Alpha 则决定了这个“权重削弱率”( weight weakening rate )。 权重削弱率是通过公式“Network_Alpha/Network_Rank”来表达的,值在0 到1 之间。 Network Alpha 值越小, “权重削弱率” 则越小,导致LoRA 神经网络的权重值就会保存越大,训练的LoRA 模型越有创造力。但是太小也不好,当到达了Alpha 的默认值1 时,则会与训练集风格差距太远。如果LoRA 训练学习后的准确率不令人满意,则有可能是权重太小以至于崩溃为0。在这种情况下,可以选择尝试降低Alpha 值,以降低削弱率,从而增加权重值来解决。Alpha 的值应该设置得比Rank 值小,如Rank 的一半(适合训练人物LoRA 模型),即Rank 若为64,Network Alpha 设置为32 ,此时的情况下所使用的权重削弱率为32/64 = 0.5 。如果Network Alpha 和Rank 具有相同的值,则该效果自动关闭。Alpha 不能高于Rank 值,虽然可以指定更高的数字,但很可能会导致意外的LoRA。另外,在设置Network Alpha 时,需要考虑到对LR 的影响。比如,权重削弱率为0.5(设置Alpha 为32,DIM 为64),这意味着实际LR 仅为LR 设置值的一半效果。一般在网络上普遍的建议是Alpha 的值是Rank 的一半,且尽量都为16 的倍数。Enable buckets : “桶”,顾名思义就是“一个桶的容器”。 LoRA 的训练集图像不必具有统一的尺寸,但不同尺寸的图像不能同时进行训练。 因此,在学习之前,需要将图像按照大小分类到不同的“桶”中。尺寸一样图片放在同一个桶中,尺寸不同的图片放在不同的桶中。默认为勾选开启,即系统会自动把不同尺寸的图片放在不同的“桶”中。如果训练集的图像原本尺寸相同,你便可以关闭此选项,但保持打开状态并不会有任何影响;此选项,使得在准备训练集阶段特地将图片尺寸手动剪裁为512*512、或512*768 等等这样的工作变得毫无意义。因为,通过bucket “桶”这个概念可以很好地保留不同尺寸的图像,节省了事先准备的时间,更重要的是保留了图片中应有的细节。 Weights(权重)、Blocks(块)、Conv( Convolutional Neural Network,或CNN,卷积神经网络),这三个子标签是U-Net 中每个块的learning weight 学习权重和Rank 秩的设置。从U-Net 网络结构图中可以看到,U-Net 总共由25 个block “块”(或称为“层”)组成:12个IN 块、1个MID 块和12个OUT 块。这是U-Net 网络的标准结构。如果你想改变每个块的学习率权重,你可以在这里单独设置。选择这三个中的任意一个,下面的设置区域将显示相应设置内容。这些设置适用于高级用户属于更细腻的设置。一般情况下是不需要的,如果你确定了解这些细节,并能对微调这些细节十分了解,再对此区域进行设置。 Blocks: Block dims/Block alphas:在这里,你可以为U-Net 网络的25个块中的每一个设置不同的Rank(DIM)值和Alpha (Network Alpha)值:IN 0~11、MID 和OUT 0~11。(通常Rank 较高的块则可以容纳更多的信息。)此处需要指定25 个数字,即对应U-Net 中的25个块,为每个块都要指定一个数值。但由于LoRA 是将Attention 块作为学习目标的,而Attention 块并不存在于IN0、IN3、IN6、IN9、IN10、IN11、OUT0、IN1 这些块中,因此这25 个数字中的第1、4、7、11、12、14、15 和16 的块在学习过程中将被忽略。尽管如此,你仍需要填写出全部的25 个数字,以“,”半角逗号分割。(确实,此设置的用户界面不够友好,希望以后这个设置能更好用一些)此设置适用于高级用户。 一般情况下,你可以在此处留空。 如果未指定,则Network Rank(DIM)和Network Alpha 处设置的值将应用于所有25个块。 Conv: Conv dims, Conv, alphas:LoRA 针对Attention 注意力块进行训练,Attention 中有一个Conv 卷积神经网络(Convolutional Neural Networks, CNN) ,它也是通过额外的学习进行更新的。 其中使用的“过滤器”的大小是1x1 正方形。另一方面,除了Attention 之外的一些块(Res、Down 块)和OUT 中的一些Attention 块使用的是3x3 “过滤器”进行卷积。 本来这些块并不是LoRA 的默认学习目标,但是通过指定这个参数,Res 块的3x3 卷积也可以作为学习目标。因此,由于学习目标的数量增加了,便可以进行更精确的LoRA 学习。设置方法,同之前的Blocks: Blocks dims, Blocks alphas ,也需要设置25 个值,以“,”半角逗号分割。同样,此设置适用于高级用户。 一般情况下,你可以在此处留空。如果未设置,则Conv 不进行学习。 Clip skip :0~12 数值。Stable Diffusion 使用“CLIP” 来进行提示词的文本的数字化编码。CLIP 也是一种深度神经网络,它由12 个相似的层组成。文本(实际上是token)最初通过这12 个层转换为数字序列的表达,即向量形式的表达。在第12 层,即最后一层输出出来的向量则被发送到U-Net 网络中的Attention 块进行处理。根据经验:如果你选择基础模型是真实质感的,最好选择Clip skip= 1,如果选择的基础模型是绘画与动漫质感的,最好选择Clip skip= 2。 Noise offset type: Original/Multires。噪点偏移类型。此处用于指定在向训练图像添加额外噪点时使用哪种offset 偏移方法。默认为Original。 Multires 则以稍微复杂的方式添加噪点。复杂一点的噪声将更有利于训练出能生成整体更明亮或更昏暗的图像的模型。Stable Diffusion 有一个大多数人都没有注意到的有趣的小瑕疵。如果你试图让它生成特别暗或特别亮的图像时,它几乎总是生成总亮度的平均值相对接近于0.5 的图像(一个完全黑色的图像是0,一个完全白色的图像是1)。这是由Stable Diffusion 模型的噪点预测器的本质所决定的。所以接近办法也自然地是在噪点预测环节进行调整,即添加某些额外的噪点,即Noise offset 噪点偏移。 Noise offset : recommended values are 0.05~0.15 :这是当噪点补偿类型选择为Original “原始”时的附加选项。 如果你在此处输入大于0 的值,则会添加额外的噪点。 设置为0 ,根本不添加噪声。设置为1 增加了强烈的噪音。有报道称,添加约0.1 的噪声可以使LoRA 的颜色更加鲜艳。 默认值为0。 Multires noise discount :recommended values are 0.8. For LoRAs with small datasets, 0.1-0.3 :0~1 数值。与多分辨率噪点迭代选项结合使用。 该值用于在一定程度上减弱各分辨率下的噪点量。 0 到1 之间的值。数字越小,噪点越弱。 衰减量根据分辨率而变化,并且低分辨率的噪点被衰减得更多。默认值为0,通常建议0.8,如果训练图像较少,建议将值降低到0.3 左右。Multires noise iterations :enable multires noise (recommended values are 6-10) : 0~64 数值。当噪点补偿类型选择Multires “多分辨率”时,则展示该设置项。 Multires “多分辨率”会产生多种分辨率的噪点,并将它们加在一起以创建最终的附加噪点。如果你在此处输入大于0 的值,则会添加额外的噪点,数值则代表分辨率噪点的种类的数量。默认为0,为0 时不添加额外的噪点。 建议设置为6 ~10 中的数值。 进程中如何判断LORA的完成度loss值:越低说明拟合程度越高,0.08左右最好。 可用于吐司在线训练工作台参数
9
【吐司创造营】第一期第二课:文生图专题!先从了解各项参数开始!

【吐司创造营】第一期第二课:文生图专题!先从了解各项参数开始!

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!本期文章对应回放为👉:BV1Kw4m1d7TV什么是文生图根据输入text用text encoder提取text embeddings,同时初始化一个随机噪音noise(latent上的,512x512图像对应的noise维度为64x64x4,这也是为什么我们训练1.5模型的时候设置图片大小需要是64的倍数),然后将text embeddings和noise送入扩散模型UNet中生成去噪后的latent,最后送入autoencoder的decoder模块得到生成的图像。checkpoin大模型定义出图风格,文件大小一般在2GB-10GB不等,以safetensors或者ckpt的后缀结尾,为什么内存差距这么大,这里要讲到一个知识点叫EMA。我们看一下比较经典的一个案例吧,SD1.5的初始下载模型有两个命名,一个是SD1.5-pruned-8GB,一个是SD1.5EMA-4GB,这俩啥意思呢,模型的pruning就是带EMA的版本,EMA是一种训练策略,在训练的时候模型会有一个主模型例如Unet,同时也会保存一个copy即EMA_Unet,这个EMA_Unet可以简单地看作是Unet的一个权值平均化的版本,可以使得训练更加稳定。但是SD-WebUI是默认fp16精度不使用EMA的,所以这一部分的数据就多出来了,那随着现在训练门槛的降低(至少没有之前高)很多融合模型在融合的时候哪怕融了带EMA的A模型然后加入了不带EMA的B模型,那这个EMA就多出来了,是无效数据,但是它占内存,本质上其实出图效果没有太大差别。SD1.5大模型2G左右,XL是6个G左右。lora微调模型稳定扩散模型的训练方法,它在不干涉神经网络运算层的情况下,插入一些低阶的运算层,通过训练这些低阶运算层来影响出图。可以指定人物、元素、场景、画风、细节。市面上的lora我简单分为3类,普通lora,用的最多的,功能性lora,调整身材比例,面部大小等等,其他lora,如加细节,加姿势等。我建议大家在使用的时候去看一下模型主页作者有没有特殊说明给一些推荐的lora权重,吐司的默认lora权重是0.8,还是比较合适的。(这里强调一下过拟合的概念,比如说打标不清晰不精准造成模型出图混乱的;或者神经网络模型遭受灾难性遗忘现象,模型在接受新任务训练后可能会严重失去其在任务上的泛化能力。这通常意味着新任务可能会覆盖过去学习的权重,从而降低过去任务的模型性能。如果不解决这个问题,单个神经网络将无法适应持续学习的场景,因为它在学习新事物时会忘记现有的信息/知识。简单的说就是容量有限的情况下,系统为了执行一个新的任务,就必须擦除旧有的数据。)但它并不是一无是处嗷,我们刚刚说到还有一种功能性lora,本质上就是差异炼丹,就需要一些炼的非常过头的模型。VAEvae模型是一种基于变分自编码器的神经网络模型,它的作用就是从你输入的数据中学习,然后再对新样本进行生成和重建,从而增加视觉效果,所以我们简单点把它理解成一个滤镜和微调模型就行了,那么吐司提供的这些vae当中要注意一下如果你的大模型是选用的SDXL模型,那么也要选择相对应的VAE模型。对于具体VAE模型的选取原则,还是要参考作者的模型说明,VAE被破坏的时候出图会发灰,有的作者在训练的时候会再添加一次VAE,但有的作者不会,那如果说你判断不了作者有没有在训练的时候内置VAE,你就出图试试,如果说出来的图片色彩发灰,明度偏暗,可以外部挂载一个VAE改善一下出图色彩质量。那这边推荐几个通用的VAE,如果是二次元向的推荐animevae.pt,ClearVAE.safetensors;真人向推荐vae-ft-mse-840000-ema-pruned.ckpt。clip跳过层它是语言与图像的对比预训练,让SD数据库里的处理模块使语言和图像建立关系,数值越高关键词和图片的关系就会越低,数值越低,关键词和图片的关系就会越高。推荐是2-4。提示词其实比较简单,主要说一下吐司上面这三个小按钮。第一个解析图片提示词,可以上传一张图片提取提示词,比较类似sdwebui的deepbooru反推功能。第二个是导入参数,它可以自动提取你剪辑版里的sd参数,复制到这里点确定可以自动填入。第三个是一个随机提示词按钮,没有灵感的时候就随机出图,但这个随机提示词是只改变正向提示词的,负向提示词是固定不动。今天来讲一下这个BREAK,提示词书写的界面中主要含有的信息有两个,其一是我们输入在提示框中的信息,第二是显示在右上角的当前句子包含的token数量,token的长短取决于该单词的常见程度的,越常见的单词其token数量也就越短。当提示词每超过75就会对其进行截断,将截断之前的prompt作为一整个句子参与图像生成,后续的prompt依次进行上述操作,由于每一个句子中位置靠前的自然权重会稍高于位置靠后的词,所以有以下两个结论:由于两个句子之间的存在隔离,所以位置在75的提示词天然就会与位置在76的提示词有一定的隔离;(比如说green_dress在位置72,blue_hair在位置80,所以二者之间产生了天然隔离)由于句子进入模型参与影响有先后顺序,所以靠前句子的影响因素大于靠后的句子(这个逻辑上可以直接类比到位置靠前的提示词天然权重大于位置靠后的提示词)。BREAK字面上是打断的意思嘛,它的作用就是隔断上下文,BREAK会强制结束当前这个句子,即使这个句子中只有一个1girl,也会被填充成75个token。采样算法怎么选择最优质的采样算法主要是从收敛,时间,步数还有你的显存来决定,那吐司因为是线上集群都是超好的显卡我们就不考虑显卡的因素。给大家整理了一下如果你想使用快速、新颖且质量不错的图片,那么出色的选择是DPM++ 2M Karras,20 – 30 步比如说2.5D或者3D的出图,或者人像。如果您想要高质量的图像并且不关心收敛,那么好的选择是具有10-15 步的DPM++ SDE Karras(注意:这是一个较慢的采样器),或者说是DDIM,那著名的墨幽大大就是比较推荐在使用他的大模型的时候用DDIM这个采样器。DDIM其实是最古老的一版采样器了,比较过时,如果不是作者特意要求的话,不建议当首选。(啥是收敛:在扩散过程中,SD利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布。这样,SD可以根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。)Euler a这个采样器就是比较快和稳,而且比较适合二次元出图。迭代采样步数越高画面细节越多,越慢,一般范围在15-40。📢 :迭代是重复反馈的动作,神经网络中我们希望通过迭代进行多次的训练以到达所需的目标或结果。 每一次迭代得到的结果都会被作为下一次迭代的初始值。 一个迭代= 一个正向通过+ 一个反向通过;更多的迭代步数可能会有更好的生成效果,更多细节和锐化,但是会导致生成时间变长。而在实际应用中,30 步和50 步之间的差异几乎无法区分。太多的迭代步数也可能适得其反,几乎不会有提高。进行图生图的时候,正常情况下更弱的降噪强度需要更少的迭代步数(这是工作原理决定的)。可以在设置里更改,让程序确切执行滑块指定的迭代步数。CFG它控制生成图片与提示词的接近程度。数值越高,画面越贴近提示词的描述;数值越低,画面更有变化性更偏向于让AI自由发挥。建议3-15,中值一般是6-8。高清放大“4x-UltraSharp”、“R-ESRGAN 4x+”擅长处理写实图像,“R-ESRGAN 4x+ Anime6B”、"4x-AnimeSharp"擅长动画图像。重绘幅度越低与原图越相似,越高越和原图没关系。高清人物立绘制作【纯演示向】ADetailer:吐司的ADetailer也是可以添加lora的,这里的lora比较推荐用一些脸膜。本质上的提示词逻辑跟文生图的提示词没有什么特殊的地方,但是更建议写一些对面貌的描述词,比如说发色、瞳色这种能增强特征的提示词,如果说不填写的话,则是继承文生图的prompt词。置信度是指控制模型检测结果的可信度,sedwebui的AD修复的时候是会显示有一个红色的框,那么增大数值可获得更高的修复准确度,同时这个框的识别就越准确,如果说你的画面中有多人出现的情况但你只想修复最前面的一个人脸,那么这个值就要拉高。那同样的如果你想修复多个人脸,降低数值可增大修复范围。(这一部分推荐去听回放,有演示讲的更清楚。)重绘蒙版模糊可以理解为ps里的边缘羽化强度,数值越小越锐利,越大越模糊,想衔接更自然的话,这个值可以稍微调大一点。重绘噪声强度:对于面部修复的结果影响仅限于产生不同的面部特征。推荐0.4-0.6。Adetailer的模型如何选择,我这边截取了原作者在github上给的一些模型分类和作用大家可以参考一下。【上节课有人要的论文整理】SD 1.4官方项目:CompVis/stable-diffusionSD 1.5官方项目:runwayml/stable-diffusionSD 2.x官方项目:Stability-AI/stablediffusiondiffusers库中的SD代码pipelines:diffusers/pipelines/stable_diffusionSD核心论文:High-Resolution Image Synthesis with Latent Diffusion ModelsSD Turbo技术报告:adversarial_diffusion_distillation
9
1