
模型介绍 / Model Introduction
这是一个基于KXL eps rev3改进的图像生成模型,使用了约780万张图像在1张4090上进行训练,极大改善了人物的肢体表现,现在更容易生成准确的人体结构,例如:更好的手指,更好的脚以及脚趾,以及更容易生成准确多人的图像,对于双人拥抱之类的动作均有改善。并且在艺术风格上更加多元,可以像Novel ai V3那样使用artist tag来生成你的喜欢的艺术风格,而且模型也可以生成更多的动漫角色。
推荐设置/Recommended settings(please use DTG!!!)
prompt:
<1girl/1boy/1other/...>,
<character>, <series>, <artists>,
<general tags>,
masterpiece,best quality,absurdres,highres,sensitive,newest,
negative prompt (short) :
lowres,low quality, worst quality, normal quality, text, signature, jpeg artifacts, bad anatomy, old, early, mini skirt, chibi, multiple girls, multiple boys, multiple tails, multiple views, copyright name, watermark, artist name, signature
negative prompt (long) :
lowres,bad anatomy,blurry,(worst quality:1.8),low quality,hands bad,face bad,(normal quality:1.3),bad hands,mutated hands and fingers,extra legs,extra arms,duplicate,cropped,jpeg,artifacts,blurry,multiple view,Reference sheet,long body,multiple breasts,mutated,bad anatomy,disfigured,bad proportions,bad feet,ugly,text font ui,missing limb,monochrome,bad anatomy,blurry,(worst quality:1.8),low quality,hands bad,face bad,(normal quality:1.3),bad hands,mutated hands and fingers,extra legs,extra arms,duplicate,cropped,jpeg,artifacts,blurry,multiple view,long body,multiple breasts,mutated,disfigured,bad proportions,duplicate,bad feet,ugly,missing limb,
sampler: Euler A
steps:30
cfg:5~9
upscarler:Latent
Hires steps:25
Denoising strength:0.6
负面提示词必须包含: lowres (由于使用了大量低分辨率图片进行训练)。worst quality 和 low quality 可根据个人需求选择是否添加。也可以使用例图里的负面提示词(long),这串提示词是内部成员测试时使用的的,它非常的“屎山”,我们也无法确认其效果如何,但”it just work.”。
例如要生成一张东风谷早苗的图像,可以使用以下prompt(换行是非必要的):
1girl,
kochiya sanae, touhou
ask \(askzy\),
solo,green hair, green eyes,
masterpiece,best quality, absurdres,newest,safe,highres
DTG(Danbooru Tag Generator)
在使用Stable Diffusion模型生成角色图像时,由于训练数据和方法的特点,最好能提供角色名字以及角色的特征标签(tag)。如果只提供角色名字而不给出特征标签,模型生成的头发颜色、眼睛颜色等细节可能会不准确,尤其是在角色特征比较复杂的情况下。然而,对于普通用户来说,要补充完善所有必要的特征标签并非易事。
为了解决这一问题,我们强烈推荐使用DTG(Danbooru Tag Generator),它是一个可以在AUTOMATIC1111的WebUI上使用的插件。DTG本质上是一个语言模型(LLM),可以根据输入的角色名自动扩写提示(prompt),补充角色的特征标签以及更多的细节描述。使用DTG可以更好地发挥像SanaeXL这样的高质量模型的性能。
DTG链接:https://github.com/KohakuBlueleaf/z-a1111-sd-webui-dtg
我们建议采用以下格式来构建提示(prompt):
"1girl/1boy + 角色名 + 系列名 + 动作/场景视角 + 质量词"按照这种格式提供基本的提示信息后,你可以将剩下的工作交给DTG来自动完成。DTG能够根据给定的提示生成额外的相关标签(tag),从而帮助AI模型生成更准确、更具体的图像。
我们有理由推测,NovelAI3内部很可能也采用了类似的机制。在用户提供初始提示后,NovelAI3可能会接入一个标签生成器(tag generator)来自动补充和扩展提示信息,从而实现更好的引导效果。
这种"提示+DTG"的组合方式,使得用户能够以更简洁、更高效的方式控制AI生成图像的内容和风格,无需手动添加大量复杂的标签,极大地提高了使用Stable Diffusion模型进行角色图像生成的便捷性和准确性。

关于artist和character:
因为训练的图片数量非常多,二者的tag有效果的也非常多,尤其是在danbooru上有1000图以上的artist和character,均能取得不错的效果,需要注意的是训练集截止至2024年2月,故模型对近期character的支持不佳。以下是关于artist和character推荐的wildcard的链接:
基于对模型的CCIP评估,我们提供了一份表现优秀的角色清单供您自取。
请注意,这份清单仅包含我们评估范围内(3711个角色)中表现突出的部分,并未涵盖所有角色。
对于一些较为冷门的角色,您可能需要自行测试其效果。
我们坚持严格评估标准,不会仅仅因为在训练数据集中添加了某个角色的相关数据,就未经评估直接宣称模型支持该角色。
如果采用这种宽松的标准,我们的模型理论上可以宣称支持全角色(>12000),但这显然毫无意义。
character/sanaeXL_v1_character_ccip0.8.xlsx · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)
对于画师清单,目前现状无法进行大规模的评估。
但是对于直接使用,建议可以使用这两份清单,可以直接利用webui的wildcard进行调用。
wildcards/starry_artists_v52_full.txt · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)
wildcards/starry_artists_v52_curated_128.txt · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)
注意:sanaeXL支持的tag并不仅仅局限于上面链接里所提到的。
关于tag / about tag
模型的使用方法与KXL eps相同,prompt格式如下:
The usage of this model is the same as KXL eps. The prompt format is as follows:
<1girl/1boy/1other/...>,
<character>, <series>, <artists>,
<general tags>,
<quality tags>, <year tags>, <meta tags>, <rating tags>
Rating tags
General: safe
Sensitive: sensitive
Questionable: nsfw
Explicit: nsfw, explicit
2005~2010: old
2011~2014: early
2015~2017: mid
2018~2020: recent
2021~2024: newest
分辨率和采样 / Resolution and Sampling
在1024×1024分辨率上使用webui自带的高分辨率修复(Highres.fix)功能可以更好的发挥sanaeXL的性能,推荐修复倍率为1.2倍至1.5倍之间。
采样器无特殊要求,如果感觉出图效果不理想,可以适当提高采样步数和CFG的值。
我们以Euler A举例,采样步数在20-30之间均可,较高的步数效果会好一些,CFG推荐在7-12之间。
CCIP数据
ccip是一个可以有效评估角色拟合情况的模型。虽然没有单独对角色进行训练,但是得益于有效的训练,模型并没有出现类似于starryXL一样的灾难性遗忘,事实上已经成为写稿时ccip评估上表现最好的模型。68.77%的角色获得了超过0.8的ccip 评分,中位数达到0.94。在这个3711个角色组成的评估集里,绝大部分角色都可以通过prompt组合直接生成。

(具体关于这部分的内容会在日后训练笔记里详细写明)
笔记链接 / note link:coming soo
关于sanaeXL
SanaeLab:https://huggingface.co/SanaeLab

本模型会持续更新,更新周期大概是一周至半个月。
后续更新的计划,例如:
● 增加2024年2月份以后的角色
● 更多的artist艺术风格
● 更加良好的手脚

鸣谢 / Acknowledgments:
特别鸣谢KohakuBlueleaf训练的基础模型与deepGHS开源的数据集。
Kohaku XL eps rev3 : https://huggingface.co/KBlueLeaf/Kohaku-XL-Epsilon-rev3
Kohaku XL delta : https://huggingface.co/KBlueLeaf/Kohaku-XL-Delta
deepGHS : https://huggingface.co/deepghs