注目の画像

おすすめのプロンプト

frieren from sousou no frieren,impasto style,beautiful color, detailed, aesthetic
best quality,masterpiece,vivid color,1girl,solo,bangs

おすすめのネガティブプロンプト

worst quality:1.3,low quality,lowres,messy,abstract,ugly,disfigured,bad anatomy,draft,deformed hands,fused fingers,signature,text,multi views
aidxl_neg

おすすめのパラメーター

サンプラー Euler Ancester
ステップ数 28
cfg 7 to 9
CLIP スキップ 1
vae sdxl-vae
解像度 832×1216, 1216×832, 1024×1024

おすすめのハイレゾ(高解像度)パラメーター

高解像度ノイズ除去強度 0.37

ヒント

  • アーティストスタイルのトリガーワードの重みを減らします。例: (by xxx:0.6)
  • プロンプトタグを整理して、より良い結果を得ます。
  • モデルのVAEまたはsdxl-vaeを使用してください。

モデルバージョンの主な特徴

新增了143个触发词。该版本是 AIDXLv0.5 的测试版本,新风格并不稳定。如果不是为了尝鲜,我更推荐 AIDXLv0.41。

Add 143 new trigger words. This version is a beta version of AIDXLv0.5. The new styles are not stable. I would recommend AIDXLv0.41 for better experience.

モデル開発者スポンサー

すべてのスポンサーはDiffusの関連会社ではありません。Diffusは、オンラインでのStable Diffusion WebUI体験の代替手段を提供しています。

Computing power sponsorship: Thanks to @NieTa community (捏Ta (nieta.art)) for providing computing power support;

Data support: Thanks to @KirinTea_Aki (KirinTea_Aki Creator Profile | Civitai) and @Chenkin (Civitai | Share your models) for providing a large amount of data support;

There would be no version 0.7 without them.

モデル紹介(英文部分)

I 目次

この紹介では、以下のことを学びます:

  1. モデル情報(セクション II 参照);

  2. 使用方法の指示(セクション III 参照);

  3. トレーニングパラメーター(セクション IV 参照);

  4. トリガーワード一覧(付録 部分 A 参照)

II AIDXL

アニメ イラスト ディフュージョン XL、またはAIDXLは、スタイリッシュなアニメイラストを生成するモデルです。 特定のトリガーワードで800以上(更新ごとに増加中)のイラストスタイルを引き出すことができます(付録 A 参照)。

利点

  • 伝統的なAIのポージングではなく、柔軟な構図。

  • 乱雑よりも技巧的なディテール。

  • アニメキャラクターをより理解しています。

III 使用ガイド

1 基本使用法

1.1 プロンプト

  1. トリガーワード:画像をスタイリングするために付録 A のトリガーワードを追加します。 適切なトリガーワードは大幅に画質を向上させます;

    アーティストスタイルのトリガーワードの重みを減らします。例: (by xxx:0.6)

  2. セマンティック整理:プロンプトのタグや文を並べ替えることで、モデルが意味を理解するのを助けます。

    推奨されるタグの順序:トリガーワード (by xxx) -> キャラクターフリーレンシリーズからフリーレンと名付けられた女の子) -> 種族(エルフ) -> 構図(カウボーイショット) -> スタイル(厚塗りスタイル) -> テーマ(ファンタジーテーマ) -> 主な環境(森の中、昼) -> 背景(グラデーション背景) -> アクション(地面に座る) -> 表情(表情なし) -> 主な特徴(白髪) -> 身体特徴(ツインテール、緑の目、開いた唇) -> 衣服(白のドレスを着た) -> 衣装アクセサリー(フリル) -> 他のアイテム(猫) -> 二次的な環境(草、サンシャイン) -> 美的特徴 (美しい色, 詳細な, 美的) -> 品質 ((best quality:1.3))

  3. ネガティブプロンプト:(worst quality:1.3)、low qualitylowresmessy、抽象的、醜い、異形の、悪い解剖学、ドラフト、変形した手、融合した指、署名、テキスト、多重ビュー

1.2 生成パラメーター

  1. 解像度ピクセル数(=幅 * 高さ) が1024*1024 に近く、幅と高さが32で割り切れる場合、AIDXL は最適な結果を出します。例:832×1216 (2:3)、1216×832 (3:2)、および 1024×1024 (1:1) など。

  2. サンプラーとステップ:「Euler Ancester」サンプラーを使用し、WebUIで「Euler A」と呼ばれます。 7〜9 CFG スケールで約28ステップでサンプルします。

  3. 『精錬』:text2image から生成された画像は時折ぼやけるため、その場合は image2image あるいはインペインティングなどを使用して『精錬』する必要があります。

    シンプルに拡大する場合は以下を参照してください: Upscale to huge sizes and add detail with SD Upscale, it’s easy! : r/StableDiffusion (reddit.com)

  4. 他のコンポーネント: 追加の精錬モデルは不要です。モデル自身のVAEまたは sdxl-vaeを使用してください。

Q:モデルカバーを再現するにはどうしたらいいですか?同じ生成パラメーターを使ってもカバーと同じ画像が再現できないのはどうしてですか?

A:カバーに示された生成パラメーターはNOTテキスト to 画像のパラメーターですが、拡大用の画像 to 画像 パラメーターです。ベース画像は主に Euler Ancester サンプラーによって生成され、DPM サンプラーではありません。

2 特別用途

2.1 一般化されたスタイル

バージョン 0.7 から、AIDXL は似たスタイルをいくつかまとめ、一般化されたスタイルのトリガーワードを導入しました。これらのトリガーワードはそれぞれが 一般的なアニメーション イラスト スタイル カテゴリを表しています。一般スタイルのトリガーワードは、その単語の意味が示す芸術的な意味に必ずしも準拠しませんが、特別に再定義されたトリガーワードであることに注意してください。

2.2 キャラクター

バージョン 0.7 から、AIDXL はキャラクターのトレーニングを強化しています。いくつかのキャラクター トリガーワードは Lora の効果を既に達成しており、キャラクターの概念を独自の服装からうまく分離することができます。

キャラクターのトリガー方法は: {キャラクター} \({著作権}\) 例として、アニメ「サイバーパンク: エッジャーナーズ」のヒロイン ルーシー をトリガーするには lucy \(cyberpunk\) を使用します。ゲーム「原神」のキャラクター 甘雨 をトリガーするには ganyu \(genshin impact\) を使用します。 ここで、「lucy」と「ganyu」はキャラクター名であり、「\(cyberpunk\)」と「\(genshin impact\)」は対応するキャラクターの出典であり、括弧はスラッシュ「\」でエスケープされて、 重み付きタグと解釈されるのを防ぎます。 一部のキャラクターにとって、著作権部分は必須ではありません。

バージョン v0.8 から、さらに 簡単な トリガー方法があります: a {girl/boy} named {キャラクター} from {著作権} series

キャラクタートリガーワードの一覧については: selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)。さらに、このドキュメントでは言及されていない追加のトリガーワードも含まれている場合があります。

一部のキャラクターには、追加のトリガーステップが必要です。使用時に、単一のキャラクタートリガーワードで完全にそのキャラクターを再現できない場合は、プロンプトにキャラクターの主な特徴を追加する必要があります。

AIDXL はキャラクターの着せ替えをサポートしています。キャラクタートリガーワードには通常、キャラクター自体の服装の特徴が含まれていません。キャラクターの服装を追加したい場合は、プロンプトに服装タグを追加する必要があります。例として、銀のイブニングガウン、深いネックライン はゲーム 碧蓝航線 からamazing quality, best quality, high quality, normal quality, low qualityおよびworst quality

品質タグに追加の重みを加えることをお勧めします。例:(amazing quality:1.5)

2.4 美的タグ

バージョン 0.7 以降、美的タグが導入され、画像の特別な美的特徴を記述しています。

2.5 スタイルのマージ

いくつかのスタイルをカスタマイズしたスタイルにマージすることができます。「マージ」とは実際には同時に複数のスタイル トリガーワードを使用することを意味します。例として、春麗、驚異的な品質、(by よねやま まい:0.9), (by chi4:0.8), by ask, by modare, (by いっきしてい:0.9).

いくつかのヒント:

  • スタイルの重みと順序を調整して最終的なスタイルを調整します。

  • プロンプトに追加するのではなく、前置します。

IV トレーニング戦略とパラメーター

AIDXLv0.1

SDXL1.0をベースモデルとして使用し、約22kのラベル付き画像を用いてコサインスケジューラーで100エポック程度トレーニングしました。その後、学習率2e-7と同じ他のパラメーターを使用してBモデルを取得。それにより、モデルAとBを統合したAIDXLv0.1モデルを取得しました。

AIDXLv0.51

トレーニング戦略

AIDXLv0.5からのトレーニングを継続し、トレーニングを2つのランでパイプラインして実行:

  1. ロングキャプショントレーニング:データセット全体を使用し、いくつかの画像を手動でキャプションしています。U-Netとテキストエンコーダーを共にAdamW8bitオプティマイザーでトレーニングし、高い学習率(約1.5e-6)をコサインスケジューラーで採用し、学習率が閾値(約5e-7)未満になると停止。

  2. ショートキャプショントレーニング:ステップ1の出力からトレーニングを再開。同じパラメーターと戦略を使用し、短いキャプションの長さのデータセットを使用します。

  3. 精錬ステップ:手動で選ばれた高品質の画像を持つデータセットのサブセットを作成します。ステップ2の出力からのトレーニングを再開し、低学習(約7.5e-7)で、5から10のターンでコサインスケジューラーを用いて再設定します。結果が美的によいものになるまでトレーニングします。

固定トレーニングパラメーター

  • ノイズオフセットのような余分なノイズはなし。

  • Min SNR Gamma = 5: トレーニングを加速します。

  • 完全なbf16精度。

  • AdamW8bitオプティマイザー:効率と性能のバランス。

データセット

  • 解像度: 正規化されたSDXLのバケッティング戦略で、1024×1024の総解像度。

  • キャプション:WD14-Swinv2モデルで0.35の閾値でキャプション。

  • クローズアップクロップ:いくつかのクローズアップに画像をクロップします。トレーニング画像が大きいか稀である場合に非常に便利です。

  • トリガーワード:画像の最初のタグをトリガーワードとして保持します。

AIDXLv0.6

トレーニング戦略

AIDXLv0.52 からトレーニングを再開し、適応的な繰り返し戦略を採用します – データセットのそれぞれのキャプション付き画像に対して、以下のルールに基づいてそのトレーニングでの繰り返し数を増やします:

  • 規則1:その画像の品質が高ければ高いほど、その繰り返し回数は多くなります;

  • 規則2:その画像がスタイルクラスに属する場合:

    • そのクラスがまだ適合していないか未適合の場合、クラスの繰り返し回数を手動で増やすか、クラス内のデータの総繰り返し回数が約100に達するように自動的にその繰り返し回数を増やします。

    • そのクラスがすでに適合しているか過剰適合の場合、繰り返し回数を1に強制し、品質が低ければそのデータを削減します。

  • 規則3:その最終的な繰り返し回数がある閾値を超えないようにします。これにより、コントロールが容易になります。

この戦略には次の利点があります:

  1. 新しいトレーニングからモデルのオリジナル情報を保護し、正則化された画像と同じ考えを持ちます;

  2. トレーニングデータの影響をよりコントロールしやすくします;

  3. 適合していないクラスを奨励し、すでに適合しているクラスへの過剰適合を防ぎながら、異なるクラス間のトレーニングをバランスさせます;

  4. 計算リソースを大幅に節約し、モデルに新しいスタイルを追加するのが容易になります。

固定トレーニングパラメーター

AIDXLv0.51 と同じです。

データセット

AIDXLv0.6データセットはAIDXLv0.51を基にしています。また、次の最適化戦略が適用されています:

  • キャプションセマンティックソート:キャプションタグをセマンティック順にソートします。例:「銃、1男子、保持、短髪」->「1男子、短髪、保持、銃」。

  • キャプションの重複除去:重複したタグを削除し、その情報を保持するものを保持します。重複したタグは「長い髪」と「非常に長い髪」などの類似した意味を持つタグです。

  • 追加タグ:すべての画像に手動で追加のタグを付与します。例:「高品質」、「インパスト」など。これを迅速に行うためのツールがいくつかあります。

VI AIDXL 対 AID

2023/08/08。AIDXL は AIDv2.10 と同じトレーニングセットでトレーニングされていますが、AIDv2.10 を上回っています。 AIDXLはよりスマートで、SD1.5ベースのモデルができない多くのことを達成し、概念を区別し、イメージディテールを学び、SD1.5やAIDが難しいまたは不可能な構図を処理します。それはまた、旧バージョンのAIDが完全にマスターできなかったスタイルを学びます。全体として、それは絶対的な可能性を持っています。AIDXLを更新し続けます。

VII スポンサーシップ

私たちの仕事が好きであれば、Ko-fi(https://ko-fi.com/eugeai) を通じて私たちをスポンサーして、私たちの研究開発をサポートしてください。ご支援誠にありがとうございます~

モデル紹介(中国語部分)

I 目录

この紹介では、以下のことを学びます:

  1. 模型介绍(见 II 部分);

  2. 使用指南(见 III 部分);

  3. 训练参数(见 IV 部分);

  4. 触发词列表(见附录 A 部分)

II 模型介绍

动漫插画设计XL,或称 AIDXL 是一款专用于生成二次元插图的模型。它内置了 800 种以上(随着更新越来越多)的插画风格,依靠特定触发词(见附录 A 部分)触发。

优点:构图大胆,没有摆拍感,主体突出,没有过多繁杂的细节,认识很多动漫人物(依靠角色日文名拼音触发,例如,“ayanami rei”对应角色“绫波丽”,“kamado nezuko”对应角色“祢豆子”)。

III 使用指南(将与时俱进)

1 基本用法

1.1 提示词书写

  1. 使用触发词:使用附录 A 所提供的触发词来风格化图像。适合的触发词将 极大地 提高生成质量;

  2. 提示词标签化:使用标签化的提示词描述生成对象;

  3. 提示词排序:排序您的提示词将有助于模型理解词义。推荐的标签顺序:

    触发词(by xxx)->主角(1girl)->角色(frieren)->种族(elf)->构图(cowboy shot)->风格(impasto)->主题(fantasy)->主要环境(forest, day)->背景(gradient background)->动作(sitting)->表情(expressionless)->主要人物特征(white hair)->人体特征(twintails, green eyes, parted lip)->服饰(white dress)->服装配件(frills)->其他物品(magic wand)->次要环境(grass, sunshine)->美学(beautiful color, detailed, aesthetic)->质量(best quality)

  4. 负面提示词worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成参数

  1. 分辨率:确保图像总分辨率(总分辨率=高度x宽度)围绕1024*1024且宽和高均为32的倍数。例如,832×1216 (3:2), 1216×832 (3:2), 以及 1024×1024 (1:1)。

  2. 不进行“Clip Skip”操作,即 Clip Skip = 1。

  3. 采样器步数:采用 “euler_ancester” 采样器(sampler),该组合在 webui 里称为 Euler A。在 7 CFG Scale 上采样 28 步。

  4. 仅需要使用模型本身,而不使用精炼器(Refiner)。

  5. 使用基底模型 vae 或 sdxl-vae。

2 特殊用法

2.1 泛风格化

0.7 版本归纳了若干相似插画画风,引入了泛风格触发词。泛风格触发词各代表一种常见动漫插画画风类别。

请注意,泛风格触发词并不一定符合其词义指代的美术含义,而是经过重新定义的特殊触发词。

2.2 角色

0.7 版本对强化训练了角色。部分角色触发词的还原度已经能够达到 lora 的效果,且能够很好地将角色概念与其本身的着装分离。

角色触发方式为 角色名 \(作品\)。例如,触发动画《赛博朋克:边缘行者》的女主角露西则使用 lucy \(cyberpunk\);触发游戏《原神》中的角色甘雨则使用 ganyu \(genshin impact\)。这里,“lucy” 和 “ganyu” 为角色名,“\(cyberpunk\)” 和 “\(genshin impact\)” 则为对应角色的作品出处,括号使用斜杠”\”转义以防止被解释为提示词加权。对于部分角色,出处并非必要。

角色触发词请参照 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)

在使用中,若仅靠单个角色触发词无法完全还原角色,则需要在提示词中添加该角色的主要特征。

角色触发词通常不会携带角色本身的着装特征,若要添加角色着装,则需要在提示词中添加衣物名。例如,游戏《碧蓝航线》中角色圣路易斯 ( st. louis \(luxurious wheels\) \(azur lane\) ) 的衣装触发可使用 silver evening gown, plunging neckline。类似地,您也能对任何角色添加其他角色的衣装标签。

2.3 质量标签

0.7 版本的质量和美学标签经过正式训练,在提示词中尾随它们将影响生成图像的质量。

0.7 版本正式训练并引入了质量标签,质量标签分为六个等级,由好到坏分别为:amazing quality, best quality, high quality, normal quality, low qualityworst quality.

2.4 美学标签

0.7 版本起引入了美学标签,描述图像的特殊美学特征。

2.5 风格融合

您可以将一些样式合并到您的自定义样式中。 “合并”实际上意味着一次使用多种风格触发词。 例如,chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

一些技巧:

  • 控制风格的权重和顺序来调整最终风格。

  • 尾随而非前置到提示词上。

3 注意事项

  1. 使用 SDXL 支持的 VAE 模型、文本嵌入(embeddings)模型和 Lora 模型。注意:sd-vae-ft-mse-original 不是支持 SDXL 的 vae;EasyNegative、badhandv4 等负面文本嵌入也不是支持 SDXL 的 embeddings;

  2. 对于 0.61 及以下版本:生成图像时,强烈推荐使用模型专用的负面文本嵌入(下载参见 Suggested Resources 栏),因其为模型特制,故对模型几乎仅有正面效果;

  3. 每个版本新增触发词将在当前版本效果相对较弱或不稳定。

IV 训练参数

以 SDXL1.0 为底模,使用大约 2w 张自己标注的图像在 5e-6 学习率,循环次数为 1 的余弦调度器上训练了约 100 期得到模型 A。之后在 2e-7 学习率,其余参数相同的条件下,训练得到模型 B。将模型 A 与 B 混合后得到 AIDXLv0.1 模型。

其他训练参数请参照英文版本的介绍。

VI 更新日志

2023/08/08:AIDXL 使用与 AIDv2.10 完全相同的训练集进行训练,但表现优于 AIDv2.10。AIDXL 更聪明,能做到很多以 SD1.5 为底模型无法做到的事。它还能很好地区分不同概念,学习图像细节,处理对 SD1.5 来说难于登天的构图,几近完美地学习旧版 AID 无法完全掌握的风格。总的来说,它拥有比 SD1.5 更高的上限,我会继续更新 AIDXL。

2024/01/27:0.7 版本新增了大量内容,数据集大小是上一版本的两倍以上。

  1. 为了得到令人满意的标注,我尝试了很多新的标签处理算法,例如标签排序、标签分层随机化、角色特征分离等等。项目地址:Eugeoter/sd-dataset-manager (github.com)

  2. 为了使训练可控,且更加服从我的意愿,我基于 Kohya-ss 制作了特制的训练脚本;

  3. 为了掌控不同世代的模型的融合过程,我开发了一些启发式的模型融合算法;为了使模型达到足够的风格化,我放弃了通过融合文本编码器和UNET的OUT层来提高模型的稳定和美学,因为这会伤害模型的风格。

  4. 为了筛选和过滤数据,我训练了一个水印检测模型、一个图像分类模型、一个美学评分模型,来帮助我清洗数据。

VII 赞助我们

如果您喜欢我们的工作,欢迎通过 Ko-fi(https://ko-fi.com/eugeai) 赞助我们,以支持我们的研究和开发,感谢您的支持!

Appendix / 附录

A. Special Trigger Words List / 特殊触发词列表

  • ペインティングスタイルのトリガーワード: フラットカラー、クリーンカラー、セルロイド、フラットパスト、薄パスト、擬似厚塗り、厚塗り、リアルな、写真リアルな、セルシェーディング、3D

    • フラットカラー: 平面の色彩、光と影をラインで描写

      平涂:平面色彩,使用线条和色块描述光影和层次

    • クリーンカラー: フラットカラーとフラットパストの間のスタイル。シンプルできれいな着色。

      具有简洁色彩的平涂,介于 flat color 和 flat-pasto 之间

    • セルロイド: アニメの着色

      平涂赛璐璐:动漫着色

    • フラットパスト: ほとんどフラットカラーで、光と影をグラデーションで表現

      接近平面的色彩,使用渐变描述光影和层次

    • 薄パスト: 薄い輪郭線で、グラデーションと絵の具の厚さで光、影、レイヤーを描写

      细轮廓勾线,使用渐变和颜料厚度描述光影和层次

    • 擬似厚塗り:グラデーションと絵の具の厚さで光、影、レイヤーを描写

      伪厚涂 / 半厚涂:使用渐变和颜料厚度描述光影和层次

    • 厚塗り:ペンキの厚さで光、影、グラデーションを描写

      厚涂:使用颜料厚度描述光影和层次

    • リアルな

      写实

    • 写真リアルな: リアルワールドに近いスタイルに再定義

      相片写实主义:重定义为接近真实世界的风格

    • セルシェーディング: アニメ3Dモデリングスタイル

      卡通渲染:二次元三维建模风格

    • 3D

  • 美的トリガーワード:

    • 美しい

      美丽

    • 美的: やや抽象的な芸術感

      唯美:稍微抽象的艺术感

    • 詳細な

      细致

    • 美しい色: 微妙な色の使用

      协调的色彩:精妙的用色

    • 低解像度

    • ごちゃごちゃ: ごちゃごちゃした構図やディテール

      杂乱:杂乱的构图或细节

  • 品質トリガーワード:驚異的な品質、最高の品質、高い品質、低い品質、最悪の品質

投稿者

Picture of 美纪子 沢岡

美纪子 沢岡

私はDiffusのギャラリーエディターです。最近Stable Diffusionを使い始め、学んだことをコミュニティと共有したいと思っています。趣味で漫画を愛読しており、Instagramでも活発に活動しています。

Leave a Reply

同じコレクションのモデル - Anime Illust Diffusion XL

Elegant digital art portrait of an Asian woman with dark hair adorned with a red floral hairpiece. The woman is dressed in traditional clothing with intricate patterns. The background is blurred with bokeh lights.

Anime Illust Diffusion XL - v05alpha

モデルの詳細

モデルタイプ

Checkpoint

ベースモデル

SDXL 1.0

モデルハッシュ

c57cecf7c7

モデルバージョン

v05alpha

学習済み単語

SEE APPENDIX, 见附录

作成者

参照



モデルレビュー

Leave a Reply

同じモデルによる画像 - Anime Illust Diffusion XL

着物を着た少女の美的ポートレート

黒いドレス姿の時崎狂三

黒い着物を着た男性のfajyoboreアート

夜景の夏油傑

時崎 狂三 スピリットフォーム ポートレート