Anime Illust Diffusion XL – v05alpha

注目の画像

ヒント

アーティストスタイルのトリガーワードの重みを減らします。例: (by xxx:0.6)
プロンプトタグを整理して、より良い結果を得ます。
モデルのVAEまたはsdxl-vaeを使用してください。

モデルバージョンの主な特徴

新增了143个触发词。该版本是 AIDXLv0.5 的测试版本，新风格并不稳定。如果不是为了尝鲜，我更推荐 AIDXLv0.41。

Add 143 new trigger words. This version is a beta version of AIDXLv0.5. The new styles are not stable. I would recommend AIDXLv0.41 for better experience.

モデル開発者スポンサー

すべてのスポンサーはDiffusの関連会社ではありません。Diffusは、オンラインでのStable Diffusion WebUI体験の代替手段を提供しています。

Computing power sponsorship: Thanks to @NieTa community (捏Ta (nieta.art )) for providing computing power support;

Data support: Thanks to @KirinTea_Aki (KirinTea_Aki Creator Profile | Civitai) and @Chenkin (Civitai | Share your models) for providing a large amount of data support;

There would be no version 0.7 without them.

モデル紹介（英文部分）

I 目次

この紹介では、以下のことを学びます：

モデル情報（セクション II 参照）；
使用方法の指示（セクション III 参照）；
トレーニングパラメーター（セクション IV 参照）；
トリガーワード一覧（付録部分 A 参照）

II AIDXL

アニメイラストディフュージョン XL、またはAIDXLは、スタイリッシュなアニメイラストを生成するモデルです。特定のトリガーワードで800以上（更新ごとに増加中）のイラストスタイルを引き出すことができます（付録 A 参照）。

利点：

伝統的なAIのポージングではなく、柔軟な構図。

乱雑よりも技巧的なディテール。

アニメキャラクターをより理解しています。

III 使用ガイド

1 基本使用法

1.1 プロンプト

トリガーワード：画像をスタイリングするために付録 A のトリガーワードを追加します。適切なトリガーワードは大幅に画質を向上させます；

アーティストスタイルのトリガーワードの重みを減らします。例: (by xxx:0.6)。

セマンティック整理：プロンプトのタグや文を並べ替えることで、モデルが意味を理解するのを助けます。

推奨されるタグの順序：トリガーワード (by xxx) -> キャラクター（フリーレンシリーズからフリーレンと名付けられた女の子） -> 種族(エルフ) -> 構図(カウボーイショット) -> スタイル(厚塗りスタイル) -> テーマ(ファンタジーテーマ) -> 主な環境（森の中、昼） -> 背景(グラデーション背景) -> アクション(地面に座る) -> 表情（表情なし） -> 主な特徴(白髪) -> 身体特徴（ツインテール、緑の目、開いた唇） -> 衣服（白のドレスを着た） -> 衣装アクセサリー（フリル） -> 他のアイテム（猫） -> 二次的な環境（草、サンシャイン） -> 美的特徴 (美しい色, 詳細な, 美的) -> 品質 ((best quality:1.3))

ネガティブプロンプト：（worst quality:1.3）、low quality、lowres、messy、抽象的、醜い、異形の、悪い解剖学、ドラフト、変形した手、融合した指、署名、テキスト、多重ビュー

1.2 生成パラメーター

解像度：棒 ピクセル数(=幅 * 高さ) が1024*1024 に近く、幅と高さが32で割り切れる場合、AIDXL は最適な結果を出します。例：832×1216 (2:3)、1216×832 (3:2)、および 1024×1024 (1:1) など。

サンプラーとステップ：「Euler Ancester」サンプラーを使用し、WebUIで「Euler A」と呼ばれます。 7〜9 CFG スケールで約28ステップでサンプルします。

『精錬』：text2image から生成された画像は時折ぼやけるため、その場合は image2image あるいはインペインティングなどを使用して『精錬』する必要があります。

シンプルに拡大する場合は以下を参照してください: Upscale to huge sizes and add detail with SD Upscale, it’s easy! : r/StableDiffusion (reddit.com )

他のコンポーネント: 追加の精錬モデルは不要です。モデル自身のVAEまたは sdxl-vaeを使用してください。

Q：モデルカバーを再現するにはどうしたらいいですか？同じ生成パラメーターを使ってもカバーと同じ画像が再現できないのはどうしてですか？

A：カバーに示された生成パラメーターはNOTテキスト to 画像のパラメーターですが、拡大用の画像 to 画像パラメーターです。ベース画像は主に Euler Ancester サンプラーによって生成され、DPM サンプラーではありません。

2 特別用途

2.1 一般化されたスタイル

バージョン 0.7 から、AIDXL は似たスタイルをいくつかまとめ、一般化されたスタイルのトリガーワードを導入しました。これらのトリガーワードはそれぞれが 一般的なアニメーションイラストスタイルカテゴリを表しています。一般スタイルのトリガーワードは、その単語の意味が示す芸術的な意味に必ずしも準拠しませんが、特別に再定義されたトリガーワードであることに注意してください。

2.2 キャラクター

バージョン 0.7 から、AIDXL はキャラクターのトレーニングを強化しています。いくつかのキャラクタートリガーワードは Lora の効果を既に達成しており、キャラクターの概念を独自の服装からうまく分離することができます。

キャラクターのトリガー方法は: {キャラクター} \({著作権}\)。例として、アニメ「サイバーパンク: エッジャーナーズ」のヒロイン ルーシー をトリガーするには lucy \(cyberpunk\) を使用します。ゲーム「原神」のキャラクター甘雨をトリガーするには ganyu \(genshin impact\) を使用します。ここで、「lucy」と「ganyu」はキャラクター名であり、「\(cyberpunk\)」と「\(genshin impact\)」は対応するキャラクターの出典であり、括弧はスラッシュ「\」でエスケープされて、重み付きタグと解釈されるのを防ぎます。一部のキャラクターにとって、著作権部分は必須ではありません。

バージョン v0.8 から、さらに 簡単な トリガー方法があります: a {girl/boy} named {キャラクター} from {著作権} series。

キャラクタートリガーワードの一覧については: selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co )。さらに、このドキュメントでは言及されていない追加のトリガーワードも含まれている場合があります。

一部のキャラクターには、追加のトリガーステップが必要です。使用時に、単一のキャラクタートリガーワードで完全にそのキャラクターを再現できない場合は、プロンプトにキャラクターの主な特徴を追加する必要があります。

AIDXL はキャラクターの着せ替えをサポートしています。キャラクタートリガーワードには通常、キャラクター自体の服装の特徴が含まれていません。キャラクターの服装を追加したい場合は、プロンプトに服装タグを追加する必要があります。例として、銀のイブニングガウン、深いネックライン はゲーム碧蓝航線からamazing quality, best quality, high quality, normal quality, low qualityおよびworst quality。

品質タグに追加の重みを加えることをお勧めします。例：(amazing quality:1.5)。

2.4 美的タグ

バージョン 0.7 以降、美的タグが導入され、画像の特別な美的特徴を記述しています。

2.5 スタイルのマージ

いくつかのスタイルをカスタマイズしたスタイルにマージすることができます。「マージ」とは実際には同時に複数のスタイルトリガーワードを使用することを意味します。例として、春麗、驚異的な品質、(by よねやままい:0.9), (by chi4:0.8), by ask, by modare, (by いっきしてい:0.9).

いくつかのヒント：

スタイルの重みと順序を調整して最終的なスタイルを調整します。

プロンプトに追加するのではなく、前置します。

IV トレーニング戦略とパラメーター

AIDXLv0.1

SDXL1.0をベースモデルとして使用し、約22kのラベル付き画像を用いてコサインスケジューラーで100エポック程度トレーニングしました。その後、学習率2e-7と同じ他のパラメーターを使用してBモデルを取得。それにより、モデルAとBを統合したAIDXLv0.1モデルを取得しました。

AIDXLv0.51

トレーニング戦略

AIDXLv0.5からのトレーニングを継続し、トレーニングを2つのランでパイプラインして実行：

ロングキャプショントレーニング：データセット全体を使用し、いくつかの画像を手動でキャプションしています。U-Netとテキストエンコーダーを共にAdamW8bitオプティマイザーでトレーニングし、高い学習率（約1.5e-6）をコサインスケジューラーで採用し、学習率が閾値（約5e-7）未満になると停止。

ショートキャプショントレーニング：ステップ1の出力からトレーニングを再開。同じパラメーターと戦略を使用し、短いキャプションの長さのデータセットを使用します。

精錬ステップ：手動で選ばれた高品質の画像を持つデータセットのサブセットを作成します。ステップ2の出力からのトレーニングを再開し、低学習（約7.5e-7）で、5から10のターンでコサインスケジューラーを用いて再設定します。結果が美的によいものになるまでトレーニングします。

固定トレーニングパラメーター

ノイズオフセットのような余分なノイズはなし。

Min SNR Gamma = 5: トレーニングを加速します。

完全なbf16精度。

AdamW8bitオプティマイザー：効率と性能のバランス。

データセット

解像度: 正規化されたSDXLのバケッティング戦略で、1024×1024の総解像度。

キャプション：WD14-Swinv2モデルで0.35の閾値でキャプション。

クローズアップクロップ：いくつかのクローズアップに画像をクロップします。トレーニング画像が大きいか稀である場合に非常に便利です。

トリガーワード：画像の最初のタグをトリガーワードとして保持します。

AIDXLv0.6

トレーニング戦略

AIDXLv0.52 からトレーニングを再開し、適応的な繰り返し戦略を採用します – データセットのそれぞれのキャプション付き画像に対して、以下のルールに基づいてそのトレーニングでの繰り返し数を増やします：

規則1：その画像の品質が高ければ高いほど、その繰り返し回数は多くなります；

規則2：その画像がスタイルクラスに属する場合：

そのクラスがまだ適合していないか未適合の場合、クラスの繰り返し回数を手動で増やすか、クラス内のデータの総繰り返し回数が約100に達するように自動的にその繰り返し回数を増やします。

そのクラスがすでに適合しているか過剰適合の場合、繰り返し回数を1に強制し、品質が低ければそのデータを削減します。

規則3：その最終的な繰り返し回数がある閾値を超えないようにします。これにより、コントロールが容易になります。

この戦略には次の利点があります：

新しいトレーニングからモデルのオリジナル情報を保護し、正則化された画像と同じ考えを持ちます；

トレーニングデータの影響をよりコントロールしやすくします；

適合していないクラスを奨励し、すでに適合しているクラスへの過剰適合を防ぎながら、異なるクラス間のトレーニングをバランスさせます；

計算リソースを大幅に節約し、モデルに新しいスタイルを追加するのが容易になります。

固定トレーニングパラメーター

AIDXLv0.51 と同じです。

データセット

AIDXLv0.6データセットはAIDXLv0.51を基にしています。また、次の最適化戦略が適用されています：

キャプションセマンティックソート：キャプションタグをセマンティック順にソートします。例：「銃、1男子、保持、短髪」->「1男子、短髪、保持、銃」。

キャプションの重複除去：重複したタグを削除し、その情報を保持するものを保持します。重複したタグは「長い髪」と「非常に長い髪」などの類似した意味を持つタグです。

追加タグ：すべての画像に手動で追加のタグを付与します。例：「高品質」、「インパスト」など。これを迅速に行うためのツールがいくつかあります。

VI AIDXL 対 AID

2023/08/08。AIDXL は AIDv2.10 と同じトレーニングセットでトレーニングされていますが、AIDv2.10 を上回っています。 AIDXLはよりスマートで、SD1.5ベースのモデルができない多くのことを達成し、概念を区別し、イメージディテールを学び、SD1.5やAIDが難しいまたは不可能な構図を処理します。それはまた、旧バージョンのAIDが完全にマスターできなかったスタイルを学びます。全体として、それは絶対的な可能性を持っています。AIDXLを更新し続けます。

VII スポンサーシップ

私たちの仕事が好きであれば、Ko-fi(https://ko-fi.com/eugeai) を通じて私たちをスポンサーして、私たちの研究開発をサポートしてください。ご支援誠にありがとうございます~

モデル紹介（中国語部分）

I 目录

この紹介では、以下のことを学びます：

模型介绍（见 II 部分）；

使用指南（见 III 部分）；

训练参数（见 IV 部分）；

触发词列表（见附录 A 部分）

II 模型介绍

动漫插画设计XL，或称 AIDXL 是一款专用于生成二次元插图的模型。它内置了 800 种以上（随着更新越来越多）的插画风格，依靠特定触发词（见附录 A 部分）触发。

优点：构图大胆，没有摆拍感，主体突出，没有过多繁杂的细节，认识很多动漫人物（依靠角色日文名拼音触发，例如，“ayanami rei”对应角色“绫波丽”，“kamado nezuko”对应角色“祢豆子”）。

III 使用指南（将与时俱进）

1 基本用法

1.1 提示词书写

使用触发词：使用附录 A 所提供的触发词来风格化图像。适合的触发词将 极大地 提高生成质量；

提示词标签化：使用标签化的提示词描述生成对象；

提示词排序：排序您的提示词将有助于模型理解词义。推荐的标签顺序：

触发词（by xxx）->主角（1girl）->角色（frieren）->种族（elf）->构图（cowboy shot）->风格（impasto）->主题（fantasy）->主要环境（forest, day）->背景（gradient background）->动作（sitting）->表情（expressionless）->主要人物特征（white hair）->人体特征（twintails, green eyes, parted lip）->服饰（white dress）->服装配件（frills）->其他物品（magic wand）->次要环境（grass, sunshine）->美学（beautiful color, detailed, aesthetic）->质量（best quality）

负面提示词：worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成参数

分辨率：确保图像总分辨率（总分辨率=高度x宽度）围绕1024*1024且宽和高均为32的倍数。例如，832×1216 (3:2), 1216×832 (3:2), 以及 1024×1024 (1:1)。

不进行“Clip Skip”操作，即 Clip Skip = 1。

采样器和步数：采用 “euler_ancester” 采样器（sampler），该组合在 webui 里称为 Euler A。在 7 CFG Scale 上采样 28 步。

仅需要使用模型本身，而不使用精炼器（Refiner）。

使用基底模型 vae 或 sdxl-vae。

2 特殊用法

2.1 泛风格化

0.7 版本归纳了若干相似插画画风，引入了泛风格触发词。泛风格触发词各代表一种常见动漫插画画风类别。

请注意，泛风格触发词并不一定符合其词义指代的美术含义，而是经过重新定义的特殊触发词。

2.2 角色

0.7 版本对强化训练了角色。部分角色触发词的还原度已经能够达到 lora 的效果，且能够很好地将角色概念与其本身的着装分离。

角色触发方式为 角色名 \(作品\)。例如，触发动画《赛博朋克：边缘行者》的女主角露西则使用 lucy \(cyberpunk\)；触发游戏《原神》中的角色甘雨则使用 ganyu \(genshin impact\)。这里，“lucy” 和 “ganyu” 为角色名，“\(cyberpunk\)” 和 “\(genshin impact\)” 则为对应角色的作品出处，括号使用斜杠”\”转义以防止被解释为提示词加权。对于部分角色，出处并非必要。

角色触发词请参照 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co )。

在使用中，若仅靠单个角色触发词无法完全还原角色，则需要在提示词中添加该角色的主要特征。

角色触发词通常不会携带角色本身的着装特征，若要添加角色着装，则需要在提示词中添加衣物名。例如，游戏《碧蓝航线》中角色圣路易斯 ( st. louis \(luxurious wheels\) \(azur lane\) ) 的衣装触发可使用 silver evening gown, plunging neckline。类似地，您也能对任何角色添加其他角色的衣装标签。

2.3 质量标签

0.7 版本的质量和美学标签经过正式训练，在提示词中尾随它们将影响生成图像的质量。

0.7 版本正式训练并引入了质量标签，质量标签分为六个等级，由好到坏分别为：amazing quality, best quality, high quality, normal quality, low quality 和 worst quality.

2.4 美学标签

0.7 版本起引入了美学标签，描述图像的特殊美学特征。

2.5 风格融合

您可以将一些样式合并到您的自定义样式中。 “合并”实际上意味着一次使用多种风格触发词。例如，chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

一些技巧：

控制风格的权重和顺序来调整最终风格。

尾随而非前置到提示词上。

3 注意事项

使用 SDXL 支持的 VAE 模型、文本嵌入（embeddings）模型和 Lora 模型。注意：sd-vae-ft-mse-original 不是支持 SDXL 的 vae；EasyNegative、badhandv4 等负面文本嵌入也不是支持 SDXL 的 embeddings；

对于 0.61 及以下版本：生成图像时，强烈推荐使用模型专用的负面文本嵌入（下载参见 Suggested Resources 栏），因其为模型特制，故对模型几乎仅有正面效果；

每个版本新增触发词将在当前版本效果相对较弱或不稳定。

IV 训练参数

以 SDXL1.0 为底模，使用大约 2w 张自己标注的图像在 5e-6 学习率，循环次数为 1 的余弦调度器上训练了约 100 期得到模型 A。之后在 2e-7 学习率，其余参数相同的条件下，训练得到模型 B。将模型 A 与 B 混合后得到 AIDXLv0.1 模型。

其他训练参数请参照英文版本的介绍。

VI 更新日志

2023/08/08：AIDXL 使用与 AIDv2.10 完全相同的训练集进行训练，但表现优于 AIDv2.10。AIDXL 更聪明，能做到很多以 SD1.5 为底模型无法做到的事。它还能很好地区分不同概念，学习图像细节，处理对 SD1.5 来说难于登天的构图，几近完美地学习旧版 AID 无法完全掌握的风格。总的来说，它拥有比 SD1.5 更高的上限，我会继续更新 AIDXL。

2024/01/27：0.7 版本新增了大量内容，数据集大小是上一版本的两倍以上。

为了得到令人满意的标注，我尝试了很多新的标签处理算法，例如标签排序、标签分层随机化、角色特征分离等等。项目地址：Eugeoter/sd-dataset-manager (github.com )；

为了使训练可控，且更加服从我的意愿，我基于 Kohya-ss 制作了特制的训练脚本；

为了掌控不同世代的模型的融合过程，我开发了一些启发式的模型融合算法；为了使模型达到足够的风格化，我放弃了通过融合文本编码器和UNET的OUT层来提高模型的稳定和美学，因为这会伤害模型的风格。

为了筛选和过滤数据，我训练了一个水印检测模型、一个图像分类模型、一个美学评分模型，来帮助我清洗数据。

VII 赞助我们

如果您喜欢我们的工作，欢迎通过 Ko-fi(https://ko-fi.com/eugeai) 赞助我们，以支持我们的研究和开发，感谢您的支持！

Appendix / 附录

A. Special Trigger Words List / 特殊触发词列表

アートスタイルのトリガーワード: こちらをクリック

ペインティングスタイルのトリガーワード: フラットカラー、クリーンカラー、セルロイド、フラットパスト、薄パスト、擬似厚塗り、厚塗り、リアルな、写真リアルな、セルシェーディング、3D

フラットカラー: 平面の色彩、光と影をラインで描写

平涂：平面色彩，使用线条和色块描述光影和层次

クリーンカラー: フラットカラーとフラットパストの間のスタイル。シンプルできれいな着色。

具有简洁色彩的平涂，介于 flat color 和 flat-pasto 之间

セルロイド: アニメの着色

平涂赛璐璐：动漫着色

フラットパスト: ほとんどフラットカラーで、光と影をグラデーションで表現

接近平面的色彩，使用渐变描述光影和层次

薄パスト: 薄い輪郭線で、グラデーションと絵の具の厚さで光、影、レイヤーを描写

细轮廓勾线，使用渐变和颜料厚度描述光影和层次

擬似厚塗り：グラデーションと絵の具の厚さで光、影、レイヤーを描写

伪厚涂 / 半厚涂：使用渐变和颜料厚度描述光影和层次

厚塗り：ペンキの厚さで光、影、グラデーションを描写

厚涂：使用颜料厚度描述光影和层次

リアルな

写实

写真リアルな: リアルワールドに近いスタイルに再定義

相片写实主义：重定义为接近真实世界的风格

セルシェーディング: アニメ3Dモデリングスタイル

卡通渲染：二次元三维建模风格

3D

美的トリガーワード：

美しい

美丽

美的: やや抽象的な芸術感

唯美：稍微抽象的艺术感

詳細な

细致

美しい色: 微妙な色の使用

协调的色彩：精妙的用色

低解像度

ごちゃごちゃ: ごちゃごちゃした構図やディテール

杂乱：杂乱的构图或细节

品質トリガーワード：驚異的な品質、最高の品質、高い品質、低い品質、最悪の品質

投稿者

美纪子沢岡

私はDiffusのギャラリーエディターです。最近Stable Diffusionを使い始め、学んだことをコミュニティと共有したいと思っています。趣味で漫画を愛読しており、Instagramでも活発に活動しています。

PrevPreviousEthernalDope – v10

Nextスーパ無敵かわいい – v2Next

Leave a Reply Cancel reply
You must be logged in to post a comment.

同じコレクションのモデル - Anime Illust Diffusion XL

チェックポイントモデル

Anime Illust Diffusion XL - v05alpha

Collection: Anime Illust Diffusion XL

モデルが見つかりません

このモデルを使用

モデルの詳細

モデルタイプ

Checkpoint

ベースモデル

SDXL 1.0

モデルハッシュ

c57cecf7c7

モデルバージョン

v05alpha

学習済み単語

SEE APPENDIX, 见附录

作成者

Euge_

参照

Civitai

モデルレビュー

You must be logged in to submit a review.

Leave a Reply Cancel reply
You must be logged in to post a comment.

同じモデルによる画像 - Anime Illust Diffusion XL

着物を着た少女の美的ポートレート

黒いドレス姿の時崎狂三

黒い着物を着た男性のfajyoboreアート

夜景の夏油傑

時崎狂三スピリットフォームポートレート

サンプラー	Euler Ancester
ステップ数	28
cfg	7 to 9
CLIP スキップ	1
vae	sdxl-vae
解像度	832×1216, 1216×832, 1024×1024

Anime Illust Diffusion XL – v05alpha

関連キーワード＆タグ

注目の画像

夜景の夏油傑

時崎 狂三 スピリットフォーム ポートレート

着物を着た少女の美的ポートレート

黒いドレス姿の時崎狂三

黒い着物を着た男性のfajyoboreアート

おすすめのプロンプト

おすすめのネガティブプロンプト

おすすめのパラメーター

おすすめのハイレゾ（高解像度）パラメーター

ヒント

モデルバージョンの主な特徴

モデル開発者スポンサー

モデル紹介（英文部分）

I 目次

II AIDXL

III 使用ガイド

1 基本使用法

2 特別用途

IV トレーニング戦略とパラメーター

AIDXLv0.1

AIDXLv0.51

AIDXLv0.6

VI AIDXL 対 AID

VII スポンサーシップ

モデル紹介（中国語部分）

I 目录

II 模型介绍

III 使用指南（将与时俱进）

1 基本用法

2 特殊用法

3 注意事项

IV 训练参数

VI 更新日志

VII 赞助我们

Appendix / 附录

A. Special Trigger Words List / 特殊触发词列表

投稿者

美纪子 沢岡

Leave a Reply Cancel reply

同じコレクションのモデル - Anime Illust Diffusion XL