支援者の皆様、フォロワーの皆様お久しぶりです。カワイイ工房の河岩正義です。このFANBOXを更新していなかったニヶ月の間にしていたことを説明したいと考え、今回の更新をいたしました。pixivの規約更新に伴う今後の方針に付きましては別の記事で説明いたします。
今回は、技術よりの内容になっているので、エッチなイラストをみたいよ~って人は期待に添えないかもしれません。R18イラストも平気で入っているので注意してください
今回のテーマはタイトルの通りエッチでフラットな塗りの生成モデルを作りたいという内容です。AIイラストに興味がある人は見てみると面白いと思います。できるだけ
平易な言葉使うようにしますし、説明も多めに入れるのでぜひ見て行ってください。
当然の疑問だと思います。まず下の画像をみてください
こんな感じです。無理に言語化するなら陰影が薄く、最低限の線、(ぱっと見の)情報量が少ない美麗なイラストと言うべきでしょうか。世間一般のフラットな塗りとは定義が違うかもしれまん。
ちなみにこのイラストの出処は後で語ります。
はい。これも正当なご指摘です。civitaiを見回すとanime styleを謳うモデルは沢山あります。しかしこれらモデルには大きな欠点があります。
2次元イラストモデルでは、かなり多様な絵柄を学習している影響で、特にサンプルが少ないニッチイラストで、特定の絵柄に引っ張られて、同じモデルでも全く異なる絵柄が出力されるということがよくあります。
またR18モデルで(通称hentaiモデル)はgape60 というハードコアHのイラストを集中的に学習させているモデルを混ざっていることが多いです。リンク先(R18注意)を見ていただけるとサンプルが載っているのですが、美麗とは程遠いイラストが出力されます。
従ってR18のシチュエーションで、絵柄がコロコロ変わるということが良くあります。例えば、自分の作品だと
では、
このように作画崩壊レベルで絵柄が変わるということがよくあります。このモデルは普通のイラストなら下の様にかなり安定した美麗なイラストが出力されるのです。
しかしnsfwだと特にクソザコナメクジのような絵柄が出てきてしまいます。
つまり、今回の主目的はこの絵柄のブレを抑えたいということです。
実は絵柄のブレを抑える方法を自分は知っていました。正確にはブレの少ないモデルを私は知っていました。AOM3(Abyss Orange Mix 3)です。かなり前に使っていたモデルですが、これは非常に安定した絵柄を生成していました。
以下のイラストは厳密に言えば、AOM3の派生モデルで生成していますが、手持ちに純粋なAOM3のイラストがなかったので許してください。
多少、幼くなったりはしていますが、同一のモデルで生成されていることは分かると思います。
私は二次元モデルの問題点で絵柄のブレは多数の絵柄を学習しているために発生すると主張しました。ではAOM3のモデル組成を見てみましょう。
ベースモデル+リアルスティックモデル+nsfwモデルで構成されています。
具体的には
anything v3(二次元特化モデル)+ basilmix(2.5次元よりの3次元モデル) = AOM2 sfw
AOM2sfw + nsfw化(gapeなど)= AOM3
という構成です。AOMは珍しくマージレシピが公開されているモデルなので気になる方は直接見ていただけば詳しい比率も載っています。
つまりAOMは2次元モデルと3次元モデルの混合モデルです。3次元モデルは言うなれば、写真という統一された絵柄を中心に学習したモデルと言い換えても差し支えないと思います。ここまで言えば分かるかもしれません。
つまり、統一された絵柄から学習したモデル(ここでは3次元モデル)を混合したことで、絵柄のブレが緩和されたと考えています。
ここでジレンマが発生します。私が作りたいモデルはフラットな2次元モデルです。
しかし3次元モデルを2次元モデルを混ぜると二次元イラストなんだけど、でもどこかリアルのイラストが出力されるようになってしまいます。上のイラストはその代表例です。フラットな2次元モデルには使えません…どうすれば良いのでしょうか...
ここである情報を入手しました。スライダー系のLoRAが熱いという内容でした。
ここでは簡単に説明します。LoRAは「Low-Rank Adaptation」の略です。はい何言っっているかわかりません。簡単に言えば、生成モデルに新しい概念を覚えさせる追加学習の一種です。一般にはLoRAと言えば追加学習済みのファイルを指すことが多いです。このLoRAの利点は数十枚のイラストからでも十分に特徴を学習できるというお手軽さや、学習済みのファイルを10MB~300MB程度の低容量で共有でき、学習時とは別のモデルでも扱えるという点から、追加学習の主流の手段となっています。キャラ再現や画風狙い撃ちLoRAはよく著作権の兼ね合いから槍玉に挙げられているので知っている人も多いかもしれませんね。
今回扱うのはスライダーLoRAです。スライダーLoRAは、適用させる強度に応じて生成画像の一部(または全体)が変化するLoRAです。これだけでは何もわからないと思うので画像を見てください。有名なflat LoRAをベースに説明します。このLoRAを適用することでフラットなイラストが出来ます。
横軸がLoRAの適用強度です。真ん中のが基準です。右に行くほどLoRAが強く適用され、左側ではマイナスで適用されています。
画像をみると右に行くほどフラットな色使いになっていることが分かると思います。(髪を見るとわかりやすいですね~)
面白いことにマイナスに適用することでイラストの描き込みが増えています。これがこのLoRAの最大の特徴です。
このLoRAを考えるとフラットなモデルを作れるのではと考えるのは当然の帰結だと思います。この試みは結論だけ話すと部分的に成功しました。
まずは完成したモデルのイラストを見てみましょう。
元:援交少女
こんな感じです。確かにフラットなイラストにはなっていますね。
このモデルはAOMをベースに調整したモデルに色々なスライダーLoRAをマージしています。
ここで満足したはずでした…
#2へ