川岩正義/カワイイ工房

エッチでフラットなモデルを作りたい #1

Added 2023-07-13 09:02:48 +0000 UTC

支援者の皆様、フォロワーの皆様お久しぶりです。カワイイ工房の河岩正義です。このFANBOXを更新していなかったニヶ月の間にしていたことを説明したいと考え、今回の更新をいたしました。pixivの規約更新に伴う今後の方針に付きましては別の記事で説明いたします。

今回は、技術よりの内容になっているので、エッチなイラストをみたいよ～って人は期待に添えないかもしれません。R18イラストも平気で入っているので注意してください

今回のテーマはタイトルの通りエッチでフラットな塗りの生成モデルを作りたいという内容です。AIイラストに興味がある人は見てみると面白いと思います。できるだけ

平易な言葉使うようにしますし、説明も多めに入れるのでぜひ見て行ってください。

そもそも理想のフラットなイラストって何？

当然の疑問だと思います。まず下の画像をみてください

こんな感じです。無理に言語化するなら陰影が薄く、最低限の線、（ぱっと見の）情報量が少ない美麗なイラストと言うべきでしょうか。世間一般のフラットな塗りとは定義が違うかもしれまん。

ちなみにこのイラストの出処は後で語ります。

要はアニメ塗りでしょ？そんなモデルなら沢山あるじゃん

はい。これも正当なご指摘です。civitaiを見回すとanime styleを謳うモデルは沢山あります。しかしこれらモデルには大きな欠点があります。

二次元イラストモデルが抱える問題（R18）

　2次元イラストモデルでは、かなり多様な絵柄を学習している影響で、特にサンプルが少ないニッチイラストで、特定の絵柄に引っ張られて、同じモデルでも全く異なる絵柄が出力されるということがよくあります。

　またR18モデルで（通称hentaiモデル）はgape60 というハードコアHのイラストを集中的に学習させているモデルを混ざっていることが多いです。リンク先（R18注意）を見ていただけるとサンプルが載っているのですが、美麗とは程遠いイラストが出力されます。

従ってR18のシチュエーションで、絵柄がコロコロ変わるということが良くあります。例えば、自分の作品だと

自分の作品でも可愛いJKを拉致した話【2万フォロワー記念】

では、

このように作画崩壊レベルで絵柄が変わるということがよくあります。このモデルは普通のイラストなら下の様にかなり安定した美麗なイラストが出力されるのです。

しかしnsfwだと特にクソザコナメクジのような絵柄が出てきてしまいます。

つまり、今回の主目的はこの絵柄のブレを抑えたいということです。

どうやって絵柄のブレを抑えるの

実は絵柄のブレを抑える方法を自分は知っていました。正確にはブレの少ないモデルを私は知っていました。AOM3（Abyss Orange Mix 3）です。かなり前に使っていたモデルですが、これは非常に安定した絵柄を生成していました。

以下のイラストは厳密に言えば、AOM3の派生モデルで生成していますが、手持ちに純粋なAOM3のイラストがなかったので許してください。

元:アイドルを拉致した話

多少、幼くなったりはしていますが、同一のモデルで生成されていることは分かると思います。

分析：なぜAOM3は絵柄のブレが少ないのか

私は二次元モデルの問題点で絵柄のブレは多数の絵柄を学習しているために発生すると主張しました。ではAOM3のモデル組成を見てみましょう。

ベースモデル+リアルスティックモデル+nsfwモデルで構成されています。

具体的には

anything v3(二次元特化モデル)+ basilmix(2.5次元よりの3次元モデル) = AOM2 sfw

AOM2sfw + nsfw化（gapeなど）= AOM3

という構成です。AOMは珍しくマージレシピが公開されているモデルなので気になる方は直接見ていただけば詳しい比率も載っています。

つまりAOMは2次元モデルと3次元モデルの混合モデルです。3次元モデルは言うなれば、写真という統一された絵柄を中心に学習したモデルと言い換えても差し支えないと思います。ここまで言えば分かるかもしれません。

つまり、統一された絵柄から学習したモデル（ここでは3次元モデル）を混合したことで、絵柄のブレが緩和されたと考えています。

ジレンマ

　ここでジレンマが発生します。私が作りたいモデルはフラットな2次元モデルです。

しかし3次元モデルを2次元モデルを混ぜると二次元イラストなんだけど、でもどこかリアルのイラストが出力されるようになってしまいます。上のイラストはその代表例です。フラットな２次元モデルには使えません…どうすれば良いのでしょうか...

ここである情報を入手しました。スライダー系のLoRAが熱いという内容でした。

まずLoRAって何？

ここでは簡単に説明します。LoRAは「Low-Rank Adaptation」の略です。はい何言っっているかわかりません。簡単に言えば、生成モデルに新しい概念を覚えさせる追加学習の一種です。一般にはLoRAと言えば追加学習済みのファイルを指すことが多いです。このLoRAの利点は数十枚のイラストからでも十分に特徴を学習できるというお手軽さや、学習済みのファイルを10MB~300MB程度の低容量で共有でき、学習時とは別のモデルでも扱えるという点から、追加学習の主流の手段となっています。キャラ再現や画風狙い撃ちLoRAはよく著作権の兼ね合いから槍玉に挙げられているので知っている人も多いかもしれませんね。