Stable Diffusion web UIのバージョンを1.6.0にあげたので、1.5.0から対応されているSDXLを試してみました。
推奨とされている?1024ピクセルより大きい画像での出力ということで、w1024 x h1536 の設定で数枚出力した感想です。
必要スペックは?
生成に利用したPCのスペックは下記です。
項目 | サブデスクトップ |
---|---|
CPU | Intel Corei7 8705G |
メモリ | 32GB |
GPU | NVIDIA RTX3060 |
GPUメモリ(VLAM) | 12GB |
GPUドライババージョン | 537.58 |
最初にSDXLのモデルをロードした時点では、GPUメモリを10GBくらい使ったところに落ち着いています。しかし実際にプロンプトを入力し、生成させてみるとさらにそこからメモリ利用量がグングン伸びていきます。最終的に共有メモリ(メインメモリ)も利用して20GB程度の使用量になりました。
ドライバーのバージョン531.61からメモリ管理の仕組みが変わっている(参考記事)ため、余計大きくメモリを取っている可能性もあるのですが、GPUメモリが16GBか24GBないときついのかもしれません(12GBで動く記事もあるのですが)。
生成時間はどれくらい?
ドライバーのおかげで?メモリ不足で落ちずにすんだのですが、代わりに時間がかかります。共有メモリを使うせいだと思うのですが、1枚4分前後かかります。SD1.5ベースのモデルで w512 x h768だと同じマシンで1枚十数秒程度です。
ドライバーを古いバージョンにして、GPUメモリだけ使うようにすれば早くなる可能性はありますが、この生成速度は楽しむためには厳しいですね。
画像の出来栄えは?
肝心のできた画像についての出来栄えですが、自分が見た限りとくに大きく進化したようには感じられませんでした。
書き込みが精緻化されているというのは、場面によって感じられるのですが、出したい絵によって恩恵受けるかどうかは大きく変わると思います。例えば背景とかを緻密に描いてもらうときとかにはよいのだと思います。
また生成画像の大きさは大きいですが、それだけならSD1.5で出力したものをwaifu2xで拡大しても十分な品質が得られますし、速度も早いです。
プロンプトが少ない量で意図通りになりやすい、という話もあるのですが、ちょっと試した限りではわかりませんでした。
使ってみる価値は?
SD1.5で大きな不満がないなら、SDXLにのりかえる価値はないと思います。Loraなどこれまでのソフト資産も一から作り直す必要があり、生成に時間もかかるので、苦労する割には得られるものが少ないかなと。