Stable Diffusion メモ: キャンバスの縦横比は構図にどれくらい影響するか

Stable Diffusion が公開されてからいろいろ動かして出力の傾向を見てみようとしたメモ。

 

やったこと

同じpromptを指定して、

  • 縦長(512x768)
  • 横長(768x512)
  • 正方形(512x512)

のサイズごとにそれぞれ200枚ずつ出力、それら画像の傾向を見て構図にどんな変化があるかを確認しようとした。ザッと見の印象、感触のみで評価し、定量評価はしない。

 

使用したプロンプト:

a picture of robot and drill and girl greg manchess character concept art of an anime goddess of lust | | cute - fine - face, pretty face, realistic shaded perfect face, fine details by stanley artgerm lau, wlop, rossdraws, james jean, andrei riabovitchev, marc simonetti, and sakimichan, tranding on artstation

↑の元として参考にさせてもらったプロンプトはこちら

www.reddit.com

 

結果

縦長(512x768)

ザッと見の印象で、

  • エスト、膝丈、全身の姿が描かれることが多い
  • 背景はあまりない
  • 顔の崩れはすくない
作例:

 

横長(768x512)

ザッと見の印象で、

  • バストアップも多くなる

  • 1つの絵の中に2人描かれる確率が非常に高い

  • 背景が描かれる絵が多い

  • 縦長に比べて顔が崩れる絵が多くなる

     

顔崩れが多くなるのは気になる、背景込みの学習データがノイズになるんだろうか?

作例:


正方形(512x512)

  • 傾向としては縦長の出力に似ている 縦長の出力を上下切り取った感じ?
    • しかし横長の構図に似ているものも見られる

  • バストアップ多め、クローズアップも見られる
作例:



思ったこと

学習データの構図の傾向に引き寄せられるかたちで生成結果の構図も決まってくるのかなぁという気はした(縦長は背景無地のポートレート、横長は背景のなかにキャラクターがいる絵とか)。自分の得たい絵の構図に合わせてキャンバスの縦横比を検討するのも必要そうだ。

 

その他メモ

1枚あたりの作成速度
CPU: Ryzen 7 5800
MEM: 64GB
GPU: RTX 3080 Gaming Z TRIO 12G

縦長横長 1枚9~10秒
正方形 1枚5~6秒

 

promptを大幅に変更してから初回の作成は、3~40枚ほどは1枚につき20秒~1分ほどかかった。アーキテクチャはよくわからないけど、最初は機械学習のモデル? を生成しながら描画でもしているのだろうか… 40枚くらい描き終わるとあとは1枚9~10秒程度に落ち着いた。

 

オーバークロックをもとからやってるグラボだからか、描画中はGPUの温度が85℃、サーマルスロットリングを起こすことも。このままだと壊れそうだしちょっとクロック落とさないと…

 

その他の作例

爺さん

おっさん

 

風景と人物


 

いやほんとにさわってておもしろい!

続き

img2imgに挑戦しました

 

jtnoske.hateblo.jp

 

jtnoske.hateblo.jp