テキストを入力するとAIが画像を生成してくれるサービスが多々ある中、僕は「Lexica」というウェブサービスを愛用しています。
Stable Diffusionというオープンソースの画像生成AIを使っていて、Stable Diffusion特有のミスがあるなと思ったので、画像生成AIの苦手なところを分析してみました。失敗例とともにご紹介します。
Stable Diffusionがやりがちなミス モノ編
では実例とともにStable Diffusionがやりがちな失敗例を紹介します。
コーヒーカップの画像を作ろうとするとよくあるのが、コーヒー豆をセットで出しがち。現実ではありえないコーヒー豆の使い方をしてきます。
部屋の中のレイアウトも現実味がないことが結構あって、エアコンがどの位置にあると快適かってことは考えてくれません。
楽器は仕組みを理解してません。左は面白画像って感じですけど、右の画像は「ブリッジ側が5弦、ネックでは4弦」です。
フォルムも絶妙に歪んでるんですよね。弦もフレットもなかなか真っ直ぐにしてくれないし。
ドラムとアンプとスピーカーの違いがあまり認識できておらず、ドラムセットはまともなセットを作れません。
鍵盤は白鍵と黒鍵がどういう規則性で並んでいるかを理解してません。
機械類も弱くて、雰囲気は掴んでるものの、謎の機械が大量生産されます。つまみやフェーダーだけでもそれっぽく作ってくれたらもうちょい使い道があるんですけどね。
本も苦手。なかなか左右対称にならないんですよね。
Stable Diffusionがやりがちなミス 人物画像編
人物画像でもおかしなことは多々あって、人のパーツよりは、人が持っているものや映り込んでいるものなど、アイテム類のミスが多めですが、順番に紹介していきます。
柵をまたぐ女性。
マイクがデカくで指が細い。
ヘッドホンが妙にでかい。
背景に謎のアイテムが映り込んでいる。ビルでもないし。プロンプトに「with mic」って書いたから多分マイクなんでしょう。
喉元に謎のガジェット。
頭に謎のガジェット。これはこれでサイバーパンクだと言われたらありっちゃありですけどね。
夢に出てきそうな怖いやつ。このパターン結構多いです。
失敗以上に成功が多い
失敗した画像って面白くて目に付いちゃうんですけども、もちろんうまくいくことも多いです。
失敗例の写真もトリミングしたら使えるものもたくさんありますしね。
うまく行った時のサンプルはこちらの記事に載せてます。
また、最近はYouTubeのサムネによく使ってますので、よかったらタダオトのYouTubeチャンネルの動画一覧をご覧ください。
最後に
ここ最近課金したサービスの中で、ChatGPTと並んで愛用しているのがLexicaです。
無料アカウントでも使える画像がたくさんありますので、気になる方はチェックしてみてください。