画像生成AI用のプロンプトを日本語入力で作る方法はないかといろいろ探してきたんですが、ついに決定的な解決策を見つけました。
ChatGPTのプラグインPhotorealisticを使うことで、ChatGPTに日本語を入力すると、画像生成AI用のプロンプトを作ってくれます。
目次
Photorealisticをインストールする
まずは、ChatGPTのプラグインであるPhotorealisticをインストールしましょう。
ChatGPTのプラグインは、この記事執筆時点ではChatGPT Plusユーザーのみが使うことができるベータ版の機能です。
ChatGPT Plusユーザーがプラグイン機能を有効にした状態であれば、GPT-4ボタンの右側にカーソルを合わせると、プラグイン機能をオンにすることができます。
プラグイン機能をオンにし、プラグインストアに入って、
Photorealisticを探してインストールします。
プラグインは最大3個まで併用できますが、今回はPhotorealistic単体の機能を知りたいので、他のプラグインをオフにします。
ChatGPTに日本語の文章を入れてプロンプトを作ってもらう
画像を生成AI用のプロンプトを作ってもらうために、作って欲しい画像をイメージした文章を作りました。
「パソコンに向かって机の上のキーボードを打っている女性の後ろ姿」と入力してみます。
ちなみに通常のChatGPTの使い方であれば、「Midjourney用のプロンプトを作りたいので下記の条件で作ってください」といった文言を添える必要がありますが、PhotorealisticがONになっていれば説明も不要です。プロンプトに必要な言葉だけを入力すればいいのは手軽でいいですね。
あっという間にMidjourney用のプロンプトを生成してくれました。
早速このプロンプトを使って、Midjourneyで画像を生成してみます。
「パソコンに向かって机の上のキーボードを打っている女性の後ろ姿」の画像が生成されました。
下の2枚を見ると、キーボードという言葉が鍵盤になってしまっていますが、これは僕の説明不足です。指令を出す段階でコントロールするか、提案されたプロンプトを調整することでこのようなミスは減っていくと思います。
Stable Diffusion系のサービスでもそのまま使える
Photorealisticの説明欄には、Midjourney用のプロンプトを生成してくれるプラグインだと説明がありますが、Stable Diffusionを使ったサービスでも問題なく使うことができます。
多少書き換えが必要なことがあるかもしれませんが、そのまま貼り付けて使っても大丈夫です。
というわけで、ClipdropのText to Image機能を使って、Stable Diffusion XLの生成モデルで画像を作ってみます。
プロンプトがMidjourney用なので、特に後ろの方に記載されたパラメーターは無視されますが、英単語の羅列によってうまく伝わるはずです。
出来上がった画像がこちらです。Midjourneyと仕上がりの質感は違うものの、僕がChatGPTに入力した「パソコンに向かって机の上のキーボードを打っている女性の後ろ姿」には近い画像が生成されました。
プロンプトの調整も日本語で指令が出せると楽ちん
プロンプトの調整も手伝ってもらいましょう。
先ほどMidjourneyに作ってもらった画像は夕方から夜の時間帯だったので、時間を昼にして、カメラをもう少し寄りにして、人物の顔が見えるようにしてくださいとChatGPTに入力してみました。
出力されたプロンプトには、昼の時間帯であることと、人物の顔が見えるように書き加えられていますので、こちらをコピーしてMidjourneyで画像を生成してみます。
出来上がった画像がこちらです。若干夕方に差し掛かったオレンジ色っぽさはあるものの、先ほどよりも明るさが増して昼の時間帯らしさが出てきました。そしてカメラももう少し寄っても良さそうですが、先ほどの画像と比較すると表情がわかるようになりました。
プロンプトを書き変えながら好みの画像に調整していく作業は、これまでだったら日本語を英語に翻訳したり、ネット上の情報を集めたりしながら調整してきましたが、その面倒な作業を日本語入力だけで手軽にできるようになったのが、Photorealisticの強みだと感じました。
ChatGPTの素のプロンプト生成能力
Photorealisticのプラグインを使わない場合はどうなるのか、比較のためテストしてみます。
ChatGPTは2021年9月までの情報しか持っていないため、ブラウジング機能はオンにして聞いてみます。
結果はこちらです。いい感じの画像を作るためにはちょっと説明が足らないプロンプトです。このくらいの文章だとDeepL翻訳を使った英文と変わらないので、Photorealisticのすごさがはっきりとわかりました。
追記:画像のURLからプロンプト生成してくれるChatGPTのプラグイン
Photorealisticとは違ったアプローチで、ChatGPTに画像のURLを投稿するとその画像に似たAIイラストのプロンプトを生成してくれるプラグイン「SceneXplain」も便利でした。
日本語でのプロンプト入力でうまくいかなかった時に、Image to Imageで画像を作るような手軽さでプロンプト生成してくれます。
こちらも併せて使ってみてください。
最後に
これまでに紹介してきたプロンプト入力をサポートしてくれる機能やサービスは、元となる画像を探してくることから始まっていました。
例えばMidjourneyのdescribe機能は、画像を元にそれを形成するプロンプトを提案してくれる機能なので、作りたい画像に似た画像を用意する必要があります。
MidjourneyのコミュニティフィードやLeonardo.Aiのフィードを眺めて、そのプロンプトをコピーして作る方法も、好みの画像を見つけることがスタートラインなので、好みの画像が見つからない場合は、ひたすらスクロールしていく必要がありました。
しかし、Photorealisticを使えば、日本語母語話者にとってコントロールが聞きやすく、サンプル画像を探してくる手間がかからないのが最高です。
今後もPhotorealisticを使った画像生成を掘り下げていきますので、また気づきがあれば情報を共有します。