静止画から動画を作れるAI「Creative Reality Studio」の使い方

イラストや写真などをアップロードしてテキスト入力するだけで、しゃべる動画を生成してくれるサービス「Creative Reality Studio」を使ってみました。

動画を撮影しなくても、静止画1枚とテキストさえあれば動画を生成できるのは手軽で魅力的です。

正直、日本語で試しているからか仕上がりのクオリティーはさほどでもなかったんですけど、今後の進化が楽しみなサービスだったので紹介します。

Creative Reality Studioのざっくりとした概要

Creative Reality Studioは、イスラエルのD-ID社が2022年12月13日にリリースしたサービスです。

D-ID独自のAI技術に、OpenAI社の対話型AI「ChatGPT」で使われている技術「GPT-3」と、Stability AI社の画像生成AI「Stable Diffusion」を組み合わせているとのこと。

Stable Diffusionの要領でテキスト入力(プロンプト入力)するだけでアバターを作成し、そのアバターにしゃべらせることができます。

Creative Reality Studio内でアバターを生成しなくても、写真やイラストはアップロードすることができますので、わざわざCreative Reality Studio内で作る必要はなさそうですが、アバターの作成から動画の完成までを一つのツールでできるのは強みだと思います。

僕は最近Lexicaというサービスを愛用していて、ここで作成したイラストが美しいので、こちらを使ってみます。

しゃべっているところは流石にブログだけだと伝えきれませんので、ブログをご覧ください。再生させたら冒頭20秒程度Creative Reality Studioで作った動画を見ることができます。

ご覧いただくと分かりますが、日本語の発音がたどたどしかったり、顔の動きが派手だったり、背景も一緒に動いてしまったりといろいろありますが、思ってたよりも使えそうな感じがします。

元々口を閉じた静止画なのに、しゃべっていると歯がチラッと見えたりと、口を開いているところがしっかり生成されているのがスゴイですね。

動画作成の手順は、まず左側のCreate Videoをクリックしてから、

下部のChoose a presenter内のADDボタンをクリックして写真やイラストを選択します。

右下のプルダウンで、言語・声・しゃべり方を選択します。

あとはしゃべらせたいテキストを入力したら右上のGenerate Videoボタンをクリックするだけです。

無料だと20クレジット分の動画を生成できるんですが、クレジットは文章量(＝生成される動画の尺)によって左右されるので、最初は少なめでテストしてみてください。

普通に動画撮影したものと、Creative Reality Studioが作ったもののキャプチャーの比較です。静止画でも右側の違和感がすごいですね。正気がなくなります。

また、音声ファイルをアップロードすることもできます。音声に合わせて口が動いてくれるので、せめてしゃべりだけは自然にしたいっていう場合に活用できます。

気になる料金ですが、無料のトライアルプランを含めてこちらの5段階です。

商用利用可能なのはプロプラン以上なので、YouTubeなどで使おうと思ったら月額49.99ドルからですね。

月間15分までしか作れないため、動画の冒頭部分で喋るように作るとか、月に1本だけCreative Reality Studioで作ったアバターがしゃべる回があるとか、そういう使い方になっちゃいそうです。

個人的には、冒頭だけしゃべるパターンは「世にも奇妙な物語」のタモリさんっぽくて、構成次第では活かせそうな気がしました。

VTuberが使っているようなソフトの方がリアルタイムで追従してくれることもあり、現時点では優秀な感じがしますが、Creative Reality Studioは自分がしゃべらなくてもいいというアドバンテージがあります。

また、日本語よりも英語の方が自然な感じがしたので、英語はしゃべれないけど英語圏に向けたコンテンツを作りたいという方にはおすすめです。