動画のテロップを自動文字起こしから整理する手順がまだ決まらない問題

動画のテロップを自動文字起こしから整理する手順がまだ決まらない問題
関連キーワード
映像制作

Adobeのソフトは好きですが、いかんせん高いですし、DaVinci Resolveも使えるようにしようと思っていろいろ試してます。

現状だと自動文字起こしはPremiere Proの精度が高くて気に入っていて、なおさら脱Adobeが難しく。

とはいえPremiere Proの文字起こしも全然完璧じゃなく、でも他の文字起こしツールも課題があり、どうしたものかと迷っているところを一旦ブログに書き留めておきます。

この記事執筆時の2026年1月の話ですので、時間が解決してくれることを願います。

Premiere Proの自動文字起こしのメリットとデメリット

Premiere Proの自動文字起こしは、サクッと作業が終わるので、速度の面ではかなり気に入ってます。

20分ほどの動画が2,3分待てば文字起こしできるのはありがたいです。

また、タイムスタンプの位置もかなり綺麗です。発話に対してきっちり切ってくれてます。

問題は、「意味ではなく文字数ベースでテロップを分割されてしまう点」です。多少は考慮してくれるんですけど、意味としてひとまとまりのテロップにはなりにくいです。

そのため、テロップの中の文字をいくつかピックアップしてコピーし、次のテロップに移動させて、前のテロップの終了位置と次のテロップの開始位置をずらすという作業が発生します。

これがかなり面倒な作業です。

それと単語登録などができないため、頻出する固有名詞を間違い続けるというデメリットもあります。

Whisperでの文字起こしのメリットとデメリット

Codexを使うようになってからはローカル環境で手軽にWhisperを使えるようになりました。インストールもCodexにやってもらいましたし、文字起こし作業もCodexを使っています。

Whisperでの文字起こしは、噂通り精度がかなり高いです。

ただ、作業時間がかなりかかります。モデルをsmall/medium/largeから選べるんですが、mediumでも「20分ほどの動画の文字起こしに十数分かかる」レベルです。

文字起こしの精度は高いものの、タイムスタンプの位置がズレるのが欠点です。この点においてはPremiere Proの勝ちです。

ちなみに、動画を読ませるとCodexのトークン消費量がすごいことになるので、.aacなどの軽量な音声ファイルを使って文字起こしをやってもらいました。

タイミングを合わせられると噂のWhisperXもうまく行かず

WhisperXを使うとタイムスタンプがより正確になるという情報を得て試してみました。

結果は全然うまくいきませんでした。

これもPremiere Proの文字起こしのファイルのタイムスタンプの精度を超えることができず。

現状はPremiereの文字起こしベースで生成AIで調整がベター

いろいろ試してみた結果、現状僕の理想に近いのはPremiere Proでの文字起こしをLLMで調整したものです。

Premiere Proでの文字起こしが終わったらSRTファイル(字幕ファイル)を書き出してから、Codexを使って調整してます。

Codexで作業するメリットは、一度作ったルールはrule.mdに記載しておけば、次回以降は「rule.mdを見て文字起こしして」で済むのが楽な点です。

固有名詞やよく起こる間違った文字起こしのパターンをcsvに記載しておくことで、次回以降の精度が高まるのも強みです。

最後に

まだいろいろ実験中ですが、あと少しというところまでは来てるので、情報収集や実験は進めていきます。

字幕のタイムスタンプがズレる問題、MFAという方法もあるようで、こちらはまた時間を見つけて試してみようと思います。

キーワード
映像制作