小寺信良の週刊 Electric Zooma!

第1074回

“文章で動画編集!?”Adobe Premiere Pro話題の機能、使ってみた

小寺信良

2023年4月26日 08:00

Premiere Pro

NABに向けて

4月15日から19日のあいだ、米国ラスベガスにて世界最大の放送機器展「NAB Show 2023」が開催された。多くのメーカーが新製品をこの展示会に合わせて発表してくるが、多彩なクリエイティブツールを提供するAdobeも、Premiere Pro、After Effects、Frame.ioのアップデートを発表した。

中でも編集ソフトのPremiere Proのアップデートは、インパクトが大きかった。特に全く新しい編集手法として、文字起こしベースの編集機能を新規搭載したことで、大きな注目を集めている。

正式版の登場は5月になるというが、パブリックベータでその機能を体験することができる。文字起こしベースの編集とは一体どういうものなのか、実際に使ってみた。

素材も全部書き起こす

現在公開されているパブリックベータは、バージョン12.5.0ビルド13となっている。ダウンロードとインストールは、Adobe Creative Cloudの「ベータ版アプリ」から行なえる。

ベータ版はAdobe Creative Cloudからインストールできる

新規プロジェクトを作成し、素材をロードしてみる。今回は筆者と西田宗千佳氏が共同で発行しているメールマガジンのnote版で公開しているオマケコンテンツの中から、4月14日に公開した動画の収録素材を使用する

新規プロジェクトで素材を読み込む

素材を読み込んだ段階で、ソースクリップの文字起こしツールが自動的に起動してくる。これはデフォルトで自動起動するようだ。ここで「文字起こし開始」をクリックすると、素材全部の文字起こしがスタートする。

素材を読み込むと自動的に文字起こしツールが起動してくる

従来のPremiere Proでは、編集したのち、字幕を付けるための文字起こしを行なうという方向性だった。逆に言えば、字幕を付けないのであれば文字起こしツールを使わないこともあり得た。だが新バージョンからは、字幕を付ける付けないにかかわらず、文字起こしベースの編集のために文字起こしはするという考え方になる。

なお以前の文字起こしツールは、クラウドへの接続が必須だったが、新バージョンでは言語パックが事前にダウンロードされており、ローカルで動作するようになっている。

文字起こし中の進行画面

文字起こし中は、進行状況が確認できるようになっている。今回読み込んだのは20分ぐらいの1人しゃべりだが、文字起こし自体は30秒程度で終了した。使用マシンはM2 Pro版MacBook Proである。

素材全部に文字起こしをかけるとなると、編集開始が遅れると思われるかもしれないが、文字起こしはバックグラウンドでもやれるので、文字起こしの間に他の作業に取りかかることも可能だ。

Premiere Proは、一時期画面モードが沢山できてDaVinci ResolveみたいなUIになったこともあるが、現在は「読み込み」「編集」「書き出し」の3モードに集約されている。そのかわり、各種ツールを便利に使うために、「ワークスペース」にて専用レイアウトに切り替えるようになった。

今回もワークスペースの中に「文字起こしベースの編集」というのがあるので、これに切り替えて編集作業を行なう。

作業ごとにワークスペースを切り替えるのがポイント

「文字起こしベースの編集」のワークスペースでは、左側に書き起こされたテキスト、中央上にビュー画面、隣にビンウィンドウ、下にタイムラインという構成になる。文字部分を1回クリックすると、ビュー画面にはその文字位置の映像が瞬時に表示される。

再生ボタンを押すか、スペースバーを押すと、その位置から再生することができる。再生中は、該当箇所の書き起こし文字が青く選択され、どんどん進んでいくのがわかる。

テキストを選択すると、映像がその部分にジャンプする

文字起こし精度は、2年前にテストした際よりも向上しているように見える。聴き取れなかった部分や言葉と言葉の間の部分は、[…]で表示されている。

この動画の音声は、ソニーZV-E10のカメラマイクで集音したもので、話者との距離は約1mある。このため音声は若干オフ気味だが、それでも精度は落ちている感じはない。

編集で使う部分だけでなく、素材全部を文字起こしするメリットは、長尺のインタビューや講演内容の中で、言葉をキーワード検索できるところだ。例えば今回はZoom(日本メーカーのほう)の「F3」というレコーダの話をしているが、そこを抽出するために「Zoom」で検索した。

文字起こししたテキストを検索できる

検索してヒットした部分は、オレンジ色でハイライトされる。そこをクリックしてスペースバーを押せば、そこから動画の方でしゃべりを確認する事ができる。

従来こうしたインタビュー編集は、編集者がノートなりパソコンなりを使って、話者のしゃべりを全部書き起こす必要があった。さらに動画の時間もメモしておかないと、あとから動画のポイントを探せない。人間がやれば、20分の書き起こしには1時間以上かかる。1時間のインタビューであれば、書き起こすのに単純計算で3時間かかるが、人間そんなに集中力が続くものではないので、5～6時間かかる。

話の内容を一通り把握するだけでも、リアルタイムで聴かなければならない。だが文字の速読ができれば、倍速以上のスピードで話の内容が把握できる。これもインタビュー編集では大きな効果がある。

またこの書き起こしツールは、話者を区別できる。今回は筆者1人のしゃべりなので区別されていないが、声質が違っていれば「話者1」「話者2」といった具合に区別される。それぞれを本人の名前に書き換えることもできる。

「書き起こし編集」の成果

では実際にテキストベースでどのように編集するのかを試してみよう。テキストウインドウの中から使いたい部分を選択して、上部の[…]のところにある「インサート」を選択すると、選んだ部分がタイムラインに貼り付けられる。こんな調子でまずはざっくりとテキストを切り出して「インサート」で貼り付けるという作業を繰り返していく。

採用したい部分のテキストを選択して「インサート」していく

タイムラインをクリックすると、テキストウインドウの内容が、タイムラインに貼り付けた動画のものに切り替わる。つまり動画と文字情報が、完全に同期した状態で組み合わせられているわけだ。このテキストをいじっていけば、タイムライン上の動画も編集される。

タイムラインに並べたクリップも、テキスト側で編集可能

音声のキワキワの編集は、慣れない人には難しい。例えば、「えーさて今回は～」という部分の「えーさて」だけ削除するといった編集は、特に音の切れ目でもないため、多くの人は断念していることだろう。しかしテキストを使った編集であれば、この「えーさて」だけを選択して「BackSpace」キーなり「Ctrl+x」なりを使ってテキストをカットすれば、動画のほうもその部分がカットされる。

この編集では、カットした部分が時間的に穴が空くのではなく、カットした部分を自動的に前の方へ詰めていく「リップル削除」となる。細かい編集もできるが、あまり細切れにしてしまうとジャンプカットの連続で見辛い動画になってしまうので、適度につまむ程度にすべきだろう。

操作面で注意すべきポイントとしては、テキスト部分をダブルクリックすると、動画と関係なくテキストだけの編集になってしまうことである。これは、この書き起こしを使って字幕を付ける際に、テキストの細かい修正を行なうための機能だ。このモードの時にテキスト編集しても、動画のほうには反映されない。なお字幕用のテキスト修正は、実際に字幕を付けてからでもできるので、そっちでやった方が作業の無駄がないだろう。

書き起こし編集では、テキストベースのカット&ペーストにも対応する。つまり動画の場所の入れ替えなどもできるわけだ。ただ、テキスト上では繋がって見えても、動画で見れば声のトーンが合わない、イントネーションが合わないといった可能性もあるため、編集した結果は必ず動画のほうで再生して確認したほうがいいだろう。

せっかくなので、書き起こし編集したものに字幕を付けていく。テキストウインドウの「文字起こし」の横に「キャプション」というタブがあるので、そこをクリックする。まだキャプションがないので、「文字起こしからキャプションを作成」をクリックする。

テキストウインドウを「キャプション」に切り替える

キャプションのプリセットとして標準規格等を選択できるほか、「キャプション環境設定」を展開すると、1行の最大文字数や最短デュレーションなどを決める事ができる。

キャプションの仕様を決めて、作成する

「キャプションの作成」をクリックすると、書き起こしをベースにした字幕データが、キャプショントラック上に生成される。この字幕データは、タイムライン上と左側のキャプション文字間で連動している。文字の修正はテキストウインドウで、タイミングの修正はタイムライン上で行なうというスタイルになる。

自動的にキャプションが作成された

最後にこの書き起こし編集および字幕のサンプルを掲載しておく。

書き起こし編集とキャプションを載せたサンプル

総論

書き起こし編集ツールで便利になるのは、2パターンあると思う。1つは、しゃべりの細かい編集がうまくいかない人のためのお助けツールとしての用途だ。

昨今はYouTubeやSNSで動画を公開するだけでなく、企業内でもビデオマニュアルを作ったりするケースも増えているわけだが、しゃべりの編集をどうやったらいいのかわからないという人も多いだろう。YouTuberのようにツメツメで編集するみたいなことがやりたいわけではなくても、言い間違えた一部分だけ抜くといった編集が難しいと感じる人には、非常にいいツールが手に入った事になる。

もう1つのパターンは、長尺のインタビューを編集するプロの編集者への用途だ。プロの場合、撮影者と編集者は完全に分業しているので、編集者は現場へ行っていない。つまりインタビューの話の内容を現場で聞いていないので、素材が手元に届いてから初めて話を聴く事になる。

本文でも少し書いたが、実はインタビュー編集というのは、最初の「撮ってきた話を一回書き起こしながら聴く」ということにものすごい時間と労力が取られる。ここが素材の書き起こしによって、大幅に短縮できるのは大きい。

書き起こしした文章はテキスト出力もできるので、いったん書き出して文章としていったん読んで内容を理解するという手法も取れる。

ぶっちゃけ方法論としては、Vrewがやってることと同じといえば同じである。だが合成や最終フィニッシュまで行ける、しかも圧倒的なシェアのあるPremiere Proに内蔵されたことで、今後この方法論が広く認知されることになる。

小寺信良

テレビ番組、CM、プロモーションビデオのテクニカルディレクターとして10数年のキャリアを持ち、「難しい話を簡単に、簡単な話を難しく」をモットーに、ビデオ・オーディオとコンテンツのフィールドで幅広く執筆を行なう。メールマガジン「小寺・西田のマンデーランチビュッフェ」( http://yakan-hiko.com/kodera.html )も好評配信中。