小寺信良の週刊 Electric Zooma!

第981回

Zooma!:ズームレンズ、ズームすること、ズームする人、ズズーンの造語

楽して動画に字幕を付けたい! そんなニーズをA.I.で

「字幕」の変遷

動画のしゃべりに逐次字幕を付けるという表現方法は、外国映画からスタートした。日本ではじめて翻訳字幕が付いた映画は、1931年公開ゲイリー・クーパー主演の「モロッコ」であるとされている。従って映画字幕は、約90年の歴史があるわけだ。

フィルムの字幕の焼き込みは、文字の形をくりぬいた映像フィルムと、透明に文字だけを白く焼いた字幕用フィルムをダブルで重ねて現像する。こうしたことから、筆者が現役の編集マンだった1980年代、NHKでもとっくにビデオの時代になっていたが、映像に文字を入れることを「ダブる」といっていた。平成26年度のNHK経営委員会公開資料の中でも「ダブる」という言葉が出てくるので、今だに使われているのかもしれない。

バラエティ番組でトークに逐一字幕を付けるようになったのは、起源は定かではないが1980年代後半頃だったのではないだろうか。当初は耳の不自由な方へのサービスとして始まったという説もあるが、音声だけよりわかりやすい、音を小さくしても内容がわかるなど好評だったため、多くの番組で実施されるようになった。昨今はしゃべりのすべてに字幕を付けるのではなく、強調したい部分に文字を入れるというのが主流のようだ。

一方でニュースや教育向け番組では、文字多重放送方式による字幕が付けられている。通常はOFFだが、テレビのリモコンをよく探すと「字幕」というボタンが見つかるだろう。それをONにすると、字幕が表示される。

映画やテレビではお馴染みの字幕だが、自分で作るビデオに字幕を付けるとなると、とたんにハードルが上がる。喋りを全部テキストに起こさなければならないわけだが、映画やドラマのように元々台本があってそれ通りに喋るコンテンツならともかく、誰かが自由に喋るトークを文字起こしするのは大変だ。筆者らライターはインタビュー収録した音声を聴きながらテキストに書き起こしする機会も多いが、慣れているとはいっても実時間の3倍ぐらいはかかる。

さらにそれを、言葉のタイミングに合わせて1枚1枚貼っていく作業もまた、時間がかかる作業だ。昨今はノンリニア編集だから早いだろうと思われるかもしれないが、それでもセンテンスごとに貼ってプレビューで確認して、の膨大な繰り返しは、手数が非常に多い作業である。

だが昨今、こうした字幕入れのニーズはこれまでになく高まってきている。YouTuberの動画でも、テレビのバラエティを真似て、一語一語字幕を入れているケースも多い。またリモート授業向けの動画でも、字幕を入れた方が生徒に伝わりやすいこともあり、簡単に字幕が入れられるなら入れたいという先生は多い。

今回は、“簡単に字幕を入れる方法”を実際にテストしてみたい。

編集機能まで備えた「Vrew」

はじめにご紹介するのは、韓国のVoyagerXが開発する「Vrew」だ。動画をクラウドにアップロードすると、A.I.による音声認識を行ない、字幕データを生成してくれる。また生成された字幕データを素に不要部分をカットするといった動画の編集機能も備えている。

ツールとしてはアプリ版とWeb版があり、アプリはMac版、Windows版、iOS版、Android版が提供されている。執筆時点の最新バージョンは0.7.20で、利用料は設定されておらず、無料となっている。今回はMac版を使ってご紹介するが、基本的な使い方はどのプラットフォームでも同じだ。

字幕を入れるサンプルの動画は、筆者と西田宗千佳氏の共同で発行しているメールマガジン向けの、動画コンテンツの冒頭部分を使用する。

まずVrewを起動して、「新しい動画で始める」のアイコンをクリックし、字幕を入れたい動画を選択する。すると音声認識する言語の設定が出てくるので、「日本語」を選択して「確認」ボタンで確定する。

Vrewを起動し、「新しい動画で始める」で認識言語を選ぶ

するとすぐに音声データがクラウドへアップロードされ、音声認識が始まる。今回は15分の素材を認識させているが、音声認識にかかる時間は2分程度である。

音声データがクラウドへアップロードされ、音声認識が行なわれる

音声認識が終わると、動画が認識された言葉のセンテンスごとに区切られた状態が表示される。1つの枠内に文字列が2行あるが、上の文字列は動画編集に使える。つまりいらない語句や、認識でなかった無駄な隙間などをテキスト編集すると、その通りに動画が切り取られる。

音声認識完了後の画面。認識音声のセンテンスごとにクリップが区切られている

下の文字列は、実際にテロップとして表示される文字列だ。認識の誤りやアルファベットに変更したい箇所、同音異義語の修正などは、下の文字列を修正する。右側の秒数は、上が動画のトータル時間の積算、下がこの枠内の動画の秒数である。

文字列として間違っているところは手動で修正

動画の不要な部分も、認識された言葉を頼りに編集できるので、音声として同じ箇所を何度も確認しながら切れ目を入れていくという作業が不要になる。動画編集の初心者にも心強い機能だろう。

実際に字幕が入った様子は、左側のウインドウで確認できる。ダブルクリックで拡大できるので、実際の動画のイメージを確認する事ができる。字幕のフォントやサイズは、「書式」メニューから変更できる。

映像部分をダブルクリックすると拡大表示になる

実際に言葉ベースで編集した動画がこちらだ。文字として編集しただけだが、動画のほうもかなり正確にカットされているのがわかる。

Vrewで文字を頼りに編集した結果

書き出しは字幕付き動画だけでなく、字幕データの標準フォーマットである「.srt」や、他のノンリニア編集ツールに編集結果を持ち出すためのXML出力ができる。

動画を書き出す以外にも多様なフォーマットへ出力可能

今回はこの編集結果をDaVinci Resolveへ持ち出して、さらに微調整を加えることにした。ファイルメニューの「他の形式でエクスポート」から「DaVinci Resolve xml」を選択する。すると「.fcpxml」という形式のXMLファイルが出力される。.fcpxmlはAppleのFinalCut Pro用XMLファイルだが、DaVinci Resolveと相性がいいのはよく知られた話なので、そのまま採用しているという事なのだろう。

DaVinci Resolveで新規プロジェクトを用意して、[ファイル]-[読み込み]-[タイムライン…]から先ほどのXMLファイルを読み込むと、メディアプールには素材クリップ、タイムライン上には編集されたクリップとテロップのトラックが展開する。

新規プロジェクトを作成して「タイムライン」からXMLファイルを読み込む

テロップのフォントやデザインはDaVinci Resolveデフォルトのものに置き換えられてしまうので、そのあたりは微調整が必要だ。あとは通常の編集同様、編集点の微調整などが行なえる。

タイムライン上にVrewで編集した結果が再現される

今回は音声をベースにかなり細かく編集してあるので、いわゆる「ジャンプカット」が多い。編集点をスムースカットで繋ぐと、ジャンプカットのショックがかなり抑えられる。もう少し引きのショットであれば、「CloseUp」機能も使えるだろう。

DAVinci Resolveでスムースカット処理した結果

こうした処理だけでなく、オープニングタイトルを作ったり音楽を付けたりといった作業はVrewだけではできないので、最終的になんらかの形にするにはノンリニア編集ソフトは必要になる。

さすがAdobe Sensei! Premiere Proだけで字幕作成

Adobeが3月上旬に実施したアップデートにより、Premiere Proのβ版に字幕を素早く追加できるワークフローが追加された。字幕作成機能自体は昨年10月のアップデートで実装されていたが、多くを自動化したツールキットという形で実装されたのが今回初となる。執筆時点でのバージョンは、15.2.0BETA(ビルド14)。

字幕作成機能を使うには、単にβ版をダウンロードするだけではダメで、Adobeの「早期アクセスプログラム」への参加が必要になる。画面内のリンクから申し込みページへ飛ぶと英語版のエントリーフォームへ誘導されるが、日本語のエントリーフォームはここにある

まず字幕を付けたいクリップをタイムラインに並べておく。素材そのままだと全部に字幕が付いてその後の編集が面倒になるので、ある程度使いどころを編集しておいた方がいいだろう。

Premiere Proバージョン15から搭載された字幕作成機能

「ヘッダーバー」から「キャプション」を選ぶと、キャプション作成用の画面構成となる。「トランスクリプト」タブの「書き起こしを作成」をクリックすると、音声の仕様などを設定する画面になる。オーディオトラックや言語を設定して「録音する」をクリックすると、実際に音声データがクラウド上のA.I. Adobe Senseiへアップロードされ、音声認識がスタートする。

録音設定で「日本語」を選択

認識が完了すると、テキストがウィンドウ内に表示される。同じウインドウ内にある「キャプションを作成」でキャプションタイプを選択すると、タイムラインの最上部にサブタイトルトラックが自動作成され、そこに字幕データが並べられる。

認識結果がウィンドウ内に表示される

「小寺信良」が「こちらの美容師」に認識されるなど、固有名詞に弱いのは仕方がないところだろう。書き起こし精度としてはかなり優秀だ。

同ウィンドウ内の」「キャプションの作成」ボタンをクリックして字幕を作成

文字の修正やテキストの結合・分割などは、テキストウインドウ上で行なえる。このあたりはVrewと似たようなインターフェースだ。ただ、1つの字幕を2つに分割した場合、同じ字幕が2つになるだけなので、双方のダブってる部分を削除するという手間がある。このあたりは正式版では改良されるよう期待したいところだ。

Premiere Proのキャプション機能による字幕動画

字幕のデザインは、「ウインドウ」から「エッセンシャルグラフィックス」で変更できる。デザインが決まったら、「スタイルを作成」で保存しておくと、次回も同じスタイルが適用できる。

総論

A.I.による音声認識は、Apple、Google、Amazon、Microsoftなどがボイスコマンドとしてサービスインしているが、それをテキスト化する文字起こしも次第に充実してきているところだ。

従来この手のサービスは、端末のマイクで拾った音声をリアルタイムに認識していくことに注力しているが、すでに音声データになったものをA.I.に放り込んで、リアルタイム以上のスピード、すなわちノンリニアで認識させるというサービスはまだ少ない。今回取り上げた2社も、動画編集という前提からスタートしており、やはりファイルから文字起こしはまだ一般的な利用方法が少ないのかもしれない。

昨今はリモート会議でファイル化された動画・音声が簡単に作成できる時代になった。動画に字幕として付けるというニーズだけでなく、それらを短時間で文字起こしして議事録化するというニーズが今後拡大するのではないだろうか。ビジネスマンなら、たとえ有料でも利用したい事だろう。

しかしモノローグのように、ある程度の台本があるきちんとしたしゃべりを音声認識させるぶんには、認識率が非常に高いが、複数人での自由な喋りであったり、SNが悪い収録音声を正しく認識させるには、まだ少し時間がかかりそうだ。

今の段階で利用するなら、できるだけ綺麗に集音する、複数人のしゃべりはトラックを分けておいて別データとして認識させるといった工夫で、今動いているエンジンを上手く使っていくことが重要だろう。A.I.を旨く使うために人間の知恵が必要というのは本末転倒な気がしないでもないが、最先端を行くというのは、つまりはそういうことなのであろう。

小寺 信良

テレビ番組、CM、プロモーションビデオのテクニカルディレクターとして10数年のキャリアを持ち、「難しい話を簡単に、簡単な話を難しく」をモットーに、ビデオ・オーディオとコンテンツのフィールドで幅広く執筆を行なう。メールマガジン「小寺・西田のマンデーランチビュッフェ」( http://yakan-hiko.com/kodera.html )も好評配信中。