ニュース

80年前の白黒映像がAIでカラー化、リアルタイム書き起こし。進化する番組制作

庄司亮一

2018年5月22日 22:12

　NHK放送技術研究所は、5月24日～27日に「技研公開2018」を開催する。これに先立ち、報道向け先行公開が22日に行なわれた。AI(人工知能)を活用した番組制作支援の取り組みの中から、フィルムに記録されたモノクロ映像を自動でカラー映像に変換したり、取材映像から発話内容をリアルタイムに書き起こすシステムなどを紹介する。

技研公開2018

　今年のテーマのひとつが「スマートプロダクション」。正確で迅速な情報をあらゆる人に届けることを目指し、AIや機械学習を活用した取り組みを展示するもので、コンセプトだけでなく、実際の番組制作に活かされた技術も紹介している。

エントランスを抜けるとAI活用展示のコーナー

ノモンハン事件の白黒映像をAIで自動カラー化、8月に放送

　白黒フィルムで撮影された史料映像を、自動的にカラー映像に変換するAIを開発。このAIを活用した初めての番組「NHKスペシャル『ノモンハン事件(仮)』」が8月に放送される。太平洋戦争以前、約80年前に日本と旧ソ連の間でおきた戦争の白黒フィルム映像をAIでカラー化し、番組内で取り上げる。Webサイト「NスペPlus」に紹介動画(1分43秒)が掲載されているが、今回の技研では約3分のデモ動画が見られる。

「NHKスペシャル『ノモンハン事件(仮)』」のデモ動画

　カラー化に使ったAIは、NHKアーカイブスなどから収集した大量の番組映像を学習。色推定、色修正、色伝播の３つのニューラルネットワークを使って、白黒映像をカラー映像に自動変換する。

従来技術でカラー化した映像(左)と、AIでカラー化したもの(右)

　従来は専門家が1フレームずつ手動で着色していたが、数秒の映像のカラー化に数日を要し、また静止画単位のカラー化では動画にした時の色ブレも起きていた。今回のAIは、フレーム単位でカラー化した後、必要に応じて代表的な静止画をピックアップして色の修正を行ない、ニューラルネットワークで他のフレームに伝播。この修正は、人物の服など一部分の色だけ選ぶこともできる。AIの活用により、5秒の白黒映像を30秒〜5分程度でカラー化でき、作業時間を大幅に短縮できるとする。

カラー化後に色を修正する仕組みを開発

映像の中の色を修正するシステムも展示

音声認識によるリアルタイム書き起こしシステム

　記者会見の現場から放送局に送る取材映像の音声を、音声認識技術を用いてリアルタイムで書き起こすシステムを展示。専用のWebアプリから、長時間におよぶ取材映像の確認したい部分にアクセスし、書き起こされたテキストを複数人で同時に参照・修正できるインターフェイスのデモが見られる。

音声認識による書き起こし制作システム

リアルタイム音声認識インターフェイスの概要

　ニュース班は、記者会見の映像から即座に書き起こしを行なうため、約4,500時間分の音声とテキストを学習したAIを活用。さまざまな発話環境や収録条件、話し方に対応できるという。

ニュース班のAIが役所の記者会見映像から書き起こしを制作

　例えば「川にワニが逃げたという通報があり、役所が緊急記者会見を開いた」場合、「ワニ」を「兄」と誤変換するなど、音声認識結果に誤りがあっても複数人がチェックし、手動で修正できる仕組みを備える。迅速かつ正確な情報提供が行なえるという。

AIの書き起こしを地域密着班もWebアプリから確認・修正

AIの書き起こしを複数人の手で修正しているところ

　この書き起こしシステムを、ニュース班や地域密着班など複数の制作現場が局内ネットワークで共有し、それぞれの特性に合わせて番組制作に活用できることも紹介している。

SNSの反応を元に、自動でダイジェスト映像生成

　放送やネット配信に必要なダイジェスト映像の自動生成技術の研究が進んでいる。今回は、放送済みの番組に対するSNSの反応の量や、映像の特徴を元に要約映像を自動生成するシステムを展示する。

映像自動要約技術の概要

　放送済みの番組(MP4ファイル)を要約映像生成システムに読み込ませることで、画作りが特徴的な場面を自動で選んでダイジェスト映像を生成できる。

要約映像生成システム

　「テロップ重視」や「顔重視」、「カメラワーク重視」といった演出方法を制作者が選び、大きなテロップの表示や、ゲスト出演者の顔アップ、急激なズームインなどを検出し、特徴的な演出の場面を用いたダイジェストを生成する。「SNS重視」を選ぶと、番組に関連したTwitter投稿を解析し、番組の中で視聴者が「盛り上がった」場面を用いたダイジェストを生成する。

「SNS重視」や「テロップ重視」などのプリセットを備える

　SNSのコメント量や、画像解析技術で検出した要素の重みを選べる仕組みにより、「ソーシャルメディアで反響の大きい場面を使いたい」、「ゲストが映る場面を使いたい」などの「演出意図」をダイジェスト映像に反映できるとする。この技術を応用して開発した投稿動画の要約システムは、'17〜18年にかけてNHK総合チャンネルで放送した番組で活用した。

映像自動要約処理の流れ

SNS投稿から事故・災害発生地を特定。過去番組の情報参照も

　Twitterでは、目の前で起きた事故や災害などの目撃情報を一般の人が投稿していることも増えている。昨年の技研公開では、そうした投稿を機械学習で自動分析して番組制作に使える情報を取得し、準備段階の原稿を自動生成する制作支援システムを公開していたが、今年はそれを進化させた「テキストビッグデータ解析技術」を紹介。

テキストビッグデータ解析技術

　これまでも「火事」や「列車・交通状況」、「気象・災害」といった事象ごとに投稿を整理して情報を表示・収集できたが、新たに事故や災害の発生場所を特定して地図上に表示できるほか、投稿された写真も画像認識することで、事故や災害と関係があるものを選別できるように進化した。

投稿された写真を画像認識し、「冠水」という単語とあわせて災害に関する投稿であることを識別

　特定のキーワードに関連する、過去の番組情報を参照する機能もデモ。たとえば都市名や「仮想通貨」など、SNSで今話題になっているキーワードを入力すると、AIを活用した連想により、関連する単語やランドマークなどを表示し、それらに紐付けてドキュメンタリーなどの過去番組の情報を探せる。こうした情報を取材の準備や新しい企画に役立てるといった利用方法を紹介していた。

特定のキーワードに関連する、過去の番組情報を呼び出すデモ