西田宗千佳のRandomTracking
第604回
「動画」軸で考えるアドビと生成AIの関係
2024年10月31日 08:00
先日開催されたアドビの年次イベント「Adobe MAX 2024」では、動画や写真に関する発表が多く行なわれた。
その中核となったのは、同社の生成AIである「Firefly」による動画生成だが、それ以外にも多数の要素がある。
それらは技術的に興味深いだけでなく、今後のクリエイティブ・シーンを変えていく要素を持っている。
今回はそんな話を「動画クリエーション」という1つの軸を通して考えていきたい。
アドビは動画生成を「拡張」に使う
すでに述べたように、今回のAdobe MAXの目玉は「動画生成」だった。OpenAIの「Sora」に始まり、すでに多種の動画生成AIが登場している。質の問題も急速に変化した。SNSなどで生成AIによる動画がバズったりしているのをみたこともあるだろう。
アドビも昨年の段階で「Video Modelの開発に着手している」とアナウンスしていた。だから、他社が派手に立ち回る中で「自分たちも……」と考えていたのは間違いない。
そこで今回はMAX開催前から動画モデルの存在をアピールし、目玉に据えていた。
同社は2つのパターンから動画生成に取り組む。ただし、どちらも「テスト版」であり、生成時間には制限がある。
1つは、ウェブ版のFireflyから。こちらは現在は「テスト参加へのウエイトリスト」が公開されている段階で、まだ利用はできない。
以下はAdobe MAX会場で生成のデモを利用した時のものだ。現状では720pの動画を5秒間生成できる。プロンプト(英語)からの生成ができたが、「参照画像」を与え、その絵柄を元に生成することも可能だ。
もう1つが「Premiere Proでの拡張生成」だ。
現在、Creative CloudでPremiere Proが使えるプランを利用している人であれば、ベータ版のPremiere Proが使えるはず。こちらには「動画の拡張生成」という機能が搭載されている。この機能は、1本の動画の前か後ろに「2秒間分の動画」を生成するもの。音声については10秒分作れるが、あくまでざわめきなどの「空間的な音響」の再現が目的とされており、元映像に音楽が含まれていた場合、権利の関係もあり、音は生成されない。
操作もシンプルで、単に動画の端を引っ張って伸ばすだけだ。処理は動画クリップ単位で行なわれるので、複数の動画クリップで構成された動画なら、それぞれのクリップごとに処理を行える。
なぜアドビはこのような提供形態を採っているのか? 1つは「まだテストである」という面が大きい。
FireflyやAdobe Senseiを担当するアドビ・バイスプレジデントのアレキサンドル・コスティン氏は次のように説明する。
コスティン氏:(以下敬称略):我々はまず、現在の顧客に対して適したサービスを提供するものから始めたいと考えました。すなわちそれが、動画間のつなぎとなる数秒の映像を生成拡張することです。このためなら、もう十分に使える技術だと考えます。
私たちは、顧客は「自分自身でストーリーを語りたい」と考えている、と想定しています。彼らは、制作上のコントロールなしで1分間のビデオを生成することに興味は持っていないでしょう。実際のビデオは、数秒から数十秒のクリップの組み合わせで作られていますが、それらのクリップの間では、キャラクターの一貫性、シーンの一貫性などを維持する必要があります。
そのため、拡張生成においても、単に長い動画を作るのではなく、一貫性のある高品質のクリップを作成することに重点を置いています。
一方でコスティン氏は、「1秒あたりの解像度とクリップの長さの両方を増やすために、非常に懸命に取り組んでいる」とも話す。ウエブ版での「720p・5秒制限」も、テスト中ゆえの制約だという。
Premiere Proでの動画生成にはプロンプト入力は不要。というのは、「生成する動画の内容をコントロールする」ためでもある。動画を延長して生成するということは、元の動画を参照して映像を作るわけで、かけ離れたものにはなりづらいわけだ。
実際に試してみよう。以下の動画が、拡張生成機能を使ったものだ。どちらも最初の1本は生成前のソースであり、そのあとが拡張生成をしている。1つ目のサンプルでは動画の前と後に追加を行い、2つ目のサンプルでは後ろに追加している。音についてはそのまま残してあるが、拡張制限に制限があるので、音を出して聴くと「どこからが拡張された部分か」がわかりやすい。
率直に言えば完璧ではない。もっと動画を選べば質の良いものはできるのだが、ここではあえてそれをしなかった。モーションのぎこちなさやディテールの崩れ方で「ここからがAIの動画だ」とわかる。
ただ完璧ではないが、簡単にちょっと長さを足せるのは面白い。ビデオモデルの生成精度が上がれば、非常に有用なものになるのではないだろうか。
生成AIは「コントロールの時代」
アドビが「動画の拡張生成」から生成AIのビデオ作成に取り組んだのは、前述のように、動画制作に関するニーズを捉えてのものだ。
それと同時に、アドビが「生成するものについて、クリエイター側でのコントローラビリティを重視する」という方針を持っているからでもある。
Adobe MAXにて、同社のチーフ・ストラテジー・オフィサーを務めるスコット・ベルスキー氏は次のように述べた。
「生成AIはまず『プロンプトの時代』からスタートした。色々なものがつくられ、試されてきたが、そこにはまだ懐疑的な人々がいた。そこから時間が経ち、我々は新しい『コントロールの時代』を迎えている」
要は、生成AIに対しひたすら試行錯誤を繰り返すのではなく、生成されるものをちゃんと制御し、クリエイターの求める成果を生み出す助けとしたい、ということなのだ。
これはアドビがクリエイター向けツールの開発元であるから、という発想もあるだろう。
だが同時に、生成AIを商業的に使う上での必然でもあるのだ。
生成AIは「とにかく量を作る」ようなところではすでに使われているが、その品質に満足している人は少ない。
そのため、静止画を作るサービスは画質以上に「どう出力をコントロールするか」の競争に突入している。動画もそうなってきた。
だとすれば、静止画・動画をコントロールすることはトレンドのど真ん中であり、アドビはビジネス的にも技術的にも、この方向性を強く進めていくのが必然なのだ。
そういう視点で見ると、Premiere Proの機能は「すでにある動画からコントロールされた動画を生成する機能」と考えることもできる。
もちろん、今はまだ機能がシンプルすぎる。質も課題がある。
だが、Photoshopでの生成拡張にさまざまな使い方があるように、動画にも似た可能性が生まれる。それが「広く使われているツールの中に埋め込まれている」ことが、他社との大きな差別化になっていく。
同社は動画から続く次の大きな可能性を「音」に定めている。といっても楽曲ではなく効果音だ。動画で足りない尺を足すのであれば、足りない効果音を足して行きたくなるのは必然である。
Adobe MAX最終日のSneaksでは、「Project Super Sonic」が公開された。これはプロンプトや画像の内容、声で入れた「仮音」から、リアルな効果音を生成する技術だ。こうした「簡単さと制御の両方を備えた技術」が、Adobeとしては主軸であることを思わせる。
コラボレーション用の「frame.io」にカメラメーカーが注目
そうして作られるコンテンツの量が増えてくると、課題となってくるのが「制作上のコラボレーションの確保」である。
アドビはチームでの動画作成ツールとして「frame.io」を主軸としている。
これは同社が2021年8月に買収した技術。ウェブを介して動画にコメントをつけて制作ワークフローを構築するもので、非常に使い勝手がいい。筆者もいくつかの仕事で使っている。
従来は動画だけだったが、最新バージョンの「V4」からは基本的に、あらゆるファイルが扱えるツールになった。
さらに、カメラからの直接、Frame.ioで利用するプロキシ動画を取り込むCamera to Cloud」を強化し、撮影したところからすぐに、オンライン上での内容確認・コメントなどが行える。
ファイル対応の幅が拡大したこともあって、自動的にLightroomとも連携するので、撮影したファイルを連携できる。
キヤノン・ニコン・ライカが新たにCamera to Cloudを搭載することになったため、主要メーカーのうちソニー以外はサポートする、という形になった。
ニコンのCamera to Cloud対応は、基本的にスマホアプリである「NIKON IMAGE SPACE」を介したものになるという。すなわち、カメラで撮影したら一度スマホへ転送され、そこからさらにframe .ioへ……という流れだ。逆に言えば、NIKON IMAGE SPACEが使えるカメラであれば使える、という建て付けになる。
ただ、現状ニコンは、Camera to Cloud対応を動画に絞っている。この点について、同社映像事業部・UX企画部参事の井上雅彦氏は、「ニコンとしては映像制作への幅広い利用をコミットしたい。中でもプロユースへの対応強化という点で、今回の対応を決めた」と話す。
国内メーカーだとすでにパナソニックがCamera to Cloudに対応しており、こちらはカメラからプロキシ動画を直接アップロードとなっている。
使い勝手としては正直パナの選んだ直接アップロードの方が良いが、ニコンのスマホアプリ経由方式は、より多くの機種に素早く対応できるという利点もある。
こうした機能にカメラメーカーが積極的に対応するのは、プロユースでのframe.ioを使ったコラボレーションワークの広がりを示すものであり、それだけ各メーカーに切迫感がある、ということを示すものなのだろう。