藤本健のDigital Audio Laboratory

第804回

ソニーCSLがAI自動作曲を現実に!? Cubaseで使える「FM Pro」がスゴい

さまざまな分野で応用されている人工知能(AI)。今や作曲の分野での利用も視野に入ってきており、複数の企業や研究機関がAI自動作曲を試みている。そうした中、ソニーコンピュータサイエンス研究所(ソニーCSL)が、米テキサス州オースティンで3月に開かれたSXSW(サウス・バイ・サウスウエスト)において披露したAIアシスト作曲技術「Flow Machines」は、会場でも大きな話題になり、国内でも多くのメディアにとり上げられた。

ソニーCSLの「Flow Machines」

自動作曲というシステムは過去にも数多くあったが、実用的に使われているものはあまり見かけない。このFlow Machinesはこれまでのものと何が違い、どこまでのレベルになっているのだろうか? SXSWで展示したFlow Machinesを見せてもらうとともに、どんなシステムになっているのか、ソニーコンピュータサイエンス研究所のプロジェクトエンジニア、岸治彦氏に話をうかがった。

ソニーCSLのAI自動作曲はどんな仕組み?

今回のSXSWは、ソニー全体のブースのメインテーマが“Are you the next Hendrix? ~ Will technology enrich human creativity?(テクノロジーはクリエイティビティを豊かにするのか?)”となっており、その発表の一つとしてソニーCSLのFlow Machinesのデモが行なわれたという。

3月のSXSWソニーブース
ソニーCSLのFlow Machinesのデモが披露された

ここではFlow Machinesの画面を見せながら、その場でAIによって16小節分の曲を作っていき、来場者にも壇上にあがってもらい、Flow Machinesで作った曲を即興でセッションしていくというもので、15分程度のデモではありながら、大いに盛り上がったのだとか。

「SXSWで披露したFlow Machinesは、突然誕生したものではなく、ソニーCSLのパリのオフィスで20年近い期間をかけて研究してきたものの延長線上にあるものです。Francois Pachet博士による従来のシステムであるFlow Machines classic(以下、FM Classic)は、メロディーとコード進行を有する複数のLead Sheetを学習し、メロディーの遷移確率とコードの遷移確率などをモデル化し、新しいメロディーとコード進行を得ることを特徴としていました。2016年にFM classicを用いて作られたビートルズ風な曲『Daddy's Car』を公開し、大きな評判を得ました」と話すのは岸氏。いわゆるマルコフモデルを用いた自動作曲手法だ。

ソニーCSLのプロジェクトエンジニア・岸治彦氏

その「Daddy's Car」は、今もYouTubeで見ることができるし、かなり未来を感じさせてくれるものだった。

FM classicで作られた“ビートルズ風”の「Daddy's Car」

もっとも、この楽曲を丸ごとコンピュータが生成したというわけではなかったようだ。作曲家がFM Classicを操作し、その補助を受けながら作曲を行ない、歌詞は人間が別途作詞。それに人間が編曲し、人間が歌ったボーカルをレコーディングして、この曲を作っていたのだ。つまりAIが行なったのはメロディー生成とコード進行、それも100%がAIというわけではなかった。また当時のFM Classicは煩雑なシステムになっていて、誰もが簡単に使えるというシステムにはなっていなかったようだ。

その後、2017年10月の体制変更に伴いFlow Machinesの研究開発をソニーCSLのパリと東京の両拠点で行なうことになり、東京側のプロジェクトチームが発足。実質的な研究開発の主軸は東京側へと移っていった。

「FM classicが生成するメロディーとコード進行には、クリエイター(ここでは、作曲者、編曲者、プロデューサー、ミュージシャンなど音楽制作に携わるすべての人)が創造できないものが存在する場合があります。なぜならば、クリエイターは往々にして歌手が歌えるメロディーを前提に創作を行なうことが多く、作曲するメロディーの音域やリズムや連続性を意識しがちです。しかしFM classicはそれを無視し、超越するものを提案するため、この予期せぬ提案がクリエイターの想像力を刺激する場合があります。このように刺激的なFM classicをプロの音楽制作の現場へ導入しようと実用化検討を開始しましたが、その時、2つの大きな課題に突き当たりました」と岸氏は語る。

1つめの課題は、音楽制作のUI。FM classicのアルゴリズムはサーバー側で動作しており、WebブラウザのUIからアクセスしMIDIでダウンロードする形になっていた。そのMIDIをDAWへ流し込んで使うのだが、気に入らなければ再度繰り返すという面倒なシステムだった。2つめの課題は、学習用データのLead Sheetデータベース。Lead Sheet自体、つまり先ほどの例でいえばビートルズの楽曲の譜面は著作物であるため、いくらAIによる生成物がまったく別の曲になっていたとしても、各国の法律によっては問題になるケースがあったという。その問題を解決すべく、ソニーCSLの東京側でリメイクする形で作り直したのが、今回SXSWで発表したFlow Machines professional(FM Pro)だったのだ。

Flow Machines professional(FM Pro)

CubaseプラグインでAI自動作曲が簡単に

今回、岸氏に見せてもらったのはMac上のDAW、SteinbergのCubaseのプラグインとして動作している「FM Pro」。つまりFM Classicのように単独で動作するのではなく、DAWと連携して動作する自動作曲システムとなったので、音楽制作をしている人であれば、誰でも簡単に使えるようになったわけだ。

Cubaseプラグインとして動作する「FM Pro」

使い方の手順はこうだ。FM ProはVSTインストゥルメントのプラグインとなっており、見かけ上MELODY、CHORD、BASSの3種類のプラグインとなっている。それぞれのインストゥルメントトラックを作成し、プラグインを起動させる。ただし、この3つは連動して動作する形になっており、基本的に3つセットで使う。また、VSTインストゥルメントではあるが、ソフトウェア音源というわけではなく、MIDIデータを生成するためのソフトとなっている。そのため、これを演奏するためには、別途ソフトウェア音源をセッティングしておく必要がある。岸氏が見せてくれたデモにおいては、Cubase Proに標準でバンドルされている音源、RETROLOGUE 2をセットしていた。

MELODY
CHORD
BASS
今回のデモではRETROLOGUE 2を使用していた

実際にAIに作曲させるには、まずスタイルパレットというものを選択する。これはFM Proになって新たに導入された概念で、まずコード進行をユーザーが事前に選んでおくことができるようになっている。そのほかのパラメータとして、Harmony、NoteDurationがあり、Harmonyパラメータはコード進行に対してかなりキッチリとした音程になるか、外れた音も許容するかを設定するもの、NoteDurationは音符の長さを設定するものとなっている。

スタイルパレットを選択

これを設定した後に「Compose」ボタンをクリックすると、4小節分が自動作曲されるようになっている。この際の自動作曲はVSTプラグインが動作しているマシンで行なっているのではなく、一度通信を経由してクラウドにアクセスし、そこで作曲したものが戻ってくる形。ただ、時間的には数秒であり、ローカルで操作している感覚で使うことができる。

「Compose」ボタンをクリックすると4小節分が自動作曲

前述の通り、MELODY、CHORD、BASSが連動しているので、いずれかのComposeボタンをクリックすれば、3つ同時に作曲される。

MELODY、CHORD、BASSが連動

また、1回Composeボタンをクリックすると、同じコード進行で4パターンが作曲されるので、聴き比べることも可能で、気に入ったメロディーやコード、ベースラインができたら、それをDAWのトラックにドラッグ&ドロップすれば、そのままMIDIデータとして使用できる形になっている。また、でき上がった4パターンを1小節ずつ組み合わせるコンピング機能なども装備している。いずれもMIDIデータなので、後で自由にエディットすることも可能だ。

メロディーなどをDAWのトラックにドラッグ&ドロップすればMIDIデータとして使える
4パターンを1小節ずつ組み合わせるコンピング機能も
後で自由にエディット可能

実際にこの方法で4小節分を作曲させてみた。

音声サンプル(パターン1)

さらに同時に生成されたパターン2も作った。

音声サンプル(パターン2)

これをどう評価するかは人それぞれだと思うが、気になるのは、これがどのように生成されているのか、という点。

「基本的には、フランスでのFM Classicと同じマルコフモデルを使ったアルゴリズムで生成していますが、学習したデータは既存の楽曲ではなく、ソニーCSL独自に作り直した楽曲を解析した学習データであるスタイルパレットを用いています。SXSWのデモで用いたスタイルパレットはソニー・ミュージックエンタテインメント(日本)に協力を依頼して新たに作成したものですが、これで自動作曲したものを、その作曲者に聴いてもらったところ、『確かに自分が作りそうな曲だ』と言ってもらえたので、それなりに上手くいっているのではないかと思っています」と岸氏。

AIが“仕事を奪う”のではなく“共同制作”へ

では、これが進化してくると、すべてAIが作曲して人間は不要になる、というところを目指しているのだろうか? この点について岸氏は

「Flow Machinesは、決して人の仕事を奪うとか、人の作曲能力を超えようという目的のものではありません。それよりも、人のクリエイティビティ能力をより発揮できるよう、アイディア出しなどの手伝いをするツールだと考えています。何かアイディアに行き詰ったときに、ちょっと使ってもらってヒントが得られるようなツールに育てていきたいですね」と岸氏は話す。人とFM Proによるコーライト(共同制作)といった検証もしていきたいという。実際、先ほどの作曲データに、人が作ったバックトラックを重ね合わせてみたものがこちらだ。

音声サンプル(人間によるバックトラック付き)

たった4小節の短いデータではあるが、結構いい形になってくるように感じるが、どうだろうか?

今回、実際にFM Proを見せてもらった感じでは、このまますぐに商品化して販売しても、多くのユーザーに受け入れられそうに思うが、発売の予定はどうなっているのかも尋ねた。

岸氏は「あくまでも研究段階のものであり、商品化するのかどうかも含め、決まっているわけではありません。まずはソニー・ミュージックエンターテインメントなど、ソニーグループ内での検証を進め、どのように活用すべきかを検討していきます」と話す。

まだ、すぐに一般ユーザーが使える形にはならないようだが、こうして作られたデータを聴いてみると、AIを用いた作曲が現実味を帯びてきているように思えた。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto