藤本健のDigital Audio Laboratory

第811回

高校生がAIで作曲。プロと連携で立体音響+8K映像でモーツァルトが蘇る!?

「もしモーツァルトが現代に生きていれば……」そんな思いをAIを用いて実現させるというユニークな実験プロジェクトが先日都内で披露された。

AIでの作曲を紹介した「HP Project Z」のブース

日本HPが技術サポートする形で高校生18人、そして映像作家、インタラクションデザイナー、作曲家という3人のプロのクリエイターが集結し、3カ月近くかけて行なってきたプロジェクト。その発表会場で、高校生やクリエイターに話を聞いてきたので、何が行なわれたのかを紹介しよう。

プロジェクトのテーマ

都内4校の高校生が“AIで作曲”にチャレンジ

6月5日に東京・六本木で行なわれた「インターネット・マーケティングフォーラム2019」において、日本HPが「HP Project Z 最新テクノロジーで現代に蘇る! ヴォルフガング・アマデウス・モーツァルト」という展示を行なった。

「HP Project Z 最新テクノロジーで現代に蘇る! ヴォルフガング・アマデウス・モーツァルト」の展示

これは「もしモーツァルトが現代に生きていれば」という仮定を実現すべく、AIを用いて作曲、さらには作詞もした楽曲を披露したもの。しかも単に出来上がった楽曲を再生するというのではなく、1台の高速PCを用いて、11.1chの立体的なイマーシブサウンドをリアルタイムに合成すると同時に、8Kの映像にリアルタイムで画像処理をしてVJ的な表示も実現。これによってHPのマシン性能をアピールするというものだったのだが、実際何が行なわれていたのかを聞いた。

インターネット・マーケティングフォーラム2019

「今年1月に日本HPから『AIと高校生を使ったアートワークをしたいが、何かいいアイディアはないか』と相談を持ち掛けられました。いろいろとアイディアを練る中で、現存するモーツァルトの楽曲をディープラーニングさせることで、新曲が作れるのではないか、ということになり、高校生を巻き込んだプロジェクトをスタートさせました」と映像作家の江夏由洋氏は語る。

映像作家の江夏由洋氏

そのディープラーニングとAI作曲の実作業を行なったのは広尾学園高等学校、開成高等学校、立教池袋高等学校、武蔵野大学附属千代田高等学院の4校から集まった18人の現役高校生。学校の先生からこのプロジェクトの案内がメールで送られてきて、内容が面白そうだったので参加してみた、という広尾学園高等学校の2年生で吹奏楽部に所属する銅坂悠さんは「3月中旬からほぼ毎週日曜日に4校から18人が集まり、A~Dの4班に分かれて、コンピュータに向かって取り組んできました。AIで作曲というので、情報を入れたらすぐにいい曲が出てくるのかな? と思っていたのですが、そう簡単ではありませんでした。パラメータがいっぱいあって、それらを試行錯誤で調整しながら曲制作をしてきました」と振り返る。

広尾学園高等学校 銅坂悠さん

同じ広尾学園・吹奏楽部3年生の白木さんは「ネット上からMIDIデータを集めるところからスタートしました。その中から60曲程度、ランダムに選んで学習させると、出てきたのはメチャクチャな音程でリズムがブレたりと、思った通りにいかないのです。繰り返し試した結果、どういう風にデータを入れ、どのように学習させるかによって違いが出てくるので、その調整が腕の見せ所。メロディー部分だけを8小節とか16小節、時間にして20~30秒程度を切り出したうえで、学習させるとうまくいくことが見えてきました。曲数が多すぎると、処理時間がかかりすぎて終わらないので80曲くらいが良さそう」と、その取り組みについて教えてくれた。

「同じ曲を何度も学習させることで覚えていくのですが、1,500回以上は学習させたほうがいいというのは、みんなの実験結果からも見えてきました。でも3,000回を超えるなど、学習しすぎると、3音くらいで構成される曲になってしまうので、その辺を調整しながらの繰り返し。実作業は日本HPから1人1台提供されたノートPCを使い、ここでCakewalk by BandLabというDAWを動かし、MIDIの編集をしていました」と話すのは開成高等学校3年生の甲斐耀さん。

開成高等学校 甲斐耀さん

その甲斐さんに誘われて参加したという同級生の中牧泰さんは「このディープラーニングに使ったのはGoogleのColaboratoryというツールです。学習パラメータがいろいろあるので、どう設定するのがいいのかも工夫しました。人工知能が発展する上でのニューラルネットワークの仕組みがあって、その中に“隠れ層”というものがあります。このパラメータが作曲にも大きく寄与することもわかったので、これを利用しました」と説明してくれた。

開成高等学校 中牧泰さん

作成した楽曲をプロが仕上げ。8K映像と融合

約2カ月間、こうした取り組みを行ない、ゴールデンウィークの最後に全チーム集まっての発表会を実施。それをプロのクリエイター3人が中心になって選考した結果、Cチームで作った曲が採用に。ほかのチームの曲データも一部を切り出して使うということになり、そこから先はプロ・クリエイターへと引き継がれていった。

制作を担当したプロのクリエイター

「出来上がった楽曲は、確かにモーツァルトっぽい面はあったのですが、音楽家からすると、突然1オクターブすっ飛んだりするので、正直使いやすい素材ではありませんでした。でも結果的には面白みが出た、とも思っています。これを編集して、仕上げていく上で、多少妙に感じる部分があっても、音符は一切触らないことを鉄則としました。ただし、切ってつなぐことはOK、と。高校生たちがAIで作り上げたものは忠実に残しつつ作業をしていったのです。MIDIデータですから、これでシンセサイザを鳴らしていき、素材を重ねる形でアルペジオも高校生からのデータを利用しています」と語るのは、江夏由洋氏の兄でもある作曲家の江夏正晃氏。

作曲家の江夏正晃氏

「ここにピアノ、ベース、ドラム、シンセ、オーケストレーションを重ねて曲を構成していきました。オーケストレーションはビオラ、第1バイオリン、第2バイオリン、チェロ、コントラバスという編成でIK MultimediaのMiroslav Philharmonik 2というソフトウェア音源を使うなど、ほとんどがソフトウェア音源。ベースだけはハードウェアシンセであるMini Moogを使っています。ここで1つだけこだわったのは、どれも打ち込みではあるけれど、すべて手弾きしたものをリアルタイムレコーディングし、クォンタイズもかけていないこと。AI作曲として受け取ったものがカッチリしたテンポに乗っているので、ほかで揺らぎを付けたのです」と江夏正晃氏。

このようにして曲を仕上げていったわけだが、ここでのテーマは「もしモーツァルトが現代に生きていれば…」ということなので、歌詞もここに必要になってくる。

「作詞に関しては、北海道でAIを手掛けている企業のAWLに協力していただきました。モーツァルトの手紙を英訳した本があるので、これを入手し、スキャンした上で、OCRでテキスト化したものをAIに突っ込むと同時に、ビルボードチャートの1位から100位のデータの歌詞もAIにかけるなどして生成。10,000ワードの文字列を元にしていることから、曲のタイトルは『10 Million Nights』としているのです。当初はこれをVOCALOIDに歌わせることも考えたのですが、やはり人が歌ったほうが雰囲気が出そう、ということでレコーディングをしました」と江夏由洋氏は語る。

ビルボードチャートの1位から100位のデータの歌詞もAI

一方の映像のほうは高校生たちのAI作曲と並行する形で、8Kでの撮影が行なわれていった。「AIで作られるモーツァルトの新しい楽曲の舞台にふさわしい無の空間に広がる雰囲気を表現しようと、8Kのカメラを使ってバレエダンサーの踊りを撮影しました。これをインタラクションデザイナーで映像演出家でもある中田拓馬君に渡してプログラムしてもらったのです」と江夏由洋氏。

8Kでの撮影も進行

その中田氏が行なっていたのはvvvvというノードベースプログラミング言語を用いたプログラミング。撮影されたバレエダンサーの8K映像に画像処理をかけることで、必要な情報を抽出し、リアルタイムに粒子やエフェクトが反応するような仕組みになっている。

中田拓馬氏
vvvvを用いてプログラミング

ただ、事前にある素材だけだと、本当にリアルタイムであることが分かりにくいため、会場にはカメラも設置し、そのカメラがとらえた映像もリアルタイム処理するので、来場者は自分の映った映像を見て、確かにリアルタイムでレンダリングされていることを実感できるようになっている。

会場のカメラ映像も活用

立体音響と高画質映像を1台のマシンで処理

今回の会場ではオーディオインターフェイスにRMEのMADIFaceXTとM-16DA、モニタースピーカーにはGENELECのThe Onesを使用。下に7.1ch、上に4chの計11.1chが配置されて、現在に蘇ったモーツァルトの新曲「10 Million Nights」が流れていたわけだが、こちらはどのような処理が行なわれていたのだろうか?

RMEのMADIFaceXTとM-16DA
GENELECのThe Ones

「楽曲制作自体は24トラックで構成されていましたが、これを立体的に音を演出するイマーシブオーディオの作品に仕立て上げました。ここで利用したのはフリーで配布されているAmbisonics環境を作り上げるためのIEM Plug-in集とDAWにReaperを使いました。このIEM Plug-inは、7次Ambisonics=64chに対応するものなので、立体空間の中で明確に音を配置することが可能になっています。24トラックのオーディオデータをそれぞれ64chに展開するので、結構な計算処理が必要となりますが、これをここにある日本HPのPCでリアルタイムに処理しており、しかも映像のレンダリングと同時に1台のマシンで処理しているのです」と江夏正晃氏。

制作された楽曲

ちなみにそのPCというのはHP Z8 G4 Workstationというハイエンド機。CPUにはXeon Platinum 8170(2.1GHz)のプロセッサーを搭載し、デュアル・プロセッサー構成となっているので、48コア・96スレッド。搭載メモリは96GBで、GPUはQuadro RTX4000とRTX2080Tiの2つを装着。RTX4000のほうで描画を、RTX2080Tiのほうでレンダリングをするシステムになっているという。

HP Z8 G4 Workstation

AIが作曲した現代のモーツァルトの新曲とはどんなものなのか、気になる人も多いと思うが、このプロジェクトの作品は、今後HP本社の展示スペースをはじめ、各地のイベントなどでも展示していくとのことなので、ぜひ現地に行って体験してみると面白いはずだ。とはいえ、その雰囲気だけでも、ということであれば、HPが公開しているHP PROJECT Zのページ内の動画の後半で披露しているので、聴いてみてはいかがだろうか?

藤本健

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto