藤本健のDigital Audio Laboratory

866回

音を楽譜にする“耳コピ”はここまで来た。AI自動採譜の最前線

9月12日、国立研究開発法人科学技術振興機構(JST)主催による「OngaACCELシンポジウム2020: 音楽情報処理研究が切り拓く未来の音楽体験」というシンポジウムが、YouTube Liveによるライブ動画配信で開催された。

講演自体は東京・お台場にある日本科学未来館ホールで行なわれ、それをライブ配信していたのだが、プレスとして現地に入らせてもらった。3時間にわたる研究発表会であり、5つのグループによる研究成果が紹介され、いずれもデモを交えた非常に面白い内容だった。

講演が行なわれた日本科学未来館ホール

シンポジウムの動画は、その後YouTubeとしてアーカイブされているとともに、ニコニコ動画にも同じものが掲載されているので、誰でも見ることができるが、今回この5グループの発表のうち、個人的にも非常に興味深かった「AIを用いた自動採譜」、いわゆる“耳コピ”技術についてピックアップするとともに、その最先端技術がどうなっているのかをレポートしてみよう。

コンピュータが音楽を聴いて理解・分類する技術を研究

OngaACCELシンポジウムは「音楽体験の未来を切り拓く技術開発によって、音楽の楽しみ方がより能動的で豊かになるように、鑑賞・創作・協創の3つの側面から人々を支援できるサービスプラットフォームの構築を目指している」OngaACCELプロジェクトによる研究発表会だ。

プロジェクトの正式名称は「次世代メディアコンテンツ生態系技術の基盤構築と応用展開」。科学技術振興機構(JST)の戦略的創造研究推進事業ACCELとして、2016年度に採択されたもので、その前身ともいえる2011年~16年の「コンテンツ共生社会のための類似度を可視化する情報環境の実現」=OngaCRESTプロジェクトを土台としている。OngaCRESTプロジェクトの研究発表会については、2016年に記事にしているので、そちらも参考していただきたい。

JST ACCELの概要
プロジェクトについて

OngaACCELプロジェクトは、5つのグループが連携・推進しており、研究代表者は産業技術総合研究所(以下、産総研)の首席研究員である後藤真孝氏。ほかに京都大学准教授の吉井和佳氏、早稲田大学教授の森島繁生氏、明治大学教授の中村聡史氏、そしてクリプトン・フューチャー・メディア株式会社の佐々木渉氏が各グループを担当し、その全体のプログラムマネージャーとしてクリプトン・フューチャー・メディアの代表取締役である伊藤博之氏がJSTの所属で参画している。

5つのグループが連携して推進する。写真手前、左から産業技術総合研究所の後藤真孝氏、クリプトン・フューチャー・メディアの伊藤博之氏。写真奥、左から京都大学の吉井和佳氏、早稲田大学の森島繁生氏、明治大学の中村聡史氏、クリプトン・フューチャー・メディアの佐々木渉氏

今回その各グループからさまざまな研究成果が発表されたのだが、そのすべてに共通する背景となっているのが以下の言葉だ。

膨大な数の新曲が世界中で毎日毎日生まれ続けている。
また過去数十年の間に膨大な数の楽曲が生まれている。
この全てを人間が聴いて把握することは到底不可能。
人間に代わりコンピュータが聴いて理解・分類する技術が必要。
これにより人類が生み出した音楽の膨大な蓄積の中にたっぷり含まれた有益な情報を抽出し、新たなビジネス創出が可能。

確かに音楽配信サービスなどによるレコメンドサービスはどんどん進化しているが、これらは作曲者や編曲者、カテゴリーといった情報と、リスナーの購入歴や視聴歴、検索歴などを元に行なわれているもので、対象になっているのはメジャーリリースされた楽曲に限られるのが実情だ。

それに対し、OngaACCELプロジェクトでの研究では、音楽そのものをコンピュータが聴いて、理解して、分類するという新しいチャレンジであり、無名のアマチュアが作ったほとんど誰も聴いたことがない楽曲も対象にすることが可能なものだ。

この実現のために、さまざまな研究がなされているわけだが、今回ピックアップするのは、吉井グループによる、「生成モデル+深層学習で加速する音楽AIの未来」というタイトルで発表されたAI自動採譜についてである。

京都大学准教授の吉井和佳氏

自動採譜には音響モデルだけでなく“言語モデル”が必要

研究のベースになっている重要な技術、システムがSongle(ソングル)というサービスだ。

これは、産総研が開発し2012年に公開された「能動的音楽鑑賞サービス」。詳細については2012年の記事で紹介しているので、そちらに譲るが、簡単にいうと音楽を自動解析して音楽地図を作り出すもの。

もう少しいえば「サビ区間」や「繰り返し区間」のような楽曲構造を割り出すとともに、コード(ルート音と和音の種類)、メロディライン(歌声の主旋律)、階層的ビート構造(小節の先頭と拍位置)を推定し、可視化する技術。そのSongleの性能を大幅に向上させると同時に、新たな研究としてドラム採譜、ピアノ採譜を開発し、より強力な自動採譜を実現していこうというのがここでの研究だ。

吉井氏は「自動採譜を音響モデルのみで行なうことには限界が来ている。これだと、ある瞬間での音の構成は正しくても、不自然な音符配置が多発してしまう。これを解決するためには言語モデルの利用が重要だ」と話す。ここでデモされたのが、2016年当初の自動採譜の状況。

該当箇所は、1:18:05から(OngaACCELシンポジウム2020: 音楽情報処理研究が切り拓く未来の音楽体験より)

聴いて分かる通り、コンピュータもそれなりに頑張って自動採譜を行なっているが、かなり問題が多い。これは今ある耳コピソフトの類も同様なので、こんな感じの解析結果に聞き覚えのある人も少なくないだろう。それに対し、2020年の技術での自動採譜結果がこちら。

該当箇所は、1:19:52から(OngaACCELシンポジウム2020: 音楽情報処理研究が切り拓く未来の音楽体験より)

かなり進化しているのが実感できる。でも音響モデル、言語モデルとはどういう意味なのか? それを表現したのが下図だ。

本来、音楽は音楽理論にのっとり、作曲家が音符を配置する。さらにそれを演奏することで音楽信号が生成される。その作曲して音符ができる過程を言語モデル、演奏して音楽信号ができる過程を音響モデルと呼んでいる。

自動採譜をするには、この逆をたどればいいはずだ、というのがこの研究の考え方だ。つまり、音響モデルを元に音符を割り出し、言語モデルを用いて、それをより正しい表現に戻す推論をしようというわけである。

少し言い方を変えると、オーディオ信号だけから耳コピしようと思っても限界があり、各瞬間、各瞬間の音の周波数の構成は分かっても、音楽的に合っているかどうかは分からない。そこで、音楽理論と照らし合わせた上で、楽譜としてはこうだろうと推定すると、結構いいところまでいく、という考え方なのだ。吉井氏も「ピアノロールではなく、人間が読める楽譜形式で出力したい」と強調する。

また今の時代なので、音響モデルと言語モデルを利用した推定において、深層ニューラルネット=推論モデルを適材適所に用いることで、より表現力を高めることを実現させたと吉井氏は話す。

この音響モデル+言語モデル+推論モデルを組み合わせた「三位一体の自動採譜」と呼んでいたが、楽曲構造解析、歌声採譜、コード採譜、ドラム採譜、ピアノ採譜のそれぞれで使った技術は図の通りになっている。

それぞれについてもう少し具体的に見ていこう。

まず楽曲構造解析だが、これは音響信号が入ってきたらそれをセグメントに分けるとともに、イントロ、Aメロ、Bメロ、サビ……といった形にラベル付けてしていく。

こうしたものは深層ニューラルネットを使えば簡単に推論できそうにも思うが、そう簡単にはいかないという。その理由は楽曲構造解析した学習データが圧倒的に少ないため。確かに、Aメロが何小節目で、サビが何小節目…なんてデータはそうそうなさそう。

そのため従来の方式で推定しても極めて頻繁にセクションが切り替わるなど、なかなか上手くはいかない。ただ、音楽理論、音楽知識を元に考えれば、うまくあてはまるようになるのではないか、というのが今回の研究なのだ。

1つ目としては同質性。

たとえばAメロがギターを使っている曲において、Bメロではギターと歌声が使われ、さらにサビではギターと歌声に加えてサックスが加わるなど、セクションごとに楽器編成が異なる。別の見方をすれば、同じセクション内であれば音響的特徴が一貫しているので、それが変わったところがセクションの分かれ目であるわけだ。

同質性

2つ目としては反復性。同じクラスのセクションにおいては同じコード進行となっていて、それが反復する形になっている。

反復性

3つ目は規則性。ポピュラー音楽であれば、各セクションの長さは4小節、8小節、16小節、32小節のいずれかになりやすいので、1小節とか3小節で切り替わる、またもっと短く2拍で切り替わるというのはおそらく間違いであることが見えてくる。

規則性

こうしたことを総合した上で、LSTM=再帰型ニューラルネットワークを用いて複雑な生成過程を非線形化することでスマートな構造解析ができるようになったという。

次に歌声採譜について。

従来はピアノロール形式の採譜がほとんどだったが、この研究においてはピアノロールではなく楽譜を推定するのが重要なポイント。ビブラートやオーバーシュートなどさまざまな動きも考慮しながら妥当な楽譜を推定するのを実現している。

ここでは、いきなり音符に行く前にまずキー=調が何であるかを把握することで、どんな音高が利用できるかが見えてくる。またリズムを考慮することで音符の長さも決まってくる。これが音楽のルールにしたがうものなので、言語モデルということになる。

ここから音が出てくるので、音響モデルになるが非常に複雑であるため、ニューラルネットワークを用いることで精度を上げることができ、ポピュラー音楽であれば8割程度の精度を実現できるようになったという。実際のデモがこちらだ。

該当箇所は、1:28:57から(OngaACCELシンポジウム2020: 音楽情報処理研究が切り拓く未来の音楽体験より)

さらにコード採譜においても、歌声採譜と同様で、音を生成する過程においてはキー決め、そのキーと音楽理論にしたがってコードの進行が生成されるのが言語モデル、それを演奏するのが音響モデル。それの逆過程をたどることで推論していくのだが、生成と推論、つまり演奏と採譜は表裏一体なのだと吉井氏は話す。

そこで利用したのが、ミラーニューロン仮説。これは人の動きを見て、自分だったらどうするかを考えることで、何をしているのかを推定するというものだ。

つまり、通常であればコード進行を示すデータと音響信号のペアが膨大にないと深層学習ができないけれど、音響信号からコード進行を推定し、そこからキーを割り出し、反対に、推定されたキーやコードからもとの音響信号が正しく生成可能かシミュレートすることで、「半教師あり学習」に基づくコード採譜が可能になるのだという。その結果のデモがこちらだ。

該当箇所は、1:33:15から(OngaACCELシンポジウム2020: 音楽情報処理研究が切り拓く未来の音楽体験より)

これにより、複雑なコードも認識し、8割近い精度が得られるようになったという。

そのほか、ドラム採譜、ピアノ採譜についても説明があったので、興味がある方はぜひビデオでご覧いただきたい。

ただ、この中で言及があったのは、Googleなども含め、世界中で研究が進められているピアノ採譜においても、みんなピアノロールでの再現であって、楽譜にはなっていないという点。しかし、吉井氏のグループでの研究では、言語モデルを用いて、ピアノロールになったデータを、正しいビートに乗せて発音タイミングを指定してMIDI化を実現。さらに右手と左手を分けて考えるという推定をすることで、より正しい楽譜を再現できるようになっているとのことだった。

プレゼンテーション終了後、話を聞いてみたところ、この自動採譜においては、実装が進んでおり、現時点ではまだ利用できないが、今後、その一部がSongleで利用可能になる計画だという。

Songleには既にプライベート楽曲機能として、非公開の形でオーディオデータをアップロードし、それを解析できる仕組みがあるが、その機能と連携する形で、今後吉井氏のグループの技術が利用可能になれば、応用範囲も広くなりそうだ。

また、現在においてはピアノ採譜までだが、その応用としてベース採譜、さらには別の楽器への応用も考えらえるので、その辺も実現させていきたい、と話していた。今後どう発展していくのかとても楽しみなところだ。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto