藤本健のDigital Audio Laboratory
第691回 異なる曲の同時演奏、高精度な自動耳コピ。音楽をもっと楽しむ情報処理技術
異なる曲の同時演奏、高精度な自動耳コピ。音楽をもっと楽しむ情報処理技術
2016年8月29日 12:51
「音楽情報処理研究が切り拓いた世界」と題した研究発表会「OngaCRESTシンポジウム 2016」が、明治大学中野キャンパスで8月27日に開催された。今回は「鑑賞支援技術」、「創作支援技術」、「類似度・ありがち度の推定と音楽理解技術」という3つをテーマで20種類の研究発表が行なわれた。この中で、音楽寄りのものを中心に、面白かった内容をいくつかピックアップして紹介する。
5年間の研究成果が、一般向け応用サービスとして公開
OngaCRESTシンポジウムは、「音楽の聴き方・創り方の未来を切り拓く技術開発により、音楽の楽しみ方がより能動的で豊かになり、人類と音楽との関係がより良い形で発展していけるようになる情報環境の構築」を目指すOngaCRESTプロジェクトによる研究発表イベントで、2014年に続く2回目となる。OngaCRESTプロジェクトの正式名称は「科学技術振興機構(JST)戦略的創造研究推進事業CREST」。
今回発表を行なったのは、産業技術総合研究所の後藤真孝氏を中心としたグループと、早稲田大学教授の森島繁生氏を中心としたグループ、明治大学准教授の中村聡史氏を中心としたグループ、京都大学講師の吉井和佳氏を中心としたグループの大きく4グループ。それぞれが得意とする分野があるが、個別に研究しつつも、相互に連携しながらさまざまな研究が行なわれているのがユニークなところ。ここでは壇上での発表に加え、その詳細を別フロアで20のブースに分かれてポスター/デモ展示が行なわれた。
2011年10月にスタートしたOngaCRESTプロジェクトは、5年間順調に研究開発が進み、独自の基礎技術を開発しつつも、エンドユーザー向けの応用サービスも開発して、一般公開できてきたという。実際、このDigital Audio Laboratoryにおいても、OngaCRESTプロジェクトで生まれた「Songrium」や「TextAlive」といったサービスを紹介してきたが、今回、また後藤氏のグループで、新しくユニークなサービスが発表された。
まずは、このシンポジウム当日にα版の試験公開がスタートしたという「Songmash」から。これはマッシュアップ音楽の創作支援サービスで、ある曲に対し、まったく異なる別の曲を同時に鳴らして楽しむことができるWebを用いたサービスとなっている。
実際にどんなことが起こるのかは、Songmashのサイトですぐに確認できるので、ぜひそのサウンドを聴いていただきたいのだが、なかなか面白い体験ができる。コード進行が同じで、全く別の曲を同時に歌うと、ピッタリ合うという体験をしたことがある方もいると思うが、その合う曲をシステム的に見つけ出すとともに、実現させるのがSongmashなのだ。といっても、1曲まるごと合うということは、そうないので、数小節分など曲の断片を切り出すとともに、入力楽曲とテンポ、音程が合うように、タイムストレッチ処理、ピッチシフト処理をリアルタイムに行なった上で再生を行なう。そのため、Songmash自体は楽曲を一切配信せずに混ぜ方のレシピだけを配信し、ユーザーの手元でSoundCloudおよびピアプロ上にある楽曲を再生しながらマッシュアップを実現しているのだ。
もちろん、断片といっても入力楽曲にマッチする曲が数多くあるわけではないが、1.ハーモニーの類似度(調和度)、2.リズムの類似度、3.周波数特性のバランス(スペクトルバランス)などに基づいてマッチ具合を点数付けして実現させている。また、このマッシュアップをすべてシステムにお任せな状態で行なうことができるほか、ユーザーがマッシュアップする素材を選択した上で、自分好みのマッシュアップを制作して保存し、公開することも可能になっている。この場合も、あくまでもマッシュアップのためのレシピの公開であって、再生するのはあくまでもオリジナルサイトからのものなので、著作権を侵害するものではないというのもユニークな点だ。
2つ目に紹介するのは以前にも取り上げたSongriumを応用してできた「生成力ランキング」というもの。例えばニコニコ動画に投稿されたボーカロイド楽曲などを見ると、そこから生まれる二次創作、三次創作による派生作品がいろいろと発表されている。その繋がり、関係性を視覚化してくれるのがSongriumなのだが、どの作品からどんなカテゴリの派生作品が生まれたかを、ランキング付けして見せてくれるのがこのサービス。
オリジナル曲に対して「歌ってみた」が数多く作られている作品のランキングや「踊ってみた」が数多く作られている作品のランキングなどを簡単に見ることができるとともに、実際の派生作品をすべてURL付きで一覧表示できるというのが大きな特徴にもなっている。面白かったのは、楽曲によって派生する作品のカテゴリに結構偏りがあること。つまりある曲は「歌ってみた」で数多く利用されているが、「踊ってみた」ではあまり使われていないとか、別の曲は「演奏してみた」に人気、といった実態が見えてくるのだ。また、過去すべての「総合」ランキングのほかに、集計日から過去1週間以内にひとつ以上の派生作品が発表された楽曲をランキングにする「新着」が用意されているので、最新の状況が見えるのもユニークな点。
そしてもう一つ、後藤氏がぜひ作品を見てほしいと話していたのが、歌詞アニメーション制作支援サービスである「TextAlive」の新機能。TextAliveの本体機能自体は、従来から大きく変わっているわけではないのだが、その背景画像の指定ができるようになったこと。具体的な作品がひとつ公開されており、この背景にある初音ミク画像は、TextAliveで自由に使うことが可能になったものの一つとのこと。確かに背景が無地ではなく、こうした画像になると、かなりインパクトは違ってくる。なお、今後このようにしてできた歌詞アニメーション作品の動画データをダウンロードできるようにする機能も実装するとのことなので、いろいろなシーンでの利用が考えられそうだ。
“自動採譜”を高精度に実現する取り組み
では、ここから話は大きく変わって、京都大学の吉井氏のグループで発表された内容をいくつか紹介しよう。この吉井氏のグループで目指しているのは、“使い物になる自動採譜”だ。自動採譜とは、CDやMP3などオーディオデータになっている情報を元に譜面(ピアノロール)を起こすというもの。つまり「自動耳コピシステム」の実現というわけだ。もちろん、自動採譜システムは、これまでも多くの人たちが取り組んできたテーマであり、そうした製品もいくつか存在はしているが、なかなか使い物にならなかったのが実情。ある意味、音楽情報処理の世界における永遠のテーマのような存在であるのだが、そこにいろいろな角度から新しい考え方、技術で取り組んでいるのが吉井氏のグループなのだ。
吉井氏が指摘するのは、これまでの音響モデルのみに基づく自動採譜には、すでに限界が来ているということ。つまり、オーディオをスペクトログラムで周波数解析した結果からピアノロールに置き換えたのでは、いろいろなノイズ成分も音符として配置されてしまい、音楽的に正しいものにならないという。そこで、単純にスペクトログラムから物理的に音程を求めるのではなく、音楽理論を元にしてどのように作曲されるのか、その作曲した曲をどのようにして演奏するのかという流れを逆順で追っていき、音楽的に正しい結果を導き出そう、というアプローチだ。もちろん、そんなに簡単にできるものではないので、いくつかの技術に分けて別々に研究を進めている。いずれもタイトルに非常に難解な用語が使われているが、1つずつ見ていこう。
1つ目は「準ビート同期HMMに基づく、歌声F0軌跡の自動採譜」これは、ビート(リズム)を活用することで主旋律(ソロ)のオーディオデータから、より正しい音程情報を抜き出すというもの。通常オーディオデータからHMM(隠れマルコフモデル)という技術を用いて、音高(F0)軌跡というピッチの変化を割り出すことで、音程としてとらえていくのだが、そのまま行なうと、どうしても安定した音程にならない。それは楽器や歌声は、単純信号であるサイン波と比較すると、さまざまな倍音やノイズなどの逸脱成分が混ざっているから。その逸脱成分を分離除去できれば、正しい譜面が取り出せるはず、という考え方だ。
ここで着目したのがビート。通常、音程がドからミ、ミからファと変化するのはビートに伴うタイミングで行なわれるが、この変化する際に大きく本来の音程から逸脱する。そこで、あらかじめビートを検出した上で、その逸脱する部分を見つけたり、ビブラートによる揺れを分離させることで、より正しく譜面化させることができるという研究なのだ。結果として、本来の譜面との一致率は、従来の多数決法で行なっていたとき56.9%であったのが、この方法によって66.3%に向上したという。
2つ目は「楽譜データに対する音楽言語モデルの教師無し学習」というもの。これは、入力されたMIDI演奏情報を、より正しいものへと修正していくという考え方の研究だが、ここでもリズムについて着目している。テンポの変動なども考慮しながら正しいリズムが求められると曲の構造が見えてくるが、曲には通常「繰り返し」部分が数多く入る。
その繰り返しはまったく同じ音程のときもあれば、音の高さなどが少し変化しての繰り返しもあるが、その繰り返し部分を見つけ出すことで、音程の誤りなどをはじき出し、より精度を高めるというのだ。これによって従来行なわれていた専門家によるパラメータ調整による手法と同程度の性能が達成できたのだという。
さらに3つ目は「階層ベイズ音響・言語統合モデルに基づく多重基本周波数推定」という、ますます難しそうなタイトル。これはコードを利用して正しい音程を導き出そうという技術研究だ。もちろん、あらかじめコードが分かっていれば話は早いのだが、あるのはオーディオデータだけなので、コード進行も同時に推定しつつ、その推定したコードを使って確度を高めていこうというのだ。もちろん、あるコードにおいてのメロディーには、コードを構成する以外の音が入る可能性もある。ただし確率としては低くなるし、ありえない音というものもある程度推測できる。そこで、そうしたありえない音をはじき出すことで、より正確な譜面にしていこうというのがこの手法なのだ。
この方法を使うことで、原曲のデータとの一致率は59.27%から62.04%へと向上したという。この数字を見ると、誤差程度の違いにしか見えないのだが、実際に自動採譜した結果のMIDI演奏を聴いてみると、その数字だけとは思えない大きな違いがあった。この手法を使った結果のほうが明らかに正しいものに近く聴こえる。その理由は、やはりコード進行に従って明らかに変な音をはずしているから、耳障りな音がなくなり、数字上の一致率よりも、キレイに聴こえているということだ。
ほかにも「確率的生成モデルに基づく音楽音響信号解析」という別のアプローチもされており、吉井氏のグループでは、自動採譜の技術において、明らかに進化してきており、世界トップレベルにあることが実感できた。本当に使える自動採譜システムができることは、多くの演奏者、ボーカリスト、そして音楽データ制作者にとっての夢の技術。まだまだ発展途上であり、完成にはほど遠いことは確かだが、ぜひ、製品への実装に向けてより研究を進めていっていただきたいと切に願うところだ。
初音ミクV4X発売のクリプトン伊藤氏がプログラムマネージャーに
今回は取り上げなかったが、音楽と映像のクライマックスシーンを同期させることで、感動が得られるビデオ制作を行なう技術や、ユーザーの好みを反映した3Dダンスの編集・創作支援のシステム研究など、ビデオ系の技術に関する研究発表もいろいろと行なわれたのもOngaCRESTシンポジウムの面白いところであった。
なお、このOngaCRESTプロジェクト2011年10月から2017年3月までのプロジェクトだが、それを引き継ぐ次のプロジェクトであるOngaACCELプロジェクトというもので、2016年8月からスタートしているという。これもOngaCRESTと同様科学技術振興機構(JST)戦略的創造研究推進事業ACCELによる今年度の採択研究課題となっており、「次世代メディアコンテンツ生態系技術の基礎構築と応用展開」というテーマになっている。
このOngaACELLも引き続き研究代表者は産総研の後藤氏が担当するが、それを監修するプログラムマネージャーとしてクリプトン・フューチャー・メディアの代表取締役で、科学技術振興機構の一員でもある伊藤博之氏が起用されたのも注目のポイント。ちょうど今月末にVOCALOID4に対応した新世代の初音ミクである「初音ミクV4X」をリリースするクリプトンの伊藤氏が、このシンポジウムを締めくくる招待講演を行なった。伊藤氏が加わることで、こうした研究にいい変化が起こることを期待したい。