藤本健のDigital Audio Laboratory

第565回:鼻歌検索やこぶし表現など「歌声情報処理最前線!!!」

歌声の印象評価語自動推定や自動作曲の新提案など

（2013/9/9 16:15）

音楽情報科学研究会(SIGMUS)の第100回記念シンポジウム

　8月31日～9月1日の3日間、東京大学の武田ホールにおいて、情報処理学会音楽情報科学研究会(SIGMUS)の第100回記念シンポジウムが開催された。今年、発足20周年を迎えたSIGMUSからは、これまでも数多くの音楽に関連する情報処理技術が生み出されてきているが、最近では歌声にまつわるさまざまな技術が登場してきており各方面からの注目を集めている。

　今回の記念シンポジウムにおいて2日目には「歌声情報処理最前線!!!」と題する歌声に関連する発表や、ヤマハやクリプトン・フューチャー・メディアなどによる招待講演も行なわれた。また3日目には「産業も推進する音楽情報処理」と題して、河合楽器製作所やソニー、インターネットによる招待講演も開催された。この3日間、朝9時から18時ごろまで計43コマもの発表が行なわれ、全部を紹介するのは厳しいので、歌声情報処理最前線!!!を中心に、筆者が見ていて興味をもったものをいくつか紹介してみたい。

　20年目となる音楽情報科学研究会の歴代10人の主査による20周年記念祝賀スピーチからスタートした、今回のSIGMUSの第100回記念シンポジウム。発表内容はホームページに公開されているプログラムの通り、非常に多岐に渡るものとなった。メインは2日目の「歌声情報処理最前線!!!」であり、「!!!」というマークが示す意味は、今回が3回目。筆者も3回連続で参加させてもらった。

記念シンポジウムの様子

歌声情報処理最前線!!!

　当然、学会の論文発表という形式であるため、非常に難しい話ばかりではあるが、テーマが音楽、歌声といったものなだけに、デモだけを見ていると楽しい内容もいろいろ。計43あるその中から7つをピックアップしてみよう。

鼻歌検索や歌声評価語の自動推定システムなど

ソニーの角尾衣未留氏

　まずは、ソニーの角尾衣未留氏が発表を行なった「鼻歌検索システムのための楽曲からのボーカルメロディ推定」から。檀上に上るなり、マイクに向かって歌を歌い始める角尾氏。この歌から、その曲が何であるかを推定し、推定した曲を再生させるというデモを行なおうとしたのだが、緊張からかシステムがうまく動いてくれず失敗。

　その後、別の人に歌ってもらって成功というハプニングもあったが、これはボーカル音声の性質を利用したメロディ推定システムとなっている。iPhoneやAndroidでも動作するクラウドサービスとしてSoundHoundというものがあるが、それと似たことを目指したシステムのようだ。

　ここではボーカル音声の性質を利用した独自のメロディー推定手法を提案するとともに、この提案手法による参照データを用いた鼻歌検索が有効であることを実証。将来的にはポート検出やコード認識との組み合わせによる自動採譜への応用を期待したいとしている。

「鼻歌検索システムのための楽曲からのボーカルメロディ推定」

人の声に特化したメロディ推定

早稲田大学の金礪愛氏

　2つ目は早稲田大学の金礪愛氏発表による「ポピュラー音楽における歌声の印象評価語を自動推定するシステム」。これはある種、音楽評論家のようなことをコンピュータに行わせようというユニークな研究発表なのだが、人の歌声を聴いた上での印象を言葉で表示するというのだ。つまり、「声量のある」、「少女のような」、「繊細な」、「元気な」、「真っすぐな」……といった言葉で表現する。

　この研究では、雑誌などに書かれている歌声に関する評価語をピックアップすることからスタートし、890個拾った中から言葉の中から使えそうな44のワードに絞り込み、さらに印象評価など6つのワードを加えた50種類をピックアップ。一方、プロ歌手ではない人たちに、さまざまな歌声で歌ってもらった60のデータを用意し、これから音響特徴量分析を行なうとともに、50のキーワードと照らし合わせ、その特徴量に応じたキーワードを推定できるようにしたというのが、このシステムである。

　たとえばスペクトル傾斜の平均値がどのくらいであるかによってキーワードが結びついていたり、ビブラートの深さの平均、深さの最大値といったことにもキーワードが結びついてくる。実際、会場で行なったデモでも、歌声と結びつくキーワードがしっかりと表示されていた。

ポピュラー音楽における歌声の印象評価語を自動推定するシステム

50種類の言葉リスト

システム概要

スペクトル傾斜の平均値

ビブラートの分析

京都大学の池宮由楽氏

　3つ目は京都大学の池宮由楽氏の発表による「伴奏付き歌唱に含まれる歌い方要素の個別抽出」。これはCDにあるような伴奏付の楽曲からボーカルの歌い方の特徴を抽出しようというものだ。もちろん、歌い方の特徴といっても、いろいろなものがあるが、一番特徴的なものといえばビブラートやこぶし、またグリスダウンといわれる音の終わり部分で音程が下がる歌い方は、反対に歌い始めに音が上がるグリスアップなどだ。

　こうした特徴を抽出するために、予めREPET-SIMという手法で、歌声をある程度分離したうえで、F0＝ピッチの推定を行う。一方、その楽曲の譜面上の音程、音符がどうなっているかは別途手動で入力しておく。その結果の差分から歌い方の要素を抽出しようというのだ。もちろん、単に引き算で割り出すというわけではなく、二乗誤差最小化を用いて、要素を抽出していくのだ。

伴奏付き歌唱に含まれる歌い方要素の個別抽出

処理の流れ

　ここで実際に行なったデモがなかなか面白いものだった。利用したのはスピッツの「クリスピー」と美空ひばりの「人生一路」の各曲で、ここからビブラートやこぶしのを特徴をパラメータとして抽出。それをボーカロイドのベタ打ちの曲(betauchi.mp3)にパラメータとして付加したものが披露されたのだ。楽曲自体はまったく別の曲ではあるが、いかにもスピッツ風(spitz.mp3)、美空ひばり風(misora.mp3)の歌い方に仕上がっているのだ。特徴的な歌い方をしている歌手であるからこそ、という面はあると思うが、なかなかユニークな研究発表だった。

市販楽曲を用いた実験(スピッツ/クリスピー)

市販楽曲を用いた実験(美空ひばり/人生一路)

歌声合成への応用

ヤマハのボーカロイドの開発チームのメンバーである才野慶二郎氏

　もう一つ「歌声情報処理最前線!!!」で面白かったのは、ヤマハのボーカロイドの開発チームのメンバーである才野慶二郎氏が発表を行なった「スペクトルモーフィングによるグロウル系統の歌唱音声合成」というもの。

　この発表の研究主体はスペインのポンペウ・ファブラ大学とのことだが、ここでの目的は声にグロウル効果を与えるということ。グロウルとは「ダミ声」とか「がなり声」と呼ばれるもので、ジャズやR&Bで黒人歌手が喉を震わせながら歌う感じのものや、演歌におけるこぶし回しを意味している。

スペクトルモーフィングによるグロウル系統の歌唱音声合成

グロウル系統の性質の説明

提案手法の基本アイデア

　ここではあらかじめ、グロウルサウンドのサンプリングデータを用意しておき、モーフィング技術を用いて音高と音色を合わせ込み、ターゲットとなる歌声に転写しようというのだ。デモにおいては、実際に人が歌っている声にグロウル効果を与えた結果が披露されたほか、ボーカロイドのサウンドに適用した結果も披露された。このグロウルがかかったボーカロイドサウンドというのは、いわゆる調教では、なかなか実現しなかったものだが、これによってさらに一歩、人に近い表現力をもつものとなる。まだ、あくまでも研究段階とのことだが、製品への実装など期待したいところだ。

少しのアクションで簡単自動作曲。MAXでモバイル機器用ソフト開発

日本大学・文理学部情報科学科の北原鉄朗氏

　最終日の発表も面白く、わかりやすいものがあったので、2つほど紹介してみよう。一つは日本大学・文理学部情報科学科の北原鉄朗氏が発表した「音素材の自動挿入機能を備えたループシーケンサ」というもの。

　これは自動作曲のようなことを目指すシステムの開発で、ベースとなるのはループシーケンサだ。多少知識がある人ならループシーケンサを使えば、簡単に曲を作ることはできるが、音素材の種類が豊富すぎるため、音素材を試聴しているうちに飽きたり、疲れてしまい、どんな曲を作りたいのか忘れてしまうという問題点がある。また、どうやって抑揚をつけるかなど、多少のテクニックも必要となるため、まったくの初心者だとわかりにくというのも事実だ。

「音素材の自動挿入機能を備えたループシーケンサ」

既存ループシーケンサーの問題点

　そこで、ここで開発を行なったのは、専門知識を必要とせず、簡単に(短時間で)入力ができるけれど、ユーザー(曲の制作者)にそれなりのアクションを取らせるというもの。これまでも、ボタンを押すだけで作曲ができてしまうようなツールはいくつかあったが、それではユーザーの意思がまったく反映できないので、ここでは「曲の盛り上がり度」をグラフィカルに入力できるようにしたのだ。それをわかりやすく実現できるようにするため、ここではジャンルをテクノミュージックに絞っている。

隠れマルコフモデルによる定式化の説明

　デモを見てみると、非常にわかりやすいものだった。横軸が時間、縦軸を盛り上がり度としたときに、フリーハンドで盛り上がり度の時間的推移を描くと、それにマッチした形で曲がすぐに仕上がるという内容だ。使っているのもMAGIXのSoundPoolという著作権フリーの素材集だが、確かに入力したグラフ通りに演奏がされていく。

　音素材はすべて1小節のものを用い、シーケンス、シンセ、ベース、ドラム、パーカッションの5つのパートを組み合わせて表示されてたが、隠れマルコフモデル(HMM)で定式化を行なうことで音素材を自動挿入しているとのことだ。まだまだ改良の余地はいろいろありそうだが、まったく知識のない人でも、自分の指示した通りに曲ができあがるというのはなかなか面白そうである。ぜひ、今後の発展に期待したいところだ。

Cycling’74のDavid Zicarelli CEO

　最後に紹介するのは研究発表ではなく、企業による招待講演の1つで米Cycling’74のCEO、David Zicarelli氏による「モバイルおよび組み込みアプリケーションのコード生成を用いたプログラミング」という内容だ。ご存じのとおり、Cycling’74はMAXの開発元であり、David ZicarelliはMAXの開発者。これまでも、この音楽情報科学研究会においても、MAXは頻繁に利用されるツールであったが、今回行なわれたデモは、これからの楽器制作において非常に興味深い内容となっていた。

　まず、行ったのはDAWであるAbleton Live上でMAXを動かし、その中で動くGenというツールを使ってエフェクトを設計すると、それがそのままLiveで利用できるというデモ。通常、VSTプラグインなどを開発するには、C言語を用い、ゼロからスクラッチで作っていく必要があるが、MAXならばDAWを起動しながらエフェクトが作れ、そのまま動かすことができるという、ほかではありえない超効率的開発手法のデモだった。しかし、今回の主題はこのようなPC上での話ではなく、これを外部機器においても適用できるという画期的なデモだ。

Ableton Live上でMAXを動かす

Genを使ってエフェクトを設計する

マイコン「PandaBoard」

　Zicarelli氏が持ち出したのは小さなワンボードのマイコン、PandaBoard。これはテキサス・インストゥルメントが開発した小さなコンピュータで、ここにLinuxやAndroid OSを動かすことができるというもの。CPUはARMコアのOMAP4460というRISCチップが搭載されており、MAXが動作するWindowsやMacに使われているIntel系のCPUとはまったくアーキテクチャの異なるものだ。

　これをLAN経由で、MAXが動作しているMacと接続。その後、MAXのGen上で先ほどと同様に簡単なエフェクトを作成し、それを同じようにPandaBoardへとコードを吐き出すと、なんとPandaBoardがエフェクトとなって独立して動作するのだ。CPUパワー的には、そこそこの力を持つPandaBoardであるが、これで動作するプログラムを組むとなるとなかなか大変であった。MAXとGenを使えば、簡単にこうしたデバイス用のソフトが開発できてしまうというのは、やはり画期的だ。Zicarelli氏によれば、GenによってC言語によるコードが吐き出され、それをコンパイルして動作させているから、PC側とは完全に独立して動作するようになっているとのことだ。

　3Dプリンタの登場で、さまざま形が簡単に作れるようになった現在、その3Dプリンタで作り出した機材の中に、このPandaBoardのような機器を埋め込めば、従来にはなかったようなユニークな楽器を生み出せる可能性も出てくる。大きなパソコンとセットで使う必要もなく、完全に独立したコンパクトでユニークな電子楽器を作ることができるというわけだ。こうしたシステムによって、今後ユニークな楽器がいろいろと誕生してくれることに期待したい。

藤本健

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto。