藤本健のDigital Audio Laboratory

第646回

小林幸子の声がなぜボカロに? “こぶしプラグイン”の秘密をヤマハに聞く

 ヤマハから、歌手・小林幸子さんの声を元にしたVOCALOID4対応の女性歌声ライブラリ「VOCALOID4 Library Sachiko」が発表され、7月24日よりダウンロード版の販売がスタートした。8月下旬からはパッケージ版(オープンプライス/店頭予想価格12,000円前後)も発売される。

VOCALOID4 Library Sachiko
VOCALOID4 Library Sachiko(パッケージ)

 VOCALOIDというと、萌え系の歌声というイメージが強い中、今回登場したのは、“こぶし”の効いた演歌を歌う異色のライブラリ。しかも、このパッケージに標準バンドルされる専用のジョブプラグインである「Sachikobushi」を利用することで、誰でもボタン一発で小林さん風な「こぶし」や「しゃくり」の歌い回しに仕上げることができるというのが大きな特徴だ。このライブラリ自体もかなりユニークな仕上がりとなっているが、実はSachikobushiにも、学会で発表されて間もない最先端の技術が盛り込まれている。

 そもそも、なぜ小林幸子さんの声を用いたVOCALOIDを作ることになったのか、そしてここに搭載されているのがどんな技術なのだろうか? 静岡県浜松市にあるヤマハ本社で、Sachikoの開発に携わった4人のエンジニアに話を聞いた。

浜松のヤマハ本社
話をうかがったヤマハのエンジニア。左から、石川克己氏、橘誠氏、吉田雅史氏、大島治氏

“演歌+ボカロ”が誕生した理由

 実際にインタビューへ入る前に、「Sachiko」に簡単なフレーズを打ち込んで歌わせてみたので、まずはこれを聴いてほしい。

 どうだろうか? これはいわゆるベタ打ちで入力したデータであり、音符と歌詞だけを指定した素の状態である。それでもかなり抑揚のある歌声になっており、明らかに今までのVOCALOIDとは違う雰囲気であることが分かるはずだ。

音符と歌詞だけを指定したもの

 さらに、このベタ打ちのデータに対し、付属のジョブプラグイン「Sachikobushi」をインストールし、これを実行したものが下の音声サンプルだ。デフォルトの設定で実行しただけであり、何も手を加えていないのだが、大きく雰囲気が変わり、人っぽく、そして演歌っぽい歌い方になったことがよくわかるはずだ。でも、どうしてこんなことができるのだろうか? 話を伺ったのはヤマハ 事業開発部VOCALOIDプロジェクトのエンジニアの方々。リーダーの石川克己氏と技師(開発)の大島治氏、主任で工学博士の橘誠氏、そしてライブラリ制作を担当した吉田雅史氏(以下、敬称略)。

ジョブプラグイン「Sachikobushi」をインストール


    【音声サンプル】
  • sachiko2.mp3(158KB)
    ジョブプラグインの「Sachikobushi」を実行した例

――そもそも、どういう経緯でSachikoを開発することになったのですか?

石川克己氏

石川:昨年秋からスタートしたNOTTVの番組「ボカロ生活(仮)」という番組で、MCとして小林幸子さんが出ていたのです。その番組に年末、当社のVOCALOIDの生みの親である剣持秀紀が出演したのがキッカケでした。その番組内で剣持が小林さんにラブコールを送った結果、実現したのです。小林さんは、最近コミケに出たり、ボカロカバー曲を歌うなど、活躍の場を広げられている一方、圧倒的な歌唱力の持ち主。そんな方は他に存在しないので、番組出演をチャンスに、ぜひ、とお願いしたんですよ。

――ヤマハさんは、つい先日も「SEKAI NO OWARI」のボーカリストであるFukaseさんの声を元にしたVOCALOIDライブラリを出すことも発表されていましたが、急にアーティスト寄りのVOCALOIDライブラリを出す方向性に舵を切ったということなのですか?

石川:そんな風に見えると嬉しいところでもあるのですが、別に急にこうした路線を始めたわけではありません。VOCALOID3の最初のライブラリとして坂本美雨さんの声を元にした「Mew」を出していましたし、昨年リリースした「ギャラ子NEO」は柴咲コウさんの声を元にしています。こうしたアーティスト寄りのものに限定しているわけではありませんが、今後も幅広く展開していきたいと考えております。

――今回のSachiko、やはり最大の目玉はジョブプラグインのSachikobushiだと思いますが、Sachikoを開発する上で、最初からSachikobushiのようなものを作ることが念頭にあったのですか?

吉田雅史氏

吉田:個人的には、そんなアイディアは持っていましたが、まずはライブラリを作ってからかな……とは思っていました。ただ、そんなアイディアを橘に話したところ、「やりましょう! 」ということになったんです。それから、このジョブプラグインのアイディア、コンセプトなどを部署内で説明した上で、二人で開発に取り組んでいきました。

橘:最初から、今のSachikobushiのようなジョブプラグインが開発できるとは思っていませんでした。当初はZOLA PROJECTに付属しているジョブプラグイン「ZOLA_Unison」のようなオマケ的なものかな、と思っていたんですけどね。

大島:「ZOLA_Unison」はオマケではなく、VOCALOIDの歌声パラメータがユニゾンやコーラスに適した値に調整される、立派なプログラムです! (笑)

橘誠氏
大島治氏

――実際、吉田さんの思っていたアイディアは実現できそうだと踏んだわけですか?

吉田:VOCALOIDライブラリを制作するためには、まずテスト録音をして、ある程度の方向性などを調整した上で本番録音へと入ります。そのテスト録音の段階で、仮ライブラリを作るまでもなく、「これは行ける! 」と思いました。その上で、小林さんの事務所にも提案をしたところ、面白そうだということになったのです。

「Sachikobushi」はどうやって作られた?

――どうやってSachikobushiを実現しているのか、まったく分からなく、不思議に感じるのですが、どんなことをしているのですか?

吉田:VOCALOID用の歌声の録音と並行する形で、小林さんの事務所を通して、小林さんのドライボーカルを分析用としてお借りしたのです。まったくバックの音楽が入っていない、エフェクトもかかっていない素のボーカルです。これを解析することでSachikobushiの開発を行なっているのです。

橘:Sachikobushiはベタ打ちしたデータを解析して、幸子さんっぽい歌声に仕上げてくれるプログラムです。具体的には音量を調整するDYNパラメータとピッチを調整するPITパラメータを生成するようになっています。ビブラートもつけていますが、これはVOCALOIDの音符の下につくビブラートではなく、PITパラメータを動かす形でつけています。これは、幸子さんのドライボーカルを分析した上で、その傾向を推測して作り出しているのです。

DYNパラメータ
PITパラメータ

――見た感じ、ジョブプラグインとして発売されている、「ぼかりす」(VocaListener)とよく似ていますが、「ぼかりす」とも関係があるのですか?

大島:よくそのように思われますし、Sachikoを発表してすぐに、「ぼかりす」の開発者でもある産業技術総合研究所の後藤真孝さんからも、その点を聞かれましたが、まったく異なる技術を使ったものです。ぼかりすの場合は、人間の歌唱データを元に、VOCALOIDの歌声をそれに近づけるよう調整するプログラムです。一回解析して終わりではなく、VOCALOIDが歌った結果を戻して、さらに解析して近づけて……というループ構造になっています。歌った声を聴いて調整するからこそ、VocaListenerというネーミングにもなっているわけですね。そのため、どんなVOCALOIDでも利用できるのがメリットですし、お手本次第で、さまざまな歌い方が可能になります。それに対し、Sachikobushiは、Sachiko専用に作ったもので、歌は小林幸子さん風にのみなるものです。確かに使い勝手としては、お手本のいらない「ぼかりす」のようですが、システム的には違うものなのです。「ぼかりす」の場合、上手な歌のお手本が用意できないと使えない、というのが最大のネックとなっていますが、Sachikobushiなら、その心配もいらないわけです。それぞれ目的の異なるものなので、うまく使い分けていただきたいですね。

――ドライボーカルから分析しているとのお話ですが、その基本を少し教えてもらえますか?

橘:この手法は2013年12月に電子情報通信学会で論文として発表しています。ここにある「HMM音声合成技術の歌唱スタイル生成Job Pluginへの応用」というものですね。詳細はその論文を参照いただきたいのですが、ここではHMM(隠れマルコフモデル)というものを用いて、幸子さんの歌声の分析を行なっています。ここでは15曲分の歌声を元に、まず譜面と歌詞を作成し、各ノートを16分音符の集まりへと分解し、これをデータベース化しています。ここでは音程がどのように動き、歌詞の動きによって、どんな変化があるか、前の音符、後の音符に何がくると、どうなるのか……といった情報を収集しています。こうして学習した結果を元に合成するとHMMエンジンで歌わせることができます。

電子情報通信学会で発表した「HMM音声合成技術の歌唱スタイル生成Job Pluginへの応用」
情報を収集、学習した結果を元に合成して歌わせる

――名古屋工業大学でやっている方式ですよね?

橘:そうですね。Sinsyなどと近いですが、ピッチとダイナミクスに特化させています。こうして学習した結果を元にボーカロイドのベタ打ちのデータを合成したい結果になるようパラメータを生成しています。

学習した結果から、合成したい楽譜データになるようにパラメータを生成

吉田:最初は、お借りした15曲のドライボーカルを使って分析をし、これによって小林さんの表現を実現できるようになったのですが、ボカロユーザーにとっては、ほかにも必要な表現があるだろうと考えました。そこで、さらにVOCALOID用データとして別途作成した24曲も追加して学習させたのです。つまり小林さんに歌ってもらったデータではないのですが、ある意味デフォルメしたデータですね。また、ドライボーカルで生成したものだと、変化が激しすぎるという面もあったので、VOCALOID用に調整したりもしています。

――Sachikobushi、基本的にはジョブプラグインを選択して実行するだけで機能しますが、その途中にパラメータの選択もありましたよね?

吉田:声の立ち上がり(Speed)と声の揺れ幅(Depth)という2つのパラメータを用意しています。一番お勧めなものをデフォルトとして用意していますが、曲によって試してみると面白いと思いますよ。

ジョブプラグインを選択して実行
パラメータの選択画面

声の立ち上がり(Speed)と、声の揺れ幅(Depth)のパラメータを用意

Sachikobushi用のファイル

――ちなみにSachikobushi用のHMMのデータって、ファイルサイズ的にはどのくらいの大きさなんですか?

橘:HMMのモデルは2つあって、それぞれ9MB程度です。といっても、2種類の異なる声用があるのではなく、1つはDYNパラメータ用モデル、もう1つがPITパラメータ用モデルとなっているだけですけどね。

演歌以外にも「Sachikobushi」は使える?

――このSachikobushiは、ほかのVOCALOIDでも使えるのでしょうか?

石川:これはSachiko専用となっているため、ほかのVOCALOIDライブラリで使おうとすると、アラートが表示されて使えません。ただし、一旦SachikoでSachikobushiを適用した後にSingerを変更するという方法を用いれば、使えないわけではないですね。

ほかのVOCALOIDライブラリで使おうとするとアラートが表示される


    【音声サンプル】
  • sachiko3.mp3(158KB)
    石川氏が説明した方法で、Sachikobushiを使った曲のSingerをVY1V4に変更したもの

――実際、その後からSingerを変更するという手法を用いて、ほかのVOCALOIDライブラリに適用して、使えるものなのでしょうか?

吉田:Sachikobushiは、Sachikoの子音の発音の仕方などに合わせ作りこんでいます。ダイナミクスの立ち上がるところ、しゃくりの深さ、掘り下げ方などは、発売のギリギリまで追い込んで作っているので、ほかのVOCALOIDにピッタリ合うわけではありません。

石川:とはいえ、ある程度のニュアンスを転用することで、人の歌声に近づけることは可能だと思います。また、Sachikobushiのパラメータの設定で、弱めにかけることで、Sachiko特有なニュアンスを和らげることもできると思います。

――その辺にも関連するところですが、Sachikoは演歌以外にも使うことはできるのでしょうか?

吉田:そもそもドライボーカルのデータ15曲の中にはポップス系の曲も用意するなど、最初から演歌だけを想定したわけではないんです。いまのVOCALOIDユーザーのみなさんにとっても使いやすいライブラリに仕上げているんですよ。やろうと思えば、もっとド演歌版に仕上げることもできたのですが、ここはもう少し、広いジャンルで利用可能にしています。

大島:すでにSachikoによる楽曲はユーザーのみなさんによって、いろいろと投稿されていますが、面白いのがSoundCloudに上がっているデータです。これはニコニコ動画に上がっているものとは少し傾向が違うんですよ。ニコニコ動画のものは、やはりボカロカバーのものが多く、「ボカロ曲が演歌っぽい歌い方になっている」という感じなのに対し、SoundCloudに上がっている作品、とくに海外の方がUPした曲は想像を超えるいろいろなものがありますよ。EDM系の曲だったり、ジャズ系のものだったり……、圧倒的なソウルフル・ボイスとして魂の籠った歌い方をしてくれて面白いですね。

石川:もちろんロックやポップスほか、さまざまなジャンルで活用できるので、ぜひいろいろ試してみてください。どうしても幸子さんのイメージにとらわれてしまうところはあるとは思いますが、メタルとの相性もかなりいいですよ。またソウルやR&Bなど濃いめの音楽との相性はいいと思います。その際、Sachikobushiをやや浅めにかけると、いい結果になることが多そうですね。

――そういえば、SachikoはVOCALOID4ライブラリなので、グロウル(声を激しく振るわせ唸るような効果)も使えるんですよね?

石川:VOCALOID4のグロウルは、実は本人以外の声を元に作ることも可能なのですが、Sachikoに搭載しているグロウルは幸子さん本人に歌ってもらったものになっています。

グロウル合成のための基本的な仕組み

吉田:グロウルをどこから拾うかは、ライブラリによっていろいろですが、ビブラート成分と被る、伸ばした音からグロウルを持ってくるのはなかなか難しいのです。そこで「伸ばしているところをビブラートをかけずに、唸ってください! 」とか、「頭で唸ってください」など、かなり無理な指示を出してレコーディングしていました。が結局は、ロングトーンで唸ってもらったデータは使いにくかったので、頭での発音からグロールを抽出しているのですが、これがなかなかいい結果になっていますので、ぜひ使ってみてください。

――いろいろとお伺いしてきましたが、やはり、このSachikobushiは画期的なツールですね。ボタン一発でここまでのデータが作れてしまうのは本当に驚きです。

大島:とにかく、従来になかったものを作っていきたいという思いは常にあり、今回はかなりチャレンジャブルなことを行なったと思っています。昔、上司に言われたのが「クリエイターが求めるものを出すのではない。クリエイターがインスパイヤーされるものを出すんだ」という言葉です。今回はそれが実現できたのではないかな、と思っています。ただここまでのことができてしまったので、次に何を作るべきか、またハードルが上がってしまいましたね。Sachikobushiは本当に便利であり、人間、オートマ車に乗ったら、もうマニュアル車には戻れませんからね……。ぜひ、この先のVOCALOIDにも期待していてください。

――ありがとうございました。

Amazonで購入
VOCALOID4 Library
Sachiko
(パッケージ版)

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto