第465回:進化した「VOCALOID3」の改善点をチェック

~UI改善、機能拡張など。VOCALOID2との音声比較も ~


 初音ミクの大ヒットから始まり、ひとつの文化を築き上げたヤマハの歌声合成ソフト、VOCALOID2。そのVOCALOIDが2007年以来4年半ぶりにメジャーバージョンアップし、VOCALOID3がリリースされることが、6月8日に発表された。今回のバージョンアップでは音質が向上するとともに、性能や機能も大幅に向上しているとのことだが、どんな製品になるのかを見ていくことにしよう。



■ 久々のバージョンアップで改善されたこと

 

従来バージョン、VOCALOID2のエディタ画面('07年発表時のもの)
 このDigital Audio LaboratoryでVOCALOID2の発表を取り上げたのは2007年1月15日の記事だった。当日のことは今でもよく覚えているが、こんな大ブームを起こすとは夢にも思っていなかった。結果的にはDTMの世界はおろか、音楽そのもののあり方までも大きく変化させてしまったわけだ。そのVOCALOIDが久しぶりのメジャーバージョンアップということで、8日の発表以来、各所で大きな話題になっている。

 

 今回のバージョンアップでは、「さらにリアルな歌声合成」ができるようになったこと、「より使いやすいユーザーインターフェイス」になったことが最大のポイントとしているが、記者発表会の冒頭で、VOCALOIDの生みの親であるヤマハ株式会社・研究開発センター音声グループの剱持秀紀氏は、まずVOCALOID3の楽曲を披露。そのとき、リニアPCMレコーダーを持っていかなかったのは筆者の失敗だったが、一番前の席でモニタースピーカーの正面に座っており、iPhoneを持っていたので、それの内蔵マイクで16bit/44.1kHzのモノラルで録ってみた(掲載しているのは、それを128kbpsのMP3に変換したもの)。低域のあまりない軽い音になってしまったが、ニュアンスは十分に伝わるはずだ。これを聴くと、確かに、従来のVOCALOID2と比較して圧倒的にリアルになっているのが分かる。


VOCALOID3の発表会の模様剱持秀紀氏

 その改良点の第1として、剱持氏は、音程による声質の変化に関するデモを行なった。これはヤマハ製の歌声ライブラリであるVY1のVOCALOID2版とVOCALOID3版を使ったものだが、聴き比べてみると分かるとおり、VOCALOID2では音程変化の途中2箇所で、明らかに声質が変化しているのに対し、VOCALOID3ではきれいにつながっている。これが、サンプリングのつなぎ目を滑らかにするというものだが、確かにこれは大きなポイントだ。


【音声サンプル】
sound2.mp3(166KB)sound3.mp3(162KB)
VOCALOID2での発音VOCALOID3での発音
サ行の子音の発音の雰囲気を大きく調整できるようになった

 次に示したのが歌声ライブラリ(データベース)において、大きな合成単位が可能になった、ということ。VOCALOID2では「子音から母音」、「母音から子音」のように音素から音素への変化を合成単位としていたが、VOCALOID3ではたとえば「母音から子音を経て、次の母音」といった大きな単位で扱えるようになったのだという。試しに「ボーカロイド」という言葉をVOCALOID2で発音させたものに対し、VOCALOID3で発音させると、確かに滑らかになっている。とくに「カロ」というつながりに着目すると、VOCALOID2では、それぞれ細切れな感じでぎこちないが、VOCALOID3ではそれが1つの単位で扱われているため切れていないのだ。この「カロ」に代表されるように、これまでとくにぎこちなさが指摘されていたのは、「母音からラ行」につながる音、また「母音からハ行」につながる音だったが、そこが圧倒的に自然になっているのだ。

 さらに、「サ行」の改良も大きなポイント。こちらは、データベース側ではなく、音声合成エンジン側の改良とのことだが、サ行の子音部分を延ばした際に不自然さがあったのだが、そこが自然となるとともに、パラメータとしてVelocityを変化させることで、サ行の子音の発音の雰囲気を大きく調整できるようになっている。


【音声サンプル】
sound4.mp3(130KB)sound5.mp3(132KB)
VOCALOID2での発音VOCALOID3での発音

 次にユーザーが買うという視点から見て大きく変わったのが、エディタとライブラリが、別製品として分離されたことだ。これまで「初音ミク」や「メグッポイド」などの製品を買うと、そこにデータ入力、発音のためのVOCALOID Editorと、声優などの歌声をデータベース化した歌声ライブラリがセットとして収録されていたわけだが、VOCALOID3ではそれが分離されるのだ。

 基本的に歌声ライブラリは、従来通りサードパーティーが販売するのに対し、VOCALOID3 Editorはボーカロイドストアというヤマハの直販サイト(正確には、ヤマハがビープラッツに委託して運営しているネット通販サイト)での販売になるという。もっとも、完全に歌声ライブラリだけの販売だと、特に初心者ユーザーなどに混乱を与える可能性もあるため機能を簡略化した、Tiny VOCALOID3 Editorはバンドルされる予定だ。それぞれのスペックの違いは以下のとおりだ。

 

 「VOCALOID3 Editor」「Tiny VOCALOID3 Editor」
提供形態VOCALOID Storeで販売歌声ライブラリに付属
編集・再生可能なトラック数161
最大小節数99917
エフェクトVST Host機能で
好みのエフェクトを付加
リバーブのみ(固定)
VOCALOID Job Plugin 機能
V2 Library Import Tool

 

 さて、この表を見ても気づくとおり、従来のVOCALOID2 Editorにはない機能がいろいろと追加されている。まず注目したいのがトラック数だ。従来のVOCALOID2でも、タブを切り替えることで、複数の歌声を重ねて合唱していくことはできたが、VOCALOID3ではDAWのように、トラック画面というものが新たに追加され、ここで最大16トラックが扱えるようになったのだ。各トラックを開くと、従来のようなピアノロール画面になり、ここで音程や歌詞を入力していくことになる。また、各トラックのバランスを取るためのミキサー画面も設置されている。

 さらに、従来と異なる大きなポイントはオーディオトラックが1つ用意されたことだ。ここは、DAWのようなレコーディングするためのトラックというのとはやや位置づけが異なり、オーディオファイル(16bit/44.1kHzのWAVファイルに限定)を読み込んで、BGMとして使うためのもの。そう、従来のVOCALOID2 Editorでは、これ単独だと、あくまでもボーカルしか生成することができず、楽曲として完成させるためには別途DAWなどを使わなくてはならなかった。しかし、オーディオトラックが搭載されたことで、あらかじめ伴奏データさえ用意されていれば、VOCALOID3 Editorだけで楽曲を完成させることができるわけだ。

最大16トラックが扱えるようになったピアノロール画面で、音程や歌詞を入力各トラックのバランスを取るミキサー画面


■ Job Pluginで機能拡張。省略された機能も

 先ほどのミキサーの画面で気づいた方もいると思うが、VOCALOID3では、その楽曲の完成度を上げるための機能として、VSTホスト機能も搭載された。これは、VSTプラグインのエフェクトを組み込んで、各トラックにインサーションでエフェクトをかけたり、全体に対してシステムエフェクトがかけられるというもの。あらかじめリバーブほか、いくつかのエフェクトがバンドルされる予定だが、オープンなVSTプラグインだから、フリーウェアなども含め好きなエフェクトを自由に組み込んで使うことができるようになる。

 実際、発表会では、VOCALOID3 Editor単体で楽曲を簡単に作り上げることができる、というデモも行なわれた。内容は、トラック1に「となりのトトロ~さんぽ」のボーカルパートを入力。そして、オーディオトラックにあらかじめ用意されていたWAVファイルでの伴奏パートを読み込んだ、というもの。ボーカルパートは、とくに調整もしていないベタ打ち。また標準でボーカルリバーブが設定されているため、数分でかなり完成度の高い楽曲が完成していた。


【音声サンプル】
sample6(YouTubeで再生)
会場で流されたサンプル曲(さんぽ)

 かなり機能が充実したVOCALOID3 Editorだが、さらに機能拡張することが可能になったのも大きな特徴だ。それ意味する新規格がVOCALOID Job Pluginというもの。これはVSTなどとはまったく異なるVOCALOID3 Editor専用のプラグイン規格で、VOCALOID3 Editorそのものに機能を追加するというものだ。基本的には専用のスクリプト言語でプログラムを記述することがで、その仕様も公開されるため、スクリプトが組めるユーザーであれば、自ら機能拡張ができるというわけだ。基本的にはトラックに対して編集を行なうもので、歌声に対して表情付けをしたり、歌詞をいじったり、メロディーをいじったり……といったことができるのだ。たとえば、全部の音符をスタッカートにするとか、レガートにするといった単純なことはもちろん、ある条件に対して特定の調教を行なう……といったことができるのだ。そういう意味では、CakewalkのCAL(Cakewalk Application Language)に近い概念のものと考えてもよさそうだ。ただ、このプラグインでは外部のプログラム(.exeファイル)を呼び出すことも可能となっているため、ある意味何でもできてしまうもののようだ。

産総研が開発した「ぼかりす(VocaListener)

 そうした中、以前から話題になっていた産業技術総合研究所開発の「ぼかりす(VocaListener)」をVOCALOID Job Pluginとしてヤマハがリリースする予定とのこと。このぼかりすについては、また機会を改めて詳しく紹介したいと思っているが、簡単にいえば、人間が歌った音を元にVOCALOIDに最適なパラメータを作り出すというもので、非常にリアルな歌声を自動で仕上げることができるという技術となっている。

 さらに、多言語対応というのも大きなポイントとなっている。これまで日本語と英語の2カ国語対応であったが、VOCALOID3ではそれに加え、中国語、スペイン語、韓国語の3つに対応する。もちろん、無理やりカタカナやアルファベットでそれっぽく発音させるというのではなく、中国語ならピンイン、韓国語ならハングルでというように、それぞれの言語でしっかり使えるようにしようというのだ。この発表会の会場において、中国語、スペイン語によるデモも披露された。外国語だから細かなニュアンスが聴き取れないということなのだろうか、機械っぽさがまったく分からず、非常にリアルな歌声に聴こえた。

 

K-POPグループ「GLAM」のメンバー、キム・ダヒーさんが来場した

 さらに韓国語においては、より本格的なビジネス展開を図るようで、韓国のテレビ・ラジオ放送局であるSBSの子会社、SBSアートテックがVOCALOIDビジネスの展開を図る。その第一弾として、今夏韓国でデビュー予定のK-POPグループ「GLAM」のメンバー、キム・ダヒーさんが発表会にも登場。キム・ダヒーさんの声をレコーディングしたVOCALOID3が秋にも登場するというのだ。まだ、完全なデータベースになっているわけではないが、すでにレコーディングした音を元にデモ曲も披露されたが、これもかなりのリアルな歌声に感じられた。

 このように、さまざまな機能が強化されたVOCALOID3だが、なくなってしまった機能もある。そのひとつがVSTインストゥルメントとしての機能だ。VOCALOID2では、外部のDAWのプラグインシンセサイザとしてVOCALOIDを使うことができたが、今回のVOCALOID3では自らがVSTホストになれる一方で、VSTインストゥルメントとしては使えなくなってしまった。さらに個人的に残念に思うのはReWire接続機能がなくなったこと。こちらも、やはり外部DAWと連携する機能で、オーディオとMIDIを利用した有機的な同期ができるというものだが、それがなくなってしまったのだ。なお、アプリケーション的にはWindows 32bit版のみのリリースとなるようで、Mac版は具体的な段階には入っていないほか、Windows 64bitにもネイティブ対応はしておらず、64bitOS上では32bit互換モード(WOW64)での動作のみを保証している。

【音声サンプル】
sample7
(YouTubeで再生)
sample8
(YouTubeで再生)
sample9
(YouTubeで再生)
中国語のサンプル曲スペイン語のサンプル曲キム・ダヒーさんの新曲のサンプル


■ VOCALOID2との互換性、ライセンス形態の変化

 ここでひとつ気になるのが従来のVOCALOID2とVOCALOID3との関係だ。すでに、数多くのVOCALOID2製品を購入しているという人も少なくないようだが、そうした人たちのこれまでの資産は、うまくVOCALOID3として引き継げるのだろうか?

 結論からいうと、VOCALOID3付属のコンバータ機能を利用し、VOCALOID2の歌声ライブラリをVOCALOID3用に変換して使うことができる。ただし、この場合は再アクティベーションが必要になるため、メーカーによっては有償となるケースもありそうだ。ちなみにクリプトン・フューチャー・メディアは、これについては無償でアップグレードライセンスを提供するとのことだ。

 では、VOCALOID2のライブラリをVOCALOID3に変換すれば、VOCALOID3としての機能をフルで発揮できるかというと、それは否だ。データベース自体は特に変換や補正は行なわれないため、前述のような「母音から子音、そして母音」とつながるような大きな音の単位のデータが生成されるというわけではない。その意味では、VOCALOID2のままではあるが、再生するためのエンジンが強化されているので、音質的な向上はある程度見込むことができる。先ほどの「サ行」の改善などは実現できるので、変換することのメリットはそれなりにありそうだ。

 一方、これまでVOCALOID2 EditorではVSQというファイルフォーマットが使われていたが、VOCALOID3 Editorでもこれをそのまま読み込めるため、従来の資産は活用できる。一方で、VOCALOID3 Editorで保存するデータはVSQXというファイルフォーマットとなるため、上位コンパチブルという関係になる。このVSQXファイルは、VOCALOID3で追加された各種パラメータが反映されるほか、前述のオーディオトラックも扱えるようになるのだ。

 そしてもう1点興味深いのがライセンスについてだ。まず、VOCALOID3のAPIをライセンス提供するということが発表されたのだが、これはどういうことを意味するのだろうか? 法人でも個人でも、ヤマハと契約を結ぶことで、VOCALOID3のAPIの仕様が開示され、これを使ったプログラミングが可能になるのだ。つまり、VOCALOID3のエディタ機能を搭載したDAWが登場するといったことが現実になるかもしれないわけだ。もちろん、このエディタはVOCALOID3 Editorとは関係のないUIのものでOK。五線譜入力タイプのエディタであったり、数値入力のエディタであったり……。この辺の横展開も期待したいところだ。さらに、VOCALOID3の音声合成エンジンもライセンス提供する、という。これはゲームなどのアプリケーションに組み込むことで、リアルタイムに歌うアプリケーションが登場する可能性を意味するものなのだ。

 以上、実際の音を交えながらVOCALOID3について紹介してみた。こうした話とは別に、クリプトン・フューチャーメディア、インターネット、AHSなどのほかにも、多くのサードパーティーがVOCALOID3製品をリリースすることを表明している。こちらについても、また改めて紹介してみたいと思う。


(2011年 6月 13日)

= 藤本健 = リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。
 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto

[Text by藤本健]