第480回:“人の声”に近づいた「VOCALOID3」をチェック

~発音や音のつながりが大きく改善。「初音ミク」にも効果 ~


VOCALOID3発売を記念し、「ニコニコ生放送」で53時間の連続生放送も実施

 発表会から4カ月以上という時間がかかったが、ついにVOCALOID3が発売された。これまでのVOCALOID2では黒子としてあまり表に出てこなかったヤマハが前面に出る形で製品を発売。同時に、サードパーティーからもさまざまな製品が登場してくる。

 発売記念として「ニコニコ生放送」で53時間連続で生放送を繰り広げるなど、大々的なプロモーション展開もスタートしている。

 今回、そのVOCALOID3について改めて紹介するとともに、VOCALOID2とどのような関係にあり、発する歌声がどう違うのかなどをピッチや波形の変化でもチェックしてみたので、紹介してみよう。



■ 拡大を続けるVOCALID

 改めて説明するまでもないが、VOCALOIDは音符と歌詞を入力すれば歌声が合成されるソフトで、ヤマハが開発したもの。製品としてはクリプトン・フューチャー・メディアの「初音ミク」やインターネットの「Megpoid」、AHSの「猫村いろは」といったものがあり、各社ともヤマハからライセンスを受けるとともに、オリジナルの歌声ライブラリを制作し、ヤマハのVOCALOIDエディタとセットにして販売してきたのだ。

 今回、歌声のクオリティーを大幅に向上させるとともに、さまざまな機能強化を図ったというVOCALOID3も基本的な構造はVOCALOID2と同様だが、以前の記事でも紹介したとおり、各社が発売する歌声ライブラリにバンドルされているのはTiny VOCALOID3 Editorという簡易版。本格的に使うには別売のVOCALOID3 Editorが必要となる。このVOCALOID3 Editorはヤマハからパッケージが発売されたほか、ダウンロード版も登場。各社の歌声ライブラリとセットで購入すると安くなるキャンペーンなども行なわれている。

 この後紹介するとおり、VOCALOID3 Editorにはさまざまな機能が搭載されているが、PDFのマニュアルがあるのみで、詳細が書かれた冊子としてのマニュアルはバンドルされていない。実質的なマニュアルに相当するものがヤマハミュージックメディアからオフィシャルガイドブックとして「VOCALOID3公式完全マスター」が同時発売され、筆者がその執筆を担当させてもらった。

簡易版のTiny VOCALOID3 Editorフル機能が入ったVOCALOID3 Editorヤマハの公式ガイドブック「VOCALOID3公式完全マスター」

 この10月21日に発売された歌声ライブラリは6つ。まずはヤマハからキャラクタなしの歌声ライブラリ「VY1V3」、坂本美雨さんの歌声を使って作った「Mew」の2本。そしてVOCALOID2でも人気のあったインターネットの「Megpoid」のVOCALOID3版が4製品。いずれも声優の中島愛さんの歌声で、ニュアンスを変えて収録した「Megpoid Power」、「Megpoid Whisper」、「Megpoid Adult」、「Megpoid Sweet」のそれぞれだ。年内にはあと数製品リリースされる予定であり、年明けにもどんどんと続いていく予定となっている。

キャラクタなしの歌声ライブラリ「VY1V3」坂本美雨さんの歌声を使って作った「Mew」インターネットの「Megpoid」のVOCALOID3版4製品。左から、「Megpoid Power」、「Megpoid Whisper」、「Megpoid Adult」、「Megpoid Sweet」


■ 歌詞が聞き取りやすく、音のつながりも滑らかに

 さて、このVOCALOID3にはさまざまな新機能が搭載されているのだが、やはり多くの人にとって一番気になるのがその音質というか歌声のリアルさではないだろうか? ヤマハもその点を第一に訴えており、VOCALOID2に加え歌声ライブラリに収束されているデータベースの音素連鎖が増えたため、キレイな歌声になっているというのだ。

 もう少し具体的にいうと、VOCALOID2では「母音+子音」や「子音+母音」のように2つの音素を連続させたデータまでしか持っていなかった。この2つの音素連鎖をDIPHONE(ダイフォン)と呼ぶそうだが、VOCALOID3ではTRIPHONE(トライフォン)、つまり「母音+子音+母音」のように3つの音素連鎖までデータで収録しているので、歌声の品質が大幅に向上しているのだ。

 もっとも、すべての子音と母音の組み合わせのTRIPHONEを収録するとなるとデータ量が莫大になるとともに、その編集作業も膨大な手間となる。そのため、歌声ライブラリ製作者側がどれを収録するかを決めることができるようになっており、製品によって収録されているTRIPHONEでの組み合わせは異なっているようだ。

 同じ発音でも、複数の音階で収録されているのだが、VOCALOID2ではある音程より高いと急に音質が変わるといった問題もあったが、VOCALOID3ではそうならないような工夫もされている。その結果、より滑らかに歌えるようになったというのだ。

 まずはここで分かりやすい例として、ヤマハのVOCALOID2製品で、女性ボイスのVY1と、同じ人の声をサンプリングして作ったVOCALOID3版のVY1V3のそれぞれで同じ内容を歌わせた結果を聴き比べてほしい。これはいわゆる調教をしていないベタ打ちのデータ。

 まずVOCALOID2で入力したものをVSQファイルとして保存し、それをVOCALOID3で読み込んで、再生させている。いずれも同じ声であることは確かだが、違いがあることが分かるだろうか? 劇的な変化とはいえないけれど、VOCALOID3版のほうが、少し滑舌がよくなって歌詞が聴き取りやすくなっているのが分かるだろう。そういわれてみると、音と音のつながりが滑らかになっているようにも思える。

 

【音声サンプル】 
vy1v2.wav(1.76MB)vy1v3.wav(1.85MB)
VOCALOID2での発音VOCALOID3での発音

 

VOCALOID2のVY1VOCALOID3版のVY1V3

 これを視覚的に見るために、SONAR X1に搭載されているボーカルエディット機能、V-VOCALを使って分析してみた。中央にある波形は、音量変化を表すもの、黄色いグラフは音程=ピッチの変化を表すものになっている。これを見ると、ピッチの動き自体はそれほど違いはなさそうだが、音量変化は結構変わっている。やはり発音の仕方が違う結果、グラフに現れてくるのだろう。

【音声サンプル】
mew.wav(1.85MB)
Mewの音声

 

 もうひとつ、同時発売されたVOCALOID3歌声ライブラリ、Mewに同じVSQデータを元に歌わせたものを聴いてもらいたい。キレイな発音で歌っており、従来の萌え系の歌声とは明らかに雰囲気が異なった声で聴こえるだろう。これも同じくV-VOCALで波形表示させてみた。こちらは音量変化もピッチ変化もだいぶ違っているのが一目で分かるだろう。

ボーカルエディット機能のV-VOCALで分析。左がVY1V2、右がVY1V3Mewの音声を波形表示したもの


■ 「初音ミク」の発音にも大きな効果

 ここで、多くのVOCALOIDファンが気になるのは「初音ミク」の動向ではないだろうか?

 実はインターネットやAHS、またその他メーカーがVOCALOID3製品のリリースを公表している中、肝心のクリプトン・フューチャー・メディアだけはVOCALOID3の新製品に関するアナウンスが現在のところない。初音ミクなどのCVシリーズをVOCALOID3として出す予定はないとだけ、しているのだ。

 では、初音ミクはVOCALOID3とはまったく関係ないということなのだろうか? 実は、初音ミクもVOCALOID3 Editorを使うことで大きく成長させることができるようになっているのだ。

 VOCALOID3 Editorには「V2 Library Import Tool」というツールがバンドルされており、これを利用することでVOCALOID2用の歌声ライブラリをVOCALOID3用に変換して使うことができるようになっているのだ。実際にV2 Library Toolを起動すると、現在インストールされているVOCALOID2の歌声ライブラリの一覧が表示される。この中からVOCALOID3で使いたいものを選択して、ボタンをクリックするとサーバーに接続され、シリアルコードが発行される仕組みになっている。

 そのシリアルコードを改めて入力すると変換できるという流れになっている。シリアルコードは、VOCALOID2の歌声ライブラリを作成したメーカーが許諾があって、はじめて発行されて変換できるわけだが、現在のところすべての製品を無償で変換できるようになっている模様だ。なお、VOCALOID3用に変換したからといってVOCALOID2で使えなくなるわけではなので心配はいらない。またVOCALOID3側ではインストールされているライブラリをメニューから切り替えて使えるようになる。

V2 Library Toolを起動すると、現在インストールされているVOCALOID2の歌声ライブラリの一覧が表示VOCALOID3で使いたいものを選択するとサーバーに接続され、シリアルコードが発行VOCALOID3側で、インストールされているライブラリをメニューから切り替えて使える

 このように変換しても、これでTRIPHONEを含むライブラリが生成されるというわけではない。あくまでもVOCALOID2用に作った歌声ライブラリだからDIPHONE止まりではあるが、再生エンジンが大きく性能アップしているため、初音ミクももっと上手に歌うようになるのだ。

 まずは先ほどのVSQデータをVOCALOID2の初音ミクに歌わせたものを聴いてみてほしい。先ほどのVY1V3やMewと比べると、滑らかではないかもしれないし、一番機械っぽいかもしれないが、やっぱりよく目立ついい声だと思う。では、これをVOCALOID3で歌わせるとどうだろうか。まあ、入力したデータが単純だったからかもしれないが、それほど違いが感じられない。

【音声サンプル】 
mikuv2.wav(1.76MB)mikuv3.wav(1.85MB)
VOCALOID2での初音ミクVOCALOID3での初音ミク

 

 ところが、ここでちょっとだけパラメータを変化させると、大きく変わってくる。そのパラメータとはVELOCITYだ。普通、MIDIでVELOCITYというと、鍵盤を叩く強さ(スピード)をいじるパラメータであり、音の強さやそれにともなく音色の変化が得られるものだが、VOCALOIDではどれだけ早く口を動かすことができるかを決めるパラメータとなっている。VOCALOID2でもそうだったのだが、実際には調整しても、あまりハッキリした効果が得られなかったのだが、VOCALOID3ではここで大きな効果が得られるようになっている。

 ベタ打ち状態だとVELOCITYは64となっており、先ほどのが64の歌声なのだが、これを0、25、127のそれぞれに設定して歌わせてみたので、それぞれ聴き比べてみていただきたい。どうだろうか、VELOCITYの値が小さくと、一つ一つの発音が短くクッキリとした発音となり、VOCALOID2ではどうしてもハッキリと出にくかったサシスセソの音が断然聴きやすくなっているのがわかるだろう。確かに初音ミクの声だけど、こんな発音はあまり聴いたことがなかった、と感じる人も多いのではないだろうか?

 さらに、VOCALOID2のものと、VELCITY値が異なるVOCALOID3上で歌わせたものもそれぞれV-VOCALで解析してみたので、見比べてみると面白いだろう。

【音声サンプル】 
mikuv3_vel0.wav(1.85MB)mikuv3_vel25.wav(1.85MB)mikuv3_vel127.wav(1.85MB)
VELOCITY 0VELOCITY 25VELOCITY 127

 

VOCALOID2(デフォルト)VOCALOID2:VELOCITY 0VOCALOID2:VELOCITY 25
VOCALOID3:VELOCITY 64(デフォルト)VOCALOID3:VELOCITY 127


■ WAVトラックで効果音などを追加可能。遊べる「Jobプラグイン」も

16bit/44.1kHzのWAVファイルを、VOCALOID3の歌声といっしょに鳴らせる

 では、VOACLOID3 Editorの機能のほうはどうだろうか? 基本的な新機能は6月の記事で紹介しているので、そちらも参照していただきたいが、やはりユニークなのはWAVトラックを搭載した点だ。ステレオトラックとモノラルトラックが1つずつ用意され、ここに16bit/44.1kHzのWAVファイルを読み込んで、VOCALOID3による歌声といっしょに鳴らすことができるようになっている。ボーカルの入っていないカラオケトラックをここに置けば、DAWと連携させることなく、楽曲として仕上げることができる。モノラルトラックは何に使ってもいいが、想定されているのは効果音用に使うというもの。

 たとえばMewやMegpoidには、ブレス=息継ぎ音がモノラルのWAVファイルとして収録されているので、これを要所要所に貼り付けることで、よりリアル感を演出できるようになっている。もちろん、ステレオトラックとは別にリズム音を置いてみるといった使い方もできるのではないだろうか?

 ミキサーにVSTプラグインのエフェクトを入れて使えるようになったのも大きなポイント。最大16トラック再生できるボーカル用のトラックに2つずつインサーションエフェクトを設定できるほか、1系統のセンド・リターンエフェクトも利用可能となっている。VOCALOID3 Editorには予めV3Comp、V3Reverbというコンプレッサとリバーブが入っているほかフリーウェアでも市販ソフトでも自在に追加できるのだ。

ミキサーにVSTプラグインのエフェクトを入れて使えるようになったコンプレッサの「V3Comp」リバーブの「V3Reverb」

 そしてもうひとつの目玉機能がJobプラグイン。これはVSTのように広く使われているプラグイン規格とはまったく異なり、VOCALOID3 Editorだけで使えるというもの。VOCALOID3の編集画面であるミュージカル・エディタ・ウィンドウ(ピアノロール部分)での編集機能を拡張するためのプラグインシステムなのだ。予め6種類のJobプラグインがインストールされており、たとえばStaccato(スタッカート)を実行すると、予め選択しておいた音符が短いスタッカートになる、といった具合だ。

6種類のJobプラグインがインストールされているStaccatoを実行すると、予め選択しておいた音符が短いスタッカートになる

 このJobプラグインはヤマハがビープラッツに委託して運営しているサイト、VOCALOID STOREを介して流通するようになっており、現在のところ、標準の6つのプラグインに加え12種類のプラグインが公開されている。いずれもヤマハ製のものだが、たとえば「V3KeroPitch」はノートの高低をピッチベンドの値に変換し、すべてピッチベンドで音程をとるようにすることで、ボーカルにピッチ補正エフェクトを強くかけたような「ケロ声」にするプラグイン、ソングポジションの位置に、ただ「にゃーーん」という音を入れるだけのプラグイン、パート内を「ぴ」「ぽ」「ぽ」「ぽ」とメトロノームのような音で埋めてしまうプラグインなど、実用的なものから、くだらないものまでいろいろ。VOCALOID STOREへのユーザー登録などの手間は必要にはなるが、今のところどれも無償でダウンロードできるようになっている。

VOCALOID STOREで、JobプラグインのSDKを無償提供している

 また、VOCALOID STORE上にはこのJobプラグインのSDK(ソフトウェア開発キット)もあり、無償で入手可能なので、プラグラミングができる人、試してみたい人などはこれをダウンロードしてみてもいいだろう。今後VOCALOID STOREでは、一般ユーザーが開発したJobプラグインを受け付けた上で、配布したり販売したりする体制を整えていくとのこと。どんなプラグインが登場するのか楽しみなところだ。

 以上、VOCALOID3について、ごく簡単に紹介してみたがいかがだろうか。より人間ぽく歌えるようになったのとともに、ちょっとパラメータをいじるだけでも、効果的に歌声を変化させることができるようになったのが理解いただけただろうか? これまでVOCALOID2を使っていた人はもちろん、VOCALOID3で初めて触るという人でも手軽に歌わせることができるユニークなツール。ぜひ、VOCALOID3の登場をキッカケに多くの新しいユーザーが作品作りに取り組んでくれることを期待したい。


(2011年 10月 24日)

= 藤本健 = リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。
 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto

[Text by藤本健]