藤本健のDigital Audio Laboratory

【バックナンバーインデックス】

第341回：アクエスト、フリーの歌うソフト「Aques Tone」
～リアルタイムに歌声を合成するVSTプラグイン～

開発したアクエスト代表取締役の山崎信英氏

　先月、初音ミク=Vocaloidに対抗か? と思わせる、歌うVSTインストゥルメント「AquesTone」というフリーウェアがリリースされたのをご存知だろうか? フリーウェアだけに、大々的に発表されたわけではないが、すでにニコニコ動画などには、AquesToneを使った作品も50以上アップされている。

　先日、このAquesToneを開発した株式会社アクエストの代表取締役、山崎信英氏に開発の背景などをうかがうことができた。今回はインタビューも交えて、AquesToneについて紹介する。

■ VSTプラグインのAquesTone

　昨年、大ヒットとなった「初音ミク」をはじめ、その第2弾となる「鏡音リン・レン」、さらに最近では「がくっぽいど」など、ヤマハの音声合成エンジン、Vocaloidを用いた歌うソフトウェアが広く使われるようになった。価格的にも手ごろであり、誰でも簡単に歌わせることができるというのが、ヒットしている大きな要因であるが、8月2日、同じような歌うソフトウェアがフリーウェアとして発表され、話題となっている。

「AquesTone」

　音声合成を手掛ける株式会社アクエストが開発した、Windows用ソフト「AquesTone」だ。スタンドアロンで動く初音ミクなどのVocaloidとは異なり、VSTインストゥルメントというプラグイン型のアプリケーションであるため、CubaseやSONARなどのDAWがあることが前提となる。VocaloidもVSTインストゥルメントとしてのモードも持っているが、VSTインストゥルメントとしてみると、かなり特異なソフトで、使い方も複雑になり、動作しないDAWが多いことも事実。それに対し、このAquesToneは、とってもシンプルな構造となっており、検証はまだしっかりできていないものの、多くの環境で動作するようだ。

　音符情報と歌詞情報を与えることで歌わせるという点では、Vocaloidと共通ではあるが、その手順は少し異なる。AquesToneはソフトシンセの構造をとっているため、音符情報はすべてDAW側で入力する。その一方で、歌詞情報はテキストファイルとして作成しておき、それをドラッグ&ドロップで、AquesToneへ持っていくことで、歌わせることができるのだ。この歌詞の表記はVocaloid2と同様に平仮名やカタカナで入力し、「～は」は「～わ」、「トーン」は「トオン」と入力するという点でも同じだ。

　また、アクエストのサイトでの説明を見るとリアルタイムに演奏を楽しめるように開発したボーカル系のソフトウェアシンセサイザーです」と説明されているように、必ずしも打ち込みで音符情報を入力しなくても、MIDIキーボードを接続し、それを弾くことで、リアルタイムに歌わせることができるのも大きな特徴となっている。

　さっそく、Cubase4で試してみたところ、インストールは例によってVSTPluginsフォルダにDLLファイルをコピーするという単純なもの。インストーラがないので、PC初心者には分かりにくい面もあるとは思うが、作業自体は至って簡単だ。アクエストのサイトではXPで動作すると書かれているが、32bit版のVista上で使ってみたところ、まったく問題なく動いた。

　Cubase上で新規トラックとしてインストゥルメントトラックを作成し、組み込むVSTインストゥルメントの一覧を見ると、確かにAquesToneが入っているのが分かる。

Cubase 4上のAquesTone

　これを選択して、パネルを表示させると、AquesToneの画面が現れる。ここにあらかじめ書いておいた歌詞のテキストをドラッグ&ドロップで持っていくと、AquesTone上の画面に歌詞が表示される。

歌詞のテキストをAquesToneの画面へ

コントロールチェンジ画面

　歌詞を行で区切っていくと、画面上でも改行されるが、これが実は意味を持っている。この画面上では1行だけにフォーカスが当てられているが、そのままの状態だと、フォーカスが当たっている1行だけを繰り返し歌うようになる。もし違う行を歌わせるためには、AquesTone上のUP、DOWNのボタンをクリックして、フォーカスの当たっている行を変更するか、MIDIのコントロールチェンジを用いて歌わせる行を指定する。

　ちなみに、ここで使われているコントロールチェンジの番号は10番。実は、パンのところに割り振られているのがやや妙な感じではあるが、実際使ってみて、とくに大きな問題は生じないようだった。

　試しに、以前「できる初音ミク&鏡音リン・レン」で使った「シャボンだま」をベタ打ちで入力して歌わせてみたところ、確かに簡単に歌ってはくれたものの、どうも歌詞が聞き取りにくい。キーボードで弾いたほうが、もう少し聞きやすい感じがしたので、試しに、音符のゲートタイムを半分にしてみたところ、かなりよくなった。

サンプル「シャボンだま」

修正前 修正後

sample1.mp3
(625KB) sample2.mp3
(625KB)

編集部注：編集部では再生環境についての個別のご質問にはお答えいたしかねますのでご了承下さい。

　また、AquesTone自体にもHuskyというハスキーさをいじるパラメータ、音質を調整するResonance、音量を変更するVolume、また発音後の余韻の時間を設定するRelease、音符間移動の滑らかさを設定するPortamento Time、そして、ビブラートの揺れのスピードを設定するVibrato Freq、ピッチベンドを使った際の音域の大きさを決めるPitchbend Levelという7つのパラメータがあり、これらを画面で設定してみると、さらに発音の雰囲気が変わることが分かる。これらパラメータもコントロールチェンジやRPN、NRPNで設定できるようになっている。

　ちょっと触っただけでは、具体的なチューニングの方法まではうまく確立できなかったが、Vocaloidと同様、調教のしがいはありそうな感じだった。

■ 開発の背景

　さて、このAquesTone、なかなかよくできたソフトではあるが、なぜ法人がフリーウェアで配布しているのか? そもそもどんな仕組みで歌うのかだろうか?、気になることもいっぱいあったため、開発元である株式会社アクエストに連絡をしてみたところ、代表取締役の山崎信英氏(以下敬称略)に快諾していただき、開発現場に伺い、いろいろと話を聞いてみた。

藤本:AquesToneを実際に使ってみて面白いソフトですが、アクエスト社のホームページを見ると音声合成関連の開発をしているようですね。山崎さんはこれまでどんなことをされてきたのですか?

山崎：私自身、大学の修士課程では音声認識の研究をしていましたが、入社以来、ずっと音声合成一筋で開発してきています。

藤本:もともとは会社員だったんですね?

山崎：ええ、最初はリコーに入社し、7年半ほど音声合成の研究をしていました。その後ジャストシステムに転職して2年半、さらにソニーに移ってもずっと音声合成に携わってきて、3年ほど前に独立してこの会社を設立しました。当時、まだ技術が完全に自分の中で確立できたという状況ではなかったものの、長年研究ばかりしてきたので、そろそろビジネスをしたいな、と見切り発車したんですよ。現在は音声信号処理や、携帯電話のソフトを書くといった仕事をすることもありますが、やはりメインは音声合成の開発をしています。当社の特徴は、小型軽量であるということです。そのため、組み込み系には強いですね。

藤本:そんな中、AquesToneをフリーウェアとして出されたわけですが、これはどんなキッカケだったんですか?

山崎：特別キッカケがあったわけではないのですが、面白半分にしゃべる技術をベースに歌わせてみたら面白いかなと思い付き、開発してみたんです。半分遊びといったところで、ビジネスというものでもないので、空いた時間にちょこちょこと開発していきました。

藤本:山崎さんご自身、DTMなどの経験はあったのですか?

山崎：それが、全然なかったので、この世界の流儀とかもよく分からず、歌わせることそのものよりも、DAWがどんなもので、VSTプラグインがどんな構造なのかなどを理解するのに時間がかかりました。

藤本:VSTはSteinbergからSDKをダウンロードして、それをベースに作っていったわけですか?

山崎：そうです。ただ、本当に最初は使い方、作り方が全然わからなくて、かなり苦労しました。1月ごろに着手し、結局半年近くかかってしまいましたから……。その途中で、初音ミクも買ってみて、どんなソフトなのかを試してみました。やっぱり、Vocaloidはよくできていますね。歌っている言葉がとっても明瞭ですから、見習うべき点は数多くありそうです。

藤本:Vocaloidは、人の歌声をサンプリングして、その人のキャラクターで歌うという仕掛けになっていますが、AquesToneは少し違いそうですが?

山崎：AquesToneも声のベースはサンプリングによるものですが、さまざまな処理をしているため、元のサンプリングデータとはかなり異なる声質になっています。また、実はこのサンプリングデータは複数の人の声が使われているんです。ですから、少なくても特定個人のデータというわけではありません。しかし、Vocaloidと比較して、明らかに明瞭さに欠けるというか、滑舌が悪いのは、サンプリングデータの問題なのですかね……。これが今後の課題。もう少し何を言っているか分かるようにしていきます。

藤本:とはいえ、Vocaloidと比較すると、とても軽くていいですね。

山崎：小型軽量というのが大きな特徴なのですが、具体例をあげると、現在のモジュール全体約750KBのうち、パネルの画像が450KB程あり、プログラムの実質は300KB程度となってます。さらにその中で声質を決めるデータは100KB程度です。

藤本:気になるのは、いまフリーウェアであるのが、いつ有償化するのか、ということです。やはり、法人であるからには、これで売り上げを立てていくことが念頭にあるわけですよね。

今のところ有償になる可能性はないという

山崎：いいえ、これを商売にしようとはまったく考えていません(笑)。ホームページ上では「将来有償になる可能性はあります」って書きましたけど、まずないですね。ご覧いただくと分かるように、本業である音声合成のほうも、Windowsベースのものは無償で公開しているぐらいなんですよ。ある意味、どちらも話題づくりというか、広告宣伝的な位置づけなんです。だから、とくにAquesToneは本当に時間の空いたときにしか進めることはできませんけれど……。

藤本:ところで、AquesToneを使っていてちょっと気になったのが、なぜ、スクロールするのにコントロールチェンジの10番を使ったのかということです。これは本来パンの役割が割り当てられていますが。

山崎：すみません。まだこの世界の流儀がよくわかっていないため、ほかにも問題がいろいろあるかもしれません。私がたまたまKX25というヤマハのキーボードを持っており、これで簡単に操作できるもににパンがあったので、これを利用しただけのことなんです。他からも同様のことを言われているので、今後NRPNを利用すべきなのかなども含め検討してみます。

藤本:最後に、AquesToneの今後に関して教えてください。

山崎：とにかく滑舌をよくしようと思っていますが、その前に違う声のものを開発しており、近い将来リリースできればと思っています。いまのAquesToneは女性の声ですが、今度は男性の声のバージョンです。使い方はまったく同じですが、データが違うんです。とりあえず、母音に関してはほぼ完成しているのですが、子音をいじるのはこれからです。まだいつ出せるとは約束できませんが、楽しみにしていてください。

　音声データは100KB程度なので、女性の声、男性の声など複数の声のデータを全部入れてしまって、声種をプログラムチェンジで切り替えできるようにしても良いかなとも考えています。男性版の後のことは、いまいろいろな方向を模索しているところです。和音を出せるようにできないか、もっと楽器的なものにできないかなど……。いずれにせよ、今後も少しずつ空いた時間を見つけて開発していきます。

藤本:ありがとうございました。

□株式会社アクエストのホームページ
http://www.a-quest.com/index.html
□製品情報
http://www.a-quest.com/aquestone/index.html

(2008年9月8日)

＝藤本健＝

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。
著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。また、アサヒコムでオーディオステーションの連載。All Aboutでは、DTM・デジタルレコーディング担当ガイドも務めている。

[Text by 藤本健]

00
00	AV Watchホームページ	00
00

AV Watch編集部

第341回：アクエスト、フリーの歌うソフト「Aques Tone」 ～ リアルタイムに歌声を合成するVSTプラグイン～

第341回：アクエスト、フリーの歌うソフト「Aques Tone」
～リアルタイムに歌声を合成するVSTプラグイン～