第436回:「VOCALOID」がiPad/iPhone進出
~「Y2 AUTUMN 2010」。NETDUETTOでオンラインセッション ~
3月1日に開催された「Y2 SPRING 2010」に続く第2弾の発表会で、10月14日~17日に日本科学未来館で開催された「デジタルコンテンツEXPO 2010」会場内で開催された。ヤマハは会場内にブースも出しており、発表内容がそれぞれ展示もされたので、概要を紹介する。
なお、個別の詳細については、製品やサービスがスタートするころに、改めてインタビューなどを交えて紹介していく予定だ。
■ 組み込み向けVOCALOIDが登場。低価格な「音の缶詰」も
NECのコミュニケーションロボット「PaPeRo」 |
Y2 AUTUMN 2010の発表会「Y2 AUTUMN 2010シンポジウム」は、初音ミクに扮するニコニコ生放送の女子高生アイドル「ゆづか姫」司会のもとスタートした。
最初に登場したのはブースでも展示されていた、NECのコミュニケーションロボット「PaPeRo」だった。PaPeRoは音声認識や音声合成で人と会話ができたり、触るとさまざまな反応をするロボットとして、これまでも話題になっていたが、今回Y2 PROJECTとのコラボレーションにより、歌うようになり会場で「となりのトトロ」を披露してくれた。
VOCALOIDを使った歌声なのだが、従来のWindows上のVOCALOIDではなく、ロボットに組み込んだDSP基板「VOCALOID-board」が使われている。またその歌声は、初音ミクなどとは明らかに違う子供っぽい声で、登壇したクリプトン・フューチャーメディアの佐々木渉氏によると、歌声のデータベースは同社による開発で、ミュージカル俳優の子役によるものとのこと。今のところVOCALOID製品としての発売予定はなく、VOCALOID-board用や、TVCM用などで活用していくとのことだ。
VOCALOID-boardはPlaybackモード、Realtimeモード、VoiceSynthモードの3モードを搭載し、DSPで動作する。PlaybackモードとはPC版のVOCALOID2データを再生、Realtimeモードは、MIDIキーボードからの入力を元にリアルタイムに歌わせるモード、VoiceSynthモードは、VOCALOID-flexと同等なもので、自由な旋律で歌を歌ったりしゃべったりするモードだ。
プロトタイプであるこの基板上にはMIDI入出力、SDカードスロット、アナログオーディオ入出力、デジタルオーディオ出力、ヘッドフォン出力などが搭載されているが、商品化する際には、MIDI I/Fを別付として現在のサイズの1/4程度にまで小型化するという。それなりの価格となるため、用途としては介護・エンターテインメントのためのロボット用であったり、業務用機械への組み込みなどが想定されている。
クリプトン・フューチャーメディアの佐々木渉氏(中央) |
NSXを搭載した、プロトタイプであるオモチャのピアノ |
これを組み込んだプロトタイプであるオモチャのピアノが披露された。歌詞を入力した後にキーボードを弾くとそのとおりに歌ったり、反対にメロディーを入力した後にひらがなキーを押すと、その旋律にしたがって歌声が出るようになっている。すでに何社かのオモチャメーカーなどとの話が進んでいるという。
社内的にはNSXを、「音の缶詰」と呼んでおりVOCALOID機能だけでなく、シンセサイザ機能なども搭載されている。ポータトーンなどにも採用されているスーパーアーティキュレーション2(SA2)機能で、アコースティックサウンドの演奏表現までもがリアルに再現できるようになっている。サンプル出荷は来春の予定だ。
■ ついに、VOCALOIDがiPad/iPhoneに
iVOCALOID VY1。ピアノロール風のエディット画面でメロディーと歌詞を入力していく |
さらに、VOCALOIDのプラットフォームの拡大が図られ、iPadやiPhone上でも動作するようになる。iPad用として発表された「iVOCALOID VY1」は見た目もPC版のVOCALOIDエディタそっくりで、ピアノロール風のエディット画面でメロディーと歌詞を入力していく。また、デイナミクス、ピッチ、ビブラートの各パラメータの入力も可能だ。
PC版と違い、入力できるのはひらがなとカタカナに限定されるとともに、演算処理を軽減しているために音質は若干落ちるという。また発声は1音のみで、和音は出せない。一方で、PC版にはなかった伴奏を同時再生する機能や、入力したVSQデータをメールで送り、PC側でより細かなエディットもできるようになっている。
一方、iPhone版の「iVOCALOID VY1t」はもっと短いフレーズを歌わせるための機能だが、より手軽にピッチカーブを入力できる。音素の長さを変更するといったことはできないものの、VOCALOID-flexのような感じでピッチ変化・イントネーションを入力できるため、リアルな感じでしゃべらせることができ、これまでのVOCALOIDとはまたちょっと違った楽しみ方ができそうだ。
中原涼さんが自身で作詞作曲した曲を熱唱 |
Netぼかりす自体は、昨年4月に発表されていたのだが、ようやく年内にリリースされるメドがたったため、実演発表されたのだった。Netぼかりすは、クラウド型のサービスで、VOCALOIDエディタでべた打ち入力した歌データ(VSQデータ)と、その歌を人が歌ったものを録音したWAVデータをアップロードすると、クラウド上で演算処理してより人間っぽい歌声にしてくれる。
VOCALOIDは単純に音程と歌詞を入力しただけ歌ってくれるが、どうしても機械っぽい歌声になる。そのため多くの人がピッチや音量をエディットする調教と呼ばれる作業をして、よりリアルなサウンドへと仕上げている。そうした調教を自動で、しかも非常にうまく仕上げてくれるのがNetぼかりすなのだ。
サービス形態や料金などはまだ確定していないが、まずはVOCALOID-Storeにおいて年内にサービスがスタートされる模様。VOCALOID-Storeでは、ヤマハが歌声データベースなども開発した「VY1」を9月から発売している。このVY1の歌声が前述の「iVOCALOID VY1」、「iVOCALOID VY1t」にも搭載されているわけだが、VY1に続く第2弾のヤマハ製のVOCALOID2製品「VY2」(若い男性ボイスによるもの)が、12月あたりにリリースされ、それと同時にNetぼかりすのサービスをスタートさせるようだ。
そのため、当初のNetぼかりすはVY1およびVY2用に最適化されたVSQデータを生成する。ユーザーはそのVSQデータをダウンロードして使うことになるが、初音ミクなどほかのVOCALOID2製品でもある程度は利用できそうだ。その後、サードパーティーのVOCALOID2製品への最適化がされてきそうだ。
気になったのは、なぜこれがクラウドサービスであるか、という点。ローカル環境で使うアプリケーションとして販売されてもいいように思うのだが、これについて質問してみたところ、2つの理由があるとのことだった。ひとつは、やはりCPUパワーの問題。畳み込み演算処理をするため、最低でもCore 2 Quadクラスの処理能力が必要で、市販のパッケージにするよりクラウド型にしたとのこと。もうひとつは、ビジネスモデル的にクラウドでの課金に向いているという点。ある意味、ぼかりすはデータ変換処理ソフトであり、パラメータをいじってはプレビューするという性格のアプリケーションではない。そのため、実験的な意味もあってクラウドでの提供にするとのことだった。
■ オンライン・セッション「NETDUETTO」で生ライブ
VOCALOID関連だけでもかなりの製品、サービスが発表されたわけだが、それ以外に今回発表されたのが、オンラインでセッションをするための「NETDUETTO」。NETDUETTOは、Y2 SPRING 2010で発表され、その後Digital Audio Laboratoryでも開発者インタビューなどを行なったが、そのNETDUETTOが、いよいよ正式にリリースされることになった。
こちらも年末までにリリースされるとのことだが、そこで登場するのは無償版。アプリケーションをダウンロードし、ユーザー登録すれば誰でも利用できるというものだ。以前、紹介したα版と異なり、ユーザーインターフェイスも洗練され、誰もが扱いやすいものへ進化している。ネット接続された環境で、ログインし、セッションを行なうためのルームを作成。このルームにメンバーが入ることで、最大4人でのセッションが可能となる。
4人の音のバランスをとったり、それぞれとの接続レイテンシーが確認できる画面も用意されているオーディオインターフェイスはASIOドライバで設定するため、必ずしもヤマハ/Steinberg製品でなくても利用できるというのも嬉しい点だ。
NETDUETTOを披露するために、ツインギター+ボーカルという3人のバンド、Fuzzyがステージに登場。メンバーの1人は大阪から参加してライブ演奏を行なった。同じスタイルでデジタルコンテンツEXPOの別ステージでもライブが行なわれたのだが、その場で音を聴いている限り、レイテンシーはまったく感じられなかった。ライブ終了後、ボーカルの斎藤蘭さんと、ギタリストのむーむさんに感想を聞いてみたところ「演奏したり歌う上では、なんら違和感はない」とのこと。ただ映像は、見ていても明らかに0.5秒程度の遅れがあったが、そのため「目で合図をするといったことができないのが、スタージ上とは違うけれど、そこさえ慣れれば大丈夫」と話していた。
ボーカルの斎藤蘭さん(左)と、ギタリストのむーむさん(右) |
気になったのは、実際に東京・大阪間での音のレイテンシーがどの程度であるかという点。今回はNTT西日本が協力しており、回線には「フレッツ光ネクスト」が使われていた。フレッツ光ネクストは、NTT西日本やNTT東日本がサービスを提供しているNGNを活用した光インターネット接続サービス。これを利用することで、ネットワーク間でのレイテンシーが8msec、PCからオーディオインターフェイスへのレイテンシーが18msecで、トータルで片道26msecのレイテンシーで実現できているとのこと。
これを音速=340m/secで換算すれば8.8mの距離で演奏しているのと同等であるため、ミュージシャン側もあまり気にならないようだ。18msecとなったオーディオインターフェイス部分でのレイテンシーはまだ改善の余地があるため、トータルで20msecを切るところまでは、もっていけそうとのことだ。
もちろん、回線状況によってレイテンシーは大きく変わってくるため、レイテンシーを保障できるわけではないが、かなり実用的に利用できそうだ。ちなみに、映像はフルスクリーンで表示するため、α版での実験で使ったSkypeではなく、HD画像が送れるNECのTV会議システム「NC-1000MV」が利用された。必要に応じてほかのシステムを使うこともでできそうだが、映像のレイテンシーはどうしても数百msec単位で発生してしまうようだ。
■ 「NETDUETTO」をニコ生などに多面展開
またこのNETDUETTOとニコニコ生放送を組み合わせた「ニコニコ生セッション(仮題)」なるサービスも、12月にスタートの予定だ。こちらは放送者画面と視聴者画面が用意され、放送者側ではNETDUETTOとしての各種設定が行なえ、視聴者側は「セッションに参加」ボタンをクリックすることで、一緒にセッションが可能になる。ニコニコ動画のプレミアム会員のみが利用できる機能にするか、全体に開放するかなど、詳細については今後詰めていくとのことだった。
「ニコニコ生セッション(仮題)」の放送者画面 | 視聴者画面 |
NETDUETTO自体は、とりあず無償版が登場するわけだが、それとは別に有償版についても検討中とのこと。有償版では、NGNとの組み合わせることで、帯域確保を実現したり、トラフィック上での優先度を上げるといったことを実現し、よりレイテンシーの小さい安定したセッションができるようにしたい、という。そのほかにもPCを使わずにセッションを可能にするNETDUETTO-BOXといったものも検討されているようだが、サービス提供元がどこになるのか、どんなサービス内容、料金体系になるかなども含め、これから詳細を詰めていくとのことだ。