初音ミクの破片“初音バグ”など「Y2 SPRING」開催

－喋るVOCALOIDも登場。ヤマハらが技術発表会

「初音ミクの破片～セカイロイド襲来～」で発表された、初音バグ

3月1日開催

　オープンしたばかりの新ヤマハ銀座ビルにて3月1日、ヤマハが技術発表会的なイベント「Y2 SPRING 2010」を開催した。事前登録した約200名に対し、ヤマハだけでなく、IT関連企業や楽器関連メーカーが2回に分けてのプレゼンテーションが行ない、様々な人達が集まった。

　「ヤマハの音、音楽技術をインターネットの世界へと広げ、プロから一般ユーザーまで多くの人に最高の音ツールを提供しよう」というコンセプトのもと、ITベンチャー企業など外部企業も巻き込みながら展開している「Y2プロジェクト」の発表会でもあり、これまでもインターネット上の歌声を合成させる「NetVOCALOID」などをリリースしてきたが、今回は新たに4つの技術やサービスを発表した。

■ VOCALOID-flex

　まず紹介されたのは2月25日に発表された、「しゃべり」にも対応したVOCALOIDの「VOCALOID-flex(ヴォーカロイドフレックス)」。これまでもTTS（Text-to-Speach）と呼ばれる音声合成の手法は存在するが、人間の感情や方言などを豊かに表現した音声を合成することは困難だった。そこで、感情を豊かに表現できる新たな音声合成方式として発表したのがVOCALOID-flexとなる。

VOCALOID-flex。音韻、韻律の細かな編集を可能にした

　歌声に比べて音の微細な変化が要求されるしゃべりを実現するため、従来のVOCALOIDでは実現できなかった、音韻(音素などの音の構成や長さ)、韻律(音の高さ、強さ)の細かな編集を可能にした、歌声/発話の合成エンジンソフトウェアだ。

　具体的には、これまでできなかった母音の無声化(母音を無声音として発音するケース。例えば北:[ki ta]の[i]など)や、脱落化(母音を発音しないケース例:～です[de su]の[u])が表現可能となり、子音の長さ、ならびに音の高さや強さも細かく編集できるようになる。

METAL GEAR SOLID PEACE WALKERで採用されている

　具体的な製品の発売予定などは示されなかったが、このVOCALOID-flexを使った、しゃべりや歌声が収録されたPSP向けゲーム「METAL GEAR SOLID PEACE WALKER」がコナミより4月29日に発売されることが発表された。

　ゲームに登場する、人工知能という設定のボスキャラがVOCALOID-flexで合成された音声でしゃべったり、ハミングしたりする。女優の菊地由美さんの声を4日かけてサンプリングしているとのことだが、実際披露された声は、確かにこれまでのVOCALOIDでは不可能な抑揚やイントネーションがつけられていた。

■ クラウド型VST

　2つ目に登場したのはクラウド型VST(Virtual Studio Technology)。DAWなどに用いられるプラグイン規格であるドイツSteinbergのVSTに、クラウド技術を取り入れようというものだ。

VSTプラグインである「Plugin Dock」を介してネット上のクラウドサービスと接続

会場でのデモ

　既存のDAWには直接ネットと接続する機能がないため、ネットと接続するためのVSTプラグインである「Plugin Dock」を介してネット上のクラウドサービスと接続する。この際、クラウド側ではエフェクト処理やシンセサイザによる発音処理の計算を行ない、Plugin Dockへと処理結果を戻す仕組みとなっており、その結果の音がDAWに反映される。

　また、Plugin DockにはHTMLおよびJavaScriptを用いた画面が現れ、一般のVSTプラグインと同じ感覚でエフェクトの設定などが行なえる。

　会場ではデモとして、Cubase上にクラウド型VSTのEQ、リバーブ、また音声をMIDIデータによってピッチ変更する「Pitch Fix」を用いた処理を行なう演奏がされた。

　もっとも、クラウドでのサービスだけにレイテンシーは大きく、約2秒の処理時間を要するという。そのため、そのままリアルタイム演奏などには向かないが、すでにレコーディングしたトラックにエフェクトを施すといった使い方であれば問題は起こらない。

　また、クラウド上からそのプラグインをローカルにダウンロードするというサービスも可能になるとのことで、ローカルでならば通常のプラグインと同様に小さいレイテンシーで動作するようだ。

　なお、クラウドサービスのバックグラウンドは、SaaS/クラウドを展開しているビープラッツが担当する。

■ 初音ミクの破片～セカイロイド襲来～

　3つ目は「初音ミクの破片～セカイロイド襲来～」と題されたサービスの発表。初音ミクなどを発売するクリプトン・フューチャー・メディアの佐々木渉氏、「ねんどろいど」シリーズなどを展開するグッドスマイルカンパニーの安藝貴範氏、そして「セカイカメラ」を展開する頓智ドットの井口尊仁氏が登壇した。

　まず発表されたのは、新たなキャラクターとしてグッドスマイルカンパニーがデザインした「初音バグ」なるもの。“初音ミクの破片”とされており、「あ」、「い」、「う」など1音のみ発音するバグが色々存在するとのこと。


左から頓智ドットの井口尊仁氏、グッドスマイルカンパニーの安藝貴範氏、クリプトン・フューチャー・メディアの佐々木渉氏	初音バグ

セカイカメラの中に初音バグが登場

　この初音バグが、iPhone用アプリ「セカイカメラ」のAR空間上に3Dポリゴンで表現されたCGとして現れるようになり、VOCALOID音声によって単音を発音する。それだけにとどまらず、様々なアイデアがあるようで、例えばその声が、まさにその位置から聴こえてくるように、ヤマハの技術で空間上に音像定位もさせる事も想定しているという。

　なお、iPhoneからの発音においては、iPhone上でセカイカメラを動かしながら、音声合成まで行なうのは処理速度上、無理があるため、単音のみ発音する初音バグという発想が誕生したようだ。

　サービス開始の時期について、井口氏は「6月ごろまでには形にしたい」と話している。

■ ネットを介したリアルタイムセッション

　「NETDUETTO」は、インターネットを介してリアルタイムのオーディオのやりとりし、ネット越しのセッションを可能にするためのシステム。

　これまでも、ネット経由でリアルタイムに音声のやりとりをする技術は存在するが、音楽をセッションするとなると、レイテンシーの問題があり、なかなか実用的ではなかった。

　しかし、「NETDUKETTO」は、LAN上であれば15～20msec程度、インターネット経由でも30msec程度での伝送ができるのが特徴。音速が340m/secであることを考えると、30msecのレイテンシーは約10m離れた位置でセッションすることに相当するわけだから、それなりに実用性も出てくる。

sacraが復活してNETDUETTOでのセッションに挑んだ

　今回は、活動休止中のJ-POPバンド、sacraが復活してNETDUETTOでのセッションに挑んだ。メンバーはギター兼ボーカルの木谷雅氏とベース兼コーラスの足土貴英氏の2名。ステージ上には木谷氏が、別室に足土氏が控え、LAN経由でのセッション実験が行なわれ、2曲が披露。聴いていてまったく違和感を感じなかった。

　使われるハードウェアは、オーディオインターフェイスとルータ、ハブなどごく一般的なもので、基本的にはソフトウェアのみで構成。デモでは映像も使われていたが、これはSkypeによるもので、音声のみがNETDUETTOを使ったものとなっていた。そのため、音においてはレイテンシーは感じなかったが、画面は明らかに遅れていることが認識された

　イベントではこれらの技術、サービスの概要を発表するとともに、これらのプロジェクトに賛同、参加する企業を募っていた。

（2010年 3月 2日）

[AV Watch編集部藤本健]