初音ミクの破片“初音バグ”など 「Y2 SPRING」開催
-喋るVOCALOIDも登場。ヤマハらが技術発表会
オープンしたばかりの新ヤマハ銀座ビルにて3月1日、ヤマハが技術発表会的なイベント「Y2 SPRING 2010」を開催した。事前登録した約200名に対し、ヤマハだけでなく、IT関連企業や楽器関連メーカーが2回に分けてのプレゼンテーションが行ない、様々な人達が集まった。
「ヤマハの音、音楽技術をインターネットの世界へと広げ、プロから一般ユーザーまで多くの人に最高の音ツールを提供しよう」というコンセプトのもと、ITベンチャー企業など外部企業も巻き込みながら展開している「Y2プロジェクト」の発表会でもあり、これまでもインターネット上の歌声を合成させる「NetVOCALOID」などをリリースしてきたが、今回は新たに4つの技術やサービスを発表した。
■ VOCALOID-flex
まず紹介されたのは2月25日に発表された、「しゃべり」にも対応したVOCALOIDの「VOCALOID-flex(ヴォーカロイド フレックス)」。これまでもTTS(Text-to-Speach)と呼ばれる音声合成の手法は存在するが、人間の感情や方言などを豊かに表現した音声を合成することは困難だった。そこで、感情を豊かに表現できる新たな音声合成方式として発表したのがVOCALOID-flexとなる。
VOCALOID-flex。音韻、韻律の細かな編集を可能にした |
具体的には、これまでできなかった母音の無声化(母音を無声音として発音するケース。例えば北:[ki ta]の[i]など)や、脱落化(母音を発音しないケース 例:~です[de su]の[u])が表現可能となり、子音の長さ、ならびに音の高さや強さも細かく編集できるようになる。
METAL GEAR SOLID PEACE WALKERで採用されている |
ゲームに登場する、人工知能という設定のボスキャラがVOCALOID-flexで合成された音声でしゃべったり、ハミングしたりする。女優の菊地由美さんの声を4日かけてサンプリングしているとのことだが、実際披露された声は、確かにこれまでのVOCALOIDでは不可能な抑揚やイントネーションがつけられていた。
■ クラウド型VST
2つ目に登場したのはクラウド型VST(Virtual Studio Technology)。DAWなどに用いられるプラグイン規格であるドイツSteinbergのVSTに、クラウド技術を取り入れようというものだ。
VSTプラグインである「Plugin Dock」を介してネット上のクラウドサービスと接続 |
会場でのデモ |
また、Plugin DockにはHTMLおよびJavaScriptを用いた画面が現れ、一般のVSTプラグインと同じ感覚でエフェクトの設定などが行なえる。
会場ではデモとして、Cubase上にクラウド型VSTのEQ、リバーブ、また音声をMIDIデータによってピッチ変更する「Pitch Fix」を用いた処理を行なう演奏がされた。
もっとも、クラウドでのサービスだけにレイテンシーは大きく、約2秒の処理時間を要するという。そのため、そのままリアルタイム演奏などには向かないが、すでにレコーディングしたトラックにエフェクトを施すといった使い方であれば問題は起こらない。
また、クラウド上からそのプラグインをローカルにダウンロードするというサービスも可能になるとのことで、ローカルでならば通常のプラグインと同様に小さいレイテンシーで動作するようだ。
なお、クラウドサービスのバックグラウンドは、SaaS/クラウドを展開しているビープラッツが担当する。
■ 初音ミクの破片 ~セカイロイド襲来~
3つ目は「初音ミクの破片 ~セカイロイド襲来~」と題されたサービスの発表。初音ミクなどを発売するクリプトン・フューチャー・メディアの佐々木渉氏、「ねんどろいど」シリーズなどを展開するグッドスマイルカンパニーの安藝貴範氏、そして「セカイカメラ」を展開する頓智ドットの井口尊仁氏が登壇した。
まず発表されたのは、新たなキャラクターとしてグッドスマイルカンパニーがデザインした「初音バグ」なるもの。“初音ミクの破片”とされており、「あ」、「い」、「う」など1音のみ発音するバグが色々存在するとのこと。
左から頓智ドットの井口尊仁氏、グッドスマイルカンパニーの安藝貴範氏、クリプトン・フューチャー・メディアの佐々木渉氏 | 初音バグ |
セカイカメラの中に初音バグが登場 |
なお、iPhoneからの発音においては、iPhone上でセカイカメラを動かしながら、音声合成まで行なうのは処理速度上、無理があるため、単音のみ発音する初音バグという発想が誕生したようだ。
サービス開始の時期について、井口氏は「6月ごろまでには形にしたい」と話している。
■ ネットを介したリアルタイムセッション
「NETDUETTO」は、インターネットを介してリアルタイムのオーディオのやりとりし、ネット越しのセッションを可能にするためのシステム。
これまでも、ネット経由でリアルタイムに音声のやりとりをする技術は存在するが、音楽をセッションするとなると、レイテンシーの問題があり、なかなか実用的ではなかった。
しかし、「NETDUKETTO」は、LAN上であれば15~20msec程度、インターネット経由でも30msec程度での伝送ができるのが特徴。音速が340m/secであることを考えると、30msecのレイテンシーは約10m離れた位置でセッションすることに相当するわけだから、それなりに実用性も出てくる。
sacraが復活してNETDUETTOでのセッションに挑んだ |
使われるハードウェアは、オーディオインターフェイスとルータ、ハブなどごく一般的なもので、基本的にはソフトウェアのみで構成。デモでは映像も使われていたが、これはSkypeによるもので、音声のみがNETDUETTOを使ったものとなっていた。そのため、音においてはレイテンシーは感じなかったが、画面は明らかに遅れていることが認識された
イベントではこれらの技術、サービスの概要を発表するとともに、これらのプロジェクトに賛同、参加する企業を募っていた。
(2010年 3月 2日)