小寺信良の週刊 Electric Zooma!

第884回

Zooma!:ズームレンズ、ズームすること、ズームする人、ズズーンの造語

オジサンも美少女声になれる? VTuberから注目Roland「VT-4」の魔力

沸騰するボイスチェンジャーブーム

YouTuberは小学生にまできっちり浸透し、子供たちの憧れはテレビタレントやアイドルではなく、YouTuberになりつつある。彼らYouTuberは原則顔出しでしゃべったりパフォーマンスする人たちで、一種のタレント性を持っていることは間違いないだろう。

ローランド「VT-4」

そんなYouTuberとは別の軸で、顔出し、地声を出さないバーチャルYouTuber、すなわち“VTuber”が登場。ブームとなったのは2017年頃からである。現在はVTuberのみのランキングサイトや専門情報サイトができるなど、今もなおすそ野を拡大中である。

こうしたVTuberを支えるのが、声を女の子に変える「ボイスチェンジャー」だ。特に女の子のキャラクターになりきって配信をするおじさん、“バーチャル美少女受肉おじさん = バ美肉おじさん”にとって、ボイスチェンジャーはキーテクノロジーとなりうる。

ボイスチェンジャーはUSBインターフェースとPCソフトウェアの組み合わせでも可能だが、リアルタイム処理の負荷やディレイを考えると、専用ハードウェアを使った方が良い。こうしてバ美肉おじさんたちに人気を博したのが、ローランドのボイストランスフォーマー「VT-3」という機種だった。

元々VT-3は、ダンスミュージックのライブパフォーマンス向けの「AIRAシリーズ」の1機種として発売されたが、音楽用途以外にも配信用途でブレイクした。ただ、ブレイクしたタイミングがVT-3の販売完了となった後で、ネットでは異様な高値で取り引きされていたようだ。

そんな中、後継機種として昨年10月に発売されたのが「VT-4」である。価格はオープンだが、発売当初の実売は26,000円程度。しかしながら、こちらも人気は相変わらずで品薄状態が続いており、ネットでは35,000円程度で販売されているようだ。Amazonでの価格履歴を見ると、昨年11月には一時的にではあるが、9万円越えを記録したようである。

発売してしばらく経ってはいるが、世の中をザワつかせている製品なだけに、一度触っておきたいところである。

VT-4に至るまでの流れ

そもそも音声を変調するという取り組みの歴史は長い。もっとも単純な方法は、楽器音をビニールパイプ等を使って伝送し、口にパイプを咥えてしゃべるという手法だ。これはトークボックスやトーキング・モジュレータと呼ばれる。電気信号ではなく空気振動を使うもので、手法としては1940年代から存在するようだが、メジャーな音楽シーンで使われ始めたのは、1970年代にピーター・フランプトンやジェフ・ベックら著名ギタリストが使い始めてからだろう。演奏は「フランプトン・カムズ・アライブ」や「ライブワイヤー」等のライブアルバムで確認できる。

一方で同じぐらい歴史が長いのが、ヴォコーダーと呼ばれるものだ。これは音源自体はシンセサイザーで使われるオッシレーターだが、音声信号を使ってそれにモジュレーションをかけることで、オッシレーターがしゃべっているようなサウンドを生み出すという手法である。古くはクラフトワークの「アウトバーン」で知られるが、日本で知名度を上げたのは、YMOの「テクノポリス」内で聞かれるボイス音であろう。

ローランドも早くからヴォコーダーに取り組んだメーカーだ。筆者の記憶する限り、一番古い製品は1979年に発売された「SVC-350」である。ラックマウント型の機器で、ギターやシンセサイザーを音源にして声で変調をかけるというヴォコーダーだ。

ただ一般にヴォコーダーサウンドとして多くの人の記憶に残るのは、「VP-330」の音であろう。同機はプリセット型のストリングスシンセサイザーであるが、音声をロボットボイスに変えるヴォコーダ機能が搭載されていた。最初から鍵盤が付いていることで、簡単に音程を付けて歌うことができた。

ローランド「VP-330」

なんでそんなことを知っているかというと、筆者が最初に勤めた会社が映画のアフレコの録音もするところで、録音ルームにVP-330が常備してあったからである。これで映画の吹き替えのほうのロボットやコンピュータの声を作っていたのだ。

ヴォコーダという機能は、音楽シーンの中では時折燦然と輝くヒット曲が出てくるが、常時必要なものでもなく、製品としては非常に波のあるジャンルである。だがここのところ人気が続いており、2013年にBOSSブランドから「ループステーション」こと「RC-505」に搭載、2014年にTV-3発売、2015年にヴォコーダ機能を搭載した小型シンセサイザー「JD-Xi」を発売のあと、2016年にVP-330をモデルにした小型製品「Boutique VP-03」が登場した。そして2018年にVT-4の発売という流れである。

コンパクト+乾電池駆動

VT-4の特徴は、鍵盤がないため小型で、マイク1本で効果が得られるため、楽器の知識がなくても扱えるというところであろう。ただし若干のマイクに対する知識は必要となる。

おどろくほど小型軽量

外形寸法は174×133×58mm(幅×奥行き×高さ)mmで、小型ミキサーと並べても相性のいいサイズ。底部に単3電池4本を収納でき、電池含めての重要は554gとかなり軽量だ。これだけ軽量だと、むしろマイクのほうが重いというケースもあるだろう。

底部に電池が入れられる

パラメータ調整用のフェーダーが4つあり、中央に音程をスケールに応じて固定するAUTO PITCHノブがある。左上が出力ボリューム、その横がマイク入力レベルだ。右上のつまみはAUTO PITCHで音程を固定した際のキーを選択するロータリースイッチ。ボタン類の機能については追って説明する。

コントロールは上部パネルのつまみ類ですべて行なう

手前にはヘッドフォン端子、ミニタイプのマイク入力、あとはライン出力のモノ・ステレオの切り換えと、背面マイクへの+48V出力切り換えスイッチがある。

手前の端子とスイッチ

背面は左から電源スイッチ、USB端子。USB端子からの給電もできるほか、PCに繋げばオーディオインターフェースとして機能する。続いてキーボードを繋いで音程をコントロールするためのMIDI入力、メインのXLRマイク入力、標準ジャックのライン出力となっている。なおライン出力は、モノラルを選んだ場合はLが合成音、Rがマイク直のバイパス音となる。

背面端子類

組み合わせるマイクとして、ローランドが代理店を務める英Aston Microphonesのコンデンサーマイク「Spirit」(実売約48,600円)もお借りした。スイッチ1つで単一指向性、双指向性、無指向性が切り換えられる。

音声録りには最適のコンデンサーマイク、Aston Microphonesの「Spirit」もお借りした

すぐに効果が得られる設計

VT-4は、マイク1本繋ぐだけで多彩なサウンドを作る事ができる。とりあえず電源をいれてボリュームとマイクレベルを適当に上げて、MANUALボタンを押し、BALANCEを目一杯上にあげて、REVERBを3メモリぐらい上げるだけで準備完了だ。

MIC SENSはPEAKランプが点かない程度に下げる
BALANCEは元の声と効果音のバランスだ。とりあえず目一杯上げて効果を確かめてみよう

モードの基本は、ROBOT、MEGAPHONE、VOCODER、HARMONYと書かれた4つのボタンにある。まずROBOTは文字通りロボットボイスをつくるボタンで、入力音声の音程は関係なく一定に固定される。音の高さは右上のKEYと左端のPITCHで調整する。

PITCHとFORMANTスライダーの設定がポイント

隣のFORMANT(フォルマント)は音響工学ではよく聞く言葉だが、一般にはなかなか簡単には説明しづらい。とりあえず口の開き具合の調整と覚えておけばいいだろう。フォルマントを上げるといわゆる“ケロケロボイス”になり、下げると“巨人ボイス”になる。理屈はわからなくても、触ってみれば感覚的に掴めるのがハードウェアのいいところだ。

MEGAPHONEは、メガホンを使ってしゃべったような音になる。このモードでは音程はフィックスされず、発声した音程そのままが加工される。したがってKEYスイッチは効かなくなるが、PITCHは変更可能だ。なおモードボタンは複数を同時にONにできるので、効果を混ぜることができる。

PITCHとFORMANTの作用をROBOTとMEGAPHONEでテスト

VOCODERおよびHARMONYはボタン形状が違うが、これはAUTO PITCHと関係があるからである。VOCODERはいわゆるYMOの「テクノポリス」を思い出して頂ければ間違いない。音程は固定されず、発音時の音程で変化する。ただしPITCHで可変可能。

AUTO PITCHは入力音声の音程を特定のスケールに強制的に当てはめる

さらにはAUTO PITCHを使えば、音程がKEYで指定したキーにオートチューンされる。PerfumeやCapsuleのボーカルエフェクトでよく使われるテクニックだ。ちなみにキースケールはメジャーなので、マイナーのキーにしたい場合は平行短調である短三度下のキーを選べばよいことになる。

HARMONYは、入力された声に合わせて自動的にハーモニーを付けてくれる機能。楽曲中で使う場合はキーの設定を合わせる必要があるが、単にボイスエフェクトとしても面白い。

VOCODERとHARMONYの設定をテスト

このほか、元々プリセットされている音色が8種類ある。1~4のボタンを押すほか、MANUALボタンを押しながら1~4ボタンを押すことで、プリセットの5~8を選ぶ事ができる。MANUALボタンがSHIFTボタンの役割というわけだ。

表面に見えている機能はこれだけだが、実は他のボタンを押しながら数字ボタンを押すことで、さらに深いエフェクトメニューへアクセスできる。ただしディスプレイも何もないので、効果はマニュアルを見ながら実際にやってみて探っていく必要がある。

最後に、ほとんどのユーザーが目的としている女性の声を作ってみた。声質にもよるとは思うが、PITCHとFORMANTの調整を上手く行なえば、しゃべり方次第で女の子っぽく聞こえるようだ。楽器が弾けなくてもしゃべるだけで面白いので、触っているだけでハイになれる。

女の子ボイス作りにチャレンジ

総論

前作のVT-3を触っていないので細かい違いについてはよくわからないが、VT-4は音楽をやらないユーザーにとっても簡単に音声を変えられるデバイスとして、難しい知識なしで効果がすぐに得られる作りになっている事はわかった。

実際にデジタル処理になれば、アナログよりも多くのパラメータが存在するはずだが、そういうのを一切表に出さず、直感的にわかるパラメータだけを表に出して設計したことがよくわかる。

ハードウェアの良いところは、“いじってみてどうにかなる”というところだ。ある意味、それ以上はどうにもならないという事でもあるが、工夫次第というか知恵比べで面白い効果が得られるという点では、ソフトウェアのように行き詰まることはない。その点では、コンテンツ制作にはテンションを損なわずにリアルタイムでやっつけられる安心感がある。

今はまだ、より女の子っぽいボイスを出すには各個人の資質や努力も必要だが、やがてテクノロジーがどうにかしてくれる時代がくるかもしれない。少なくとも楽器人口と同じぐらいの市場規模があるのであれば、継続的に後継機種も投入されるだろう。

VTuberの社会的背景の考察はまた別の機会に譲るとして、ネット上のみではあるが、テクノロジーが「アバター」の存在を可能にした事は一つの進化と見るべきだ。

人の願望がテクノロジーによって叶えられるのであれば、それはテクノロジーがもう一歩上の階段を登ったということであろう。

小寺 信良

テレビ番組、CM、プロモーションビデオのテクニカルディレクターとして10数年のキャリアを持ち、「難しい話を簡単に、簡単な話を難しく」をモットーに、ビデオ・オーディオとコンテンツのフィールドで幅広く執筆を行なう。メールマガジン「金曜ランチビュッフェ」(http://yakan-hiko.com/kodera.html)も好評配信中。