藤本健のDigital Audio Laboratory
第917回
ボイチェンだけじゃない! 「Voidol2」のアナライザが優れものだった
2021年11月8日 08:45
10月20日、音に関するテクノロジーベンチャー企業であるクリムゾンテクノロジーから、「Voidol2 - Powered by リアチェンvoice -」(以下Voidol2)というユニークなソフトが発売された。本ソフトは、いわゆるボイスチャンジャーソフトの一種で、リアルタイムに自分の声をほかのキャラクターの声に変換したり、自分で作った声に変換できるのが特徴だ。
ボイスチャンジャーとしての機能は画期的で、非常に面白いのだが、実は本ソフトには“アナライザー機能”が存在し、声をリアルタイムに分析することが可能。波形表示やFFT表示はもちろん、声のピッチ(=f0)をリアルタイムに検出したり、フォルマント分析をリアルタイムに行なえるなど、従来の計測器でも見たことがない超高性能・高機能測定器といっても過言ではないソフトとなっている。
今回は、アナライズ機能にフォーカスを当てて紹介してみたいと思う。
リアルタイム声質変換ソフト「Voidol」とは
Voidolについてご存じない方も多いと思うので、少し簡単に紹介しておこう。Voidolとは、クリムゾンテクノロジーが作った「リアチェンvoice」という技術をベースに、自分の声を他の人の声にリアルタイム変換するというソフトだ。
従来からあるいわゆるボイスチャンジャーは、声のピッチやフォルマントなどを変更することで声を変換するものだが、Voidolの仕組みはそれらとは根本的に異なる。あらかじめ収録している声優などが演じるキャラクターの声に、AIを用いてリアルタイム変換するというものなのだ。
喋る声を変換できるだけでなく、歌声を変換できるのもVoidolの大きな特徴。変換を上手く行なうには、喋る側にもある程度の技量や演技力が必要だったり、再現性が高い場合や、そこまででもないケースもあり、評価は人それぞれだが、VTuberやゲーム実況をする人などの間で広く使われている。
初代バージョンが発売されたのは2年半前。価格が2,200円と低価格で、かなりの数が売れたとのこと。標準で女性ボイスの「音宮いろは(CV.遠野まゆ)」、少年風の「くりむ蔵」、男性ボイスの「奏ミナト」の3種類を搭載。
オプションで「東北ずん子(CV.佐藤聡美)」、「声乃ツバサ(CV.小岩井ことり)」、「鷹の爪団 吉田くん(CV.FROGMAN)」、「結月ゆかり(CV.石黒千尋)」、「東北きりたん(CV.茜屋日海夏)」、「華園ことね(CV.田村響華)」など、VOCALOIDやVOICEROIDなどでお馴染みのキャラクターも含め、数多くのボイスモデルが用意されており、より手軽に使える音声合成ソフトとして利用されている。
10月にリリースされたVoidol2は、従来からあるVoidolの後継ではなく、上位版という位置づけ(従来版のVoidolは継続販売される)。価格は13,200円(12月26日までは発売記念価格8,800円)と値上げしているが、かなり数多くの機能が追加されている。
その目玉機能となるのが「SYNTHモード」というシンセサイジングでの音声変換機能。従来の別キャラクターの声に変換する「AIモード」とは異なる位置づけの音声変換機能となっていた。
ほかにも入力時のEQや、出力時のEQ、SAMPLE PLAYERというポン出し、エフェクト、録音、さらにはOBSなどの配信ソフトへスマートに送り出すためのSTREAMなど、さまざまな機能が搭載されているが、本稿では割愛する。
上述したSYNTHモードはある意味、一般的なボイスチャンジャーでピッチやフォルマントなどをいじって音作りをするタイプのもの。
実際、基本的なパラメーターとして用意されているのはPITCH(ピッチ=音程)、FORMANT(フォルマント=声質)、UNVOICE(アンボイス=声のかすれ)の3つと、ROBOT PITCHという抑揚がまったくないロボットボイスにした際のピッチを決めるパラメータのみとシンプルな内容。
これだけでも、かなり音作りはできるのだけれど、ここまでは他社のボイスチャンジャーと大きくは変わらない。ところが、DETAILというボタンを押すと、膨大なパラメータが現れる。縦にスクロールする画面で、数えてみると39種類の調整フェーダーやチェックボックスが並んでおり、これらを使って自由に声を作ることができる。
一見すると複雑な印象も受けるが、パラメーターの中身をよく見るとシンセサイザを使ったことのある方であれば、それほど難しいものではなさそう。基本的には、表に出ていたPITCH、FORMANT、UNVOICEを細かく設定しつつ、ピッチクォンタイズというピッチを半音ごとに段階変化させたり、ピッチとノイズの判定を行なったり、ビブラートとして、その周波数や変調の深さを設定したり、まさにシンセサイザでの音作りみたいな事をここで詳細に詰めていく内容となっている。
その詳細な声作りの機能と対となっているのが、アナライザー機能だ。
ANALYZERボタンを押すと、見慣れない画面が現れ、画面上側と下側で異なるグラフが表示される。何も入力がない状態でもノイズっぽいものが表示されているが、上側は上から下へスクロールし、下側は右から左へとスクロールしている。ここで実際に、声を入力してみると、さらにいろいろな情報が出てくる。
ビジュアルは測定器といった感じだが、これは何なのか。画面を見てみると、上側には9つ、下側には7つの項目があり、そのすべてにチェックが入っている。チェックを外していくことで表示される項目も減らすことができるわけだが、オンラインマニュアルを見てみると、各項目についての記載があった。
この項目を見れば、歌声合成の技術動向などを追っている人なら、すごいものが登場した! と実感できるのではないかと思うが、何の分析ができているのかもう少し具体的に見ていこう。
人の声の周波数成分をリアルタイム&詳細表示できる
最も興味を引かれたのが、“f0”の検出。f0とは入力される音声、歌声のピッチ(=周波数)のことだ。
例えば「ドレミ」と歌った場合、人が聴くと確かにドレミなのだが、人の声にはさまざまな倍音が含まれ、単純に分析するとさまざまな周波数で構成されているため、どれが正しいピッチなのかが判別しにくい。その周波数成分をリアルタイムに表してくれるのが「FFT Spectrum」。
声を分析した上で、どのピッチで発音されているかを示すのが「f0 analyzed」で、そのf0の動きを記録するのが「f0 trail」。上側のグラフはリアルタイムの情報を表示しているが、f0 trailだけは時系列にしたがって上から下へと流れるカタチでf0の軌跡が見える。なお、f0検出をより正確に行なうために、どの周波数レンジにf0があるかを範囲指定するのが「f0 range setting」。これは先ほどのDETAIL画面内で設定することができる。
画面下側にある「Waveform」は、振幅を表示するシンプルな波形表示。「Spectrogram」は縦軸が周波数、色は強さを表すもので、これもリアルタイムに表示される。
「VUV Threshold」と「VUV(PM) Threshold」は、いずれも入力される音声成分のうち有声音と無声音の判定の閾値をどこに持っていくかを設定する項目だ。同じような設定項目だが、両方設定することでより変換品質を上げることができる。
SYNTHモードでは、DETAILで設定するパラメーターとANALYZERでの分析結果が表裏一体で、リアルタイムに分析をしながら声の変換を行なっている。
開発を担当したクリムゾンテクノロジー CTO兼AIエンターテイメント事業部 研究部 部長の高橋賢一氏に以前話を伺ったところ、明治大学准教授である森勢将雅氏らが開発した音声分析合成システム「WORLD」を使っているということだった。ただ、公開されているWORLDをそのまま使用してもリアルタイムに動作させることができず、分析、合成それぞれをいかに短時間で処理してレイテンシーを抑え、CPU処理負荷をできる限り軽く動作させた結果、ここまでのものが仕上がったのだとか。高橋氏は「リアルタイム処理と音質の面で、世界一のものに仕上がった」と自信を示していた。
かなりマニアックな内容ではあるが、よくここまでのことができたものだと感心すると同時に、この値段で出して大丈夫なのかと心配になるほどのシステムと感じる。このレベルのアナライザーが可能なら、アイディア次第でもっと違う活用も考えられそう。
高橋氏曰く「今後は品質を向上させるとともに、どんどん面白い新機能を追加していきたいと思っています。現在SDKも作っており、本エンジンを組み込んで新たなアプリケーションやサービスを生み出していただけるパートナー様に提供していく予定です」ということだった。
今後も音声合成や音声分析において面白い世界が広がっていきそうだ。