藤本健のDigital Audio Laboratory

第603回

曲のテンポや音程を変えるアプリ「PSOFT Audio Player」。クマゼミがミンミンゼミに?

iPhoneアプリの「PSOFT Audio Player」

 これまでもDigital Audio Laboratoryで何度か取り上げてきた、タイムストレッチとピッチソフト技術。elastique ProやRadius Mixなど、海外の企業が開発した技術が著名ではあるが、国産の技術も頑張っている。

 Singer Song WriterやSound it!といったソフトを開発している大阪のインターネット(株式会社インターネット)が独自エンジンのタイムストレッチ、ピッチシフト機能を搭載している一方、仙台のピー・ソフトハウスは、タイムストレッチ、ピッチシフトを同社のコア事業の一つとして位置づけて、長年取り組んでいる。

 この連載でも2005年に「PHISYX」テクノロジーを搭載した「CHRONOStream(クロノストリーム)」というソフトを紹介したことがあったが、それが「PhaseGear(フェーズギア)」というテクノロジーに大きく進化するとともに、先日この技術を搭載したiPhoneアプリ「PSOFT Audio Player」がリリースされた。800円と手軽に入手できるアプリなので、どんなことができるのか試してみた。

カラオケアプリなどに使われているPhaseGear搭載の音楽プレーヤー

 タイムストレッチやピッチシフト技術は、DAWの世界ではごく当たり前に使っているし、デジタルビデオの早送り、さらにはカラオケでのキー変更においても、幅広く使われている技術だ。あまりにも普通に使っているので、クオリティーの違いなどについて、気に留めていない人も少なくないと思うが、どんなエンジンを使っているかによって、その精度、音質にはかなりの違いが出てくる。

 テープのように単に早回しする場合は、スピードとともに音程も上がってしまうし、音の雰囲気も大きく変わるために、聴きとりづらくなってしまう。反対に音程だけ下げようとすると、テンポも遅くなるし、音のトーンも変わってしまうため、音楽として破綻してしまう。そこで、デジタル演算処理によって、スピードを上げても音程が変化したり、音のトーンが変わらないようにしたり、ピッチを変えても時間や声質が変わらないような手法が生み出されているのだ。

 DAWにおいてはドイツzplane社のelastiqueが大きなシェアをとっており、Cubase、Ableton Live、FL Studio、Music Maker……などヨーロッパ系ソフトの多くが採用していることが公開されている。

 そうした世界において、国産技術として発展させてきたのがピー・ソフトハウス。同社のPhaseGearは、日本、米国、韓国の3カ国で特許登録を済ませているオリジナル技術であり、elastiqueなどとは違った特徴も持っている。タイムストレッチやピッチシフトを非常に高品質に実現するだけでなく、オーディオデータの中から特定の音声を消したり、抜き出したりする音声マスキング機能を持っているとともに、マルチプラットフォームに対応し、Windows、Macはもちろん、iOS、Android、Tizenなどのモバイルデバイス、さらには組み込みデバイスにも対応可能としている。

ピー・ソフトハウス「PhaseGear」のロゴ

 このPhaseGear、公開されているところではエクシングの「カラオケJOYSOUND+」(iOS/Android対応)や「カラオケJOYSOUND+歌い放題♪ forスゴ得」(Android対応)、アールテクニカのmimiCopy(iOS対応)などに採用されている。そして先日、7月25日に同社のオリジナルiPhoneアプリとして、多機能ミュージックプレーヤーである「PSOFT Audio Player」(800円)がリリースされた。これでPhaseGearの技術を存分に使えるようなので、試してみた。

 そうはいっても、構えて取り組む難しい技術ではなく、PhaseGearは誰もが気軽に使える楽しい技術。そもそも、PSOFT Audio Playerはミュージックプレーヤーアプリなのだから、DAWのように音楽制作の知識を必要とするものではなく、自分の好きな曲を自由な形で、いろいろと楽しもうというコンセプトのものだ。なお、iCloud上の楽曲や、著作権保護された楽曲は再生できない。

 もっとも基本となるのが、タイムストレッチ&ピッチシフト画面。ここでは、iTunesで管理している楽曲を読み込み、再生ボタンをタップすると普通にプレーヤーとして音楽が鳴る。ここで、Speedのパラメータをデフォルトの×1から上げていくとピッチや音質を変えずに、スピードを上げていくことができ、最大で4倍速までになる。反対に遅くしていくと0.01倍刻みにスピードを下げられ、0.00までもっていくと止まってしまう。こちらも、ピッチを変えずにスピードだけを遅くできる。

iTunes経由で転送した楽曲を読み込んで使用した
再生中の画面
スピードを最大4倍まで上げられる
ピッチは上下2オクターブの範囲で調整できる

 反対にKeyのほうはデフォルトは0となっており、#をタップすると、半音ずつ上がっていき、bをタップすると半音ずつ下がっていく。こちらも0.01刻みでの設定が可能であり-24〜+24まで上下2オクターブでのピッチシフトが可能。聴いた感じでいうと、ボーカルが入っていると、やはり±5くらいが限界。楽器の音だけならもう少し行ける気がするが、人の声はどうしても破綻してしまう。実際、どんな感じになるのが、ピーソフト・ハウスがデモデータを公開しているので、これを聴いてみると分かるだろう。聴いてみても、あまり違和感はなかったのではないだろうか?

【音声サンプル】

時間も音程も変えず、声質だけを調整できる

 また、先ほど声質とか音のトーンと言っていたのは、一般にフォルマントと呼ばれるもの。フォルマントを上げると人の声の場合、女性っぽい声、子供っぽい声になるのに対し、フォルマントを下げると、男性っぽい声、年寄っぽい声になる。テープを再生する場合、スピードとともにフォルマントも上下するために、声の雰囲気が大きく変わってしまうのだ。

 elastiqueなどでも、フォルマントを固定したままスピードやピッチの調整ができるのがウリとなっているのだが、PSOFT Audio Playerでもフォルマント固定がデフォルトだが、フォルマントだけをいじる機能も備えている。これを使うことで、時間も音程も変えずに声質だけが変えられるというわけだなのだ。

ミンミンゼミとクマゼミの声は同じ成分? 時間/音程を変えてテスト

 ところでここ数日、所用で山口県に来ていたのだが、このアプリを使って、ぜひ試してみたいことがあった。それは、「クマゼミの鳴き声を録って再生速度を落とすと、本当にミンミンゼミの鳴き声になるのか? 」という実験だ。知らない人にとっては、唐突な話題に思えるだろうから、簡単に説明しておこう。西日本の人にとって、「シュワシュワシュワ」というクマゼミの鳴き声は、夏の日常だと思うが関東以北在住の人にとっては、あまり馴染みのないセミであり、筆者も夏に西日本に行ったときにしか聴いたことがない。最近は地球温暖化のためなのか、だいぶ北上しているという話であり、神奈川でも湘南地方で鳴き声を聴くという情報をもらったことはあったが、筆者が住んでいる横浜市の家の近所では聴いたことがない。一方、ミンミンゼミは関東でもおなじみ。調べてみると、クマゼミとミンミンゼミは共存しているケースがあまりないとのことで、見た目は似ているが大きさは違う。また、鳴き声も全く違って聴こえるのだが、実はピッチとスピードが違うだけで、ほぼ同じ成分の音であるとされている。そこで、その実験をしてみた。

 なお、PSOFT Audio Playerには録音機能がないので、別アプリを使ってクマゼミの鳴き声を44.1kHz/16bitで普通にWAVファイルとして録音。これをiTunesに取り込んだ上で、Speedだけを遅くてみたところ、なるほど雰囲気は少し変わったが、「ミーンミンミンミーン」とは聴こえない。そこで、ピッチも少し下げ見たところ、ちょっと近くなった気もするが、やはり違和感はある。さらにフォルマントも少し下げてみたが、まあこの辺がいいところだろう。ミンミンゼミにはならなかったものの、遠くはない雰囲気になったように思うが、どうだろうか? 数値的にはSpeedを×0.40、Keyを-0.30、Formantを-3.0としたもの。念のためAudacityを使って、テープ風なピッチシフトで音を下げてみたが、その結果よりはPSOFT Audio Playerでの設定のほうが、ミンミンゼミに似たものとなっていた。

他のiPhoneアプリでクマゼミの声を録音
PSOFT Audio Playerで、Speedを×0.40、Keyを-0.30、Formantを-3.0とした

【音声サンプル】

 ちなみに、このアプリは再生するだけで、生成した音を書き出す機能は標準では備えていない。しかし3,000円のアドオン機能としてExport機能が用意されており、これを使うことで、AAC、Apple Lossless、Wav、Open inでの書き出しが可能になっているのだ。

 PSOFT Audio Playerの機能はこれに留まらない。音声マスキング機能というものを持っている。これは、音の定位(左右)と周波数帯域という2軸から特定領域だけを消したり、特定領域だけを抽出するというもの。これによってボーカルを消すとか、ボーカルだけを取り出すといったことが可能になる。

3,000円のアドオン購入により、エクスポートも可能になる
音声マスキング機能で、音の定位(左右)と周波数帯域の2軸から、特定領域だけを消せる
特定領域だけを抽出することも

 画面を見た瞬間、「ローランドのR-MIXやR-MIX tabにそっくり」と思ったが、以前R-MIXを初めて見た際、知人から「ピーソフト・ハウスのCHRONOStreamによく似てる」と指摘されたことがあったので、こちらのほうが先のようだ。

ローランドのR-MIX
R-MIX tab

 両社の技術の関係性についてはよく分からないが、この画面を見る限り、行なっていることはほとんど同じように思える。ただし、PSOFT Audio Playerのほうは、領域を任意に指定できるわけではなく、長方形で指定する形になっており、プリセットもいくつか用意されている。ボーカルだけでなくギターを消すしたり抽出することもできる。実際、この機能でギターを消した結果が下のサンプルだ。

【音声サンプル】

 さらにもう一つ用意されているのが、今再生されている音がどんな音程であり、どんなコードであるかを表示するというもの。各楽器メーカーなどが長年取り組みつつも、なかなか実現できていない、夢の自動採譜システムを実現しようというもの。例えば河合楽器のBand ProducerやカシオのChodana Viewerと比較しても、性能的にそん色はないし、ピアノロール風な画面はなかなか楽しい。これらが、最初のタイムストレッチやピッチシフトとどう関係しているのかはわからないが、全部合わせて、PhaseGearという技術となっているようだ。

河合楽器のBand Producer
カシオのChodana Viewer
PSOFT Audio Playerのピアノロール風な画面

 いずれにしても、これだけの技術を日本のベンチャー企業が開発しており、それを800円で存分に楽しめるというのは嬉しい限り。今後、PhaseGearはさらに進展するのか、またどんな製品の中に組み込まれていくのかなど、楽しみである。

iTunesで購入

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto