藤本健のDigital Audio Laboratory

第683回 iPhoneで歌って曲を探す、ヤマハ「歌っちゃお検索」の仕組み。ロボットと合奏も!?

iPhoneで歌って曲を探す、ヤマハ「歌っちゃお検索」の仕組み。ロボットと合奏も!?

 ヤマハから、「歌っちゃお検索」というユニークなiPhone/iPod touch用アプリが6月14日に無料でリリースされた。これは歌詞が分からなくても、曲の途中からでも、覚えているメロディーを歌うと、それが何という曲なのかを教えてくれるもの。ごく短いフレーズでも、途中で止まっても、すぐに候補を見つけ出してくれるのが特徴となっている。実際どんな技術を使って実現しているのか、ヤマハの研究開発統括部・新規事業開発部の高野秀樹氏に話をうかがった。

歌っちゃお検索

従来の歌声/鼻歌検索とは何が違う?

――先日、リリースされた「歌っちゃお検索」。いろいろなところで話題になっているようですが、改めてこのアプリの概要を教えてください。

ヤマハの高野秀樹氏

高野:今回出した「歌っちゃお検索」は、以前から出していた「弾いちゃお検索」の新バージョンという位置づけです。演奏して曲のフレーズを入力するだけでなく、歌からでも検索して使えるようにしています。日本では楽器演奏人口が数百万人と言われていますが、カラオケ人口なら数千万人いるということから、アプリのターゲットユーザーも大きく広がると考えてリリースしたものです。

 「弾いちゃお検索」の場合、画面に表示される鍵盤を弾くと、それにマッチした曲名を検索した上で試聴きるようにしていましたが、今回の「歌っちゃお検索」の場合は、歌でもできるようにしました。ちなみに、「弾いちゃお検索」から「歌っちゃお検索」へはバージョンアップの扱いで、新アプリとなっていないので、「弾いちゃお検索」をアップデートすると、アプリ名も変わります。

iPhoneの前で歌って検索
「弾いちゃお検索」と同様に画面の鍵盤で弾いて検索できる

――これまでも、音から曲を検索するタイプのアプリはいくつかありました。Shazamなどスピーカーから流れている音楽を捉えて曲名を探し出すものや、Sound Houndのように歌声入力によるものなどありましたが、これら既存のものとどう違うのでしょうか?

高野:まず、原曲そのものを聴かせるタイプのものは、通常、オーディオのフィンガープリント(音声の波形を元に区別する)を利用した検索を行なっています。それに対し、「歌っちゃお検索」では、自分が歌う歌声を利用しているので、そこが大きな違いです。検索対象がメロディ情報、つまりMIDIとなっているのです。また、2~3秒の入力でも検索できるし、入力をスタートさせて1秒以内で検索結果が表示され、入力を続けていけばさらに絞り込まれていく逐次検索となっているのも大きな特徴です。

検索結果の表示例

ユーザー数入力対象検索対象特徴
ヤマハ-歌声メロディ検索
(MIDI)
入力:2~3秒
検索:1秒以内
逐次検索
他サービスA3億歌声/音楽メロディ情報
Audio Fingerprint
入力:10秒
検索:数秒
1回検索
他サービスB5億以上音楽Audio Fingerprint入力:10秒
検索:入力後すぐ
1回検索
他サービスC1~5,000万音楽Audio Fingerprint入力:10秒
検索:数秒
1回検索
他サービスD1~5,000万音楽Audio Fingerprint日本未対応

――私もリリース当日にダウンロードして使ってみましたが、なかなかうまく認識できないことが多く、Twitterのタイムライン上でも、同様のことを言っている人を何人か見かけました。うまく認識させるためのコツというのはあるのでしょうか?

高野:性能改善には今も力を入れていますが、確かに少しコツはあり、私の場合は100%うまく認識させることができるので、お見せしましょう。

正しく認識した例

 こうやって認識させるためには、ある程度大きい音でないといけないので、しっかりと大きい声で歌ってください。どうしても大きい声が出せない場合は、マイクに近づけて歌ってください。ちなみにiPhoneの場合、マイクはホームボタン近くにあります。また、歌う際には、1音1音しっかりと発音してください。また、その際ビブラートをかけたりして「上手」に歌うというよりも、割と安定した音でハッキリと発音するようにするのがポイントです。

――従来より、歌声からピッチを認識させる、鼻歌MIDI入力のようなシステムはいろいろありました。その多くは、「ん~ん~ん~」のように、歌詞を歌わず、まさに鼻歌で入力するといい、とされていましたが、この「歌っちゃおう検索」もはやり、鼻歌にしたほうが認識率が上がるのでしょうか?

高野:その辺は特に気にしなくても大丈夫です。「んんん」でも「ららら」でも、また歌詞付きで歌っても、発音さえしっかりしてくれれば大丈夫です。また、できれば発音が短かすぎないように心掛けてください。一応0.15秒くらいをしきい値としているので、1音符あたり、それ以上の長さにしてくれるといいですね。速過ぎる歌い方だったり、音が短いスタッカートのような感じで歌うと認識されなくなってしまいます。

スタッカートで歌い、正しく認識しなかった例

――それぞれの音符の長さも、曲の検索に影響が出てくるのでしょうか?

高野:現在のバージョンでは、音符の長さは見ていないので、検索には関係しません。実は、検索においてチェックしているのは、安定したピッチとして認識した音と、次に安定したピッチと認識した音の差だけなんですよ。だから、多少ピッチがズレていたとしても認識できるようになっています。ただし、近いうちに行なうバージョンアップにおいては、このピッチの差だけでなく、音の長さも考慮に入れていく予定です。

――その辺の検索システムについて、もう少し詳しく伺いたいのですが、「弾いちゃお検索」のときと、基本的な検索システムは同じになっているのですか?

高野:今回のアプリでは、まず最初の画面において「歌ってさがす」、「弾いてさがす」を選択できるようになっています。「弾いてさがす」を選ぶと従来の「弾いちゃお検索」と同様のシステムになります。一方「歌ってさがす」を選んだ場合、歌で入力するようになるのですが、検索方法においては、少し違いがあります。「弾いちゃお検索」においても音の長さは見ていないのですが、完全な形での部分一致検索となっています。つまりミスタッチが許されず、やり直しが必要となるのです。それに対し、「歌っちゃお検索」のほうは、あいまい検索となっており、類似度が高い結果を引っ張ってくるので、ある程度の許容範囲があるのです。

「歌ってさがす」か「弾いてさがす」を選択
「弾いてさがす」は、従来の「弾いちゃお検索」と同様

 また、歌声の解析には当社の楽器演奏評価技術「virtana(ヴィルターナ)」を用いています。これは先日、やはり無料でリリースした「ふこうよアンサンブル~北宇治高校吹奏楽部へようこそ~」というアニメ作品「響け!ユーフォニアム」を題材にしたアプリでも採用している技術ですね。

――なるほど、音符の長さを見ていないから、途中で止まっても大丈夫なわけですね。

高野:はい。「弾いてさがす」のほうは、そのままにしますが、「歌ってさがす」のほうは、ある程度、音の長さを見たほうが、検索性能が向上することが分かっているので、7月をメドに行なうバージョンアップで反映させていきます。

「ロボットが人と一緒に歌う、合奏する」技術への発展も

――実際に使ってみると、洋楽がほとんどないように思いますが、そもそも、このデータベースはどんなものを使っているのでしょうか?

高野:確かに、洋楽は少ないですね。現在のところ、J-POP、演歌、クラシックなどが多くなっています。実は、これはヤマハミュージックメディアが持つ、カラオケサービス向けに作っているMIDIデータベースを参照しているのです。そのため、他社の検索サービスと比較すると、曲数的に少ないというのが実情ではあります。実数でいうと、3万曲程度です。

 ただ、今でも新しい曲が次々と入力されており、だいたい月に60曲程度が更新されていっています。近いうちに、そのデータ入力を大きく効率化するシステムの導入を予定しているので、使えるデータベースの数を増やしていきます。

――そのデータベース、具体的にはほかでどんなところで使われているのでしょうか?

高野:WindowsやMac、Androidを利用することで月額648円で歌い放題という「パソカラホーダイ」で使われているものと同じです。ほかにも、いくつかのサービスで利用されています。なお、洋楽なども含め、今後、検索対象のデータベースを格段に増やすという方法も検討しています。これはWeb上にある楽譜情報などと合致させての検索を考えているのですが、早ければ年内にも導入していければ、と思っています。

――現時点、「歌っちゃお検索」は無料のアプリとなっていますが、これは今後のバージョンアップなどで有料化される可能性もあるのでしょうか?

高野:今のところ有料化ということは、まったく考えていません。このアプリとしては、ヤマハミュージックメディアの譜面販売サービスである「ぷりんと楽譜」へ誘導すること、またiTunes Storeでの楽曲販売によるアフィリエイト収入を見込んでいます。ただ、それだけではあまり大きな収益が見込めるわけではありません。それよりも主目的はもっと違うところにあるんです。

検索結果から、楽曲や楽譜を購入できる

――その主目的というのは?

高野:私の所属している研究開発統括部・新規事業開発部では、我々が開発した技術を元にして、他社と協業の可能性を検討することを目指しています。このアプリも、その一つであり、ここにある音楽検索の技術が、いろいろな方面で利用できないか模索しているのです。

この技術の位置づけとしては、「機械と人とのコミュニケーション」を実現するための技術の1つとしています。機械が人の歌唱を素早く理解する技術として開発したもので、これによって近い将来、人とロボットが一緒に歌ったり、一緒に楽器を弾いて合奏できるようになるだろうと。そんなことの実現に向けて、この技術が一助となってくれればと考えています。

ロボットが一緒に歌う/楽器演奏するといった活用も見込む

 他社と協業で何かを実現していく場合、既にSDKとして用意しているので、これを使っていくことになります。実は「歌っちゃお検索」のアプリ自体、このSDKをそのまま組み込んだアプリなので、いろいろな応用が利くと思います。

――では、今後も心配することなく無料で使えるわけですね。ぜひ、今後は洋楽への対応などデータベースの充実を期待しています。

開発者向けにSDK化

設定、開始、終了コマンドで制御
検索中は、ライブラリ側から逐次的に検索結果などを通知

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto