logo

「顔認証と似顔絵で認証ぐらい違う」--グーグル担当者が語る鼻歌検索の難しさ

  • 一覧
  • このエントリーをはてなブックマークに追加

 グーグルジャパンは11月12日、「Google 鼻歌検索(Hum to Search)」機能に関する説明会を開催。Googleシニアプロダクトマネージャーのクリシュナ クマール氏が登壇し、開発背景について説明した。

Google、クリシュナ クマール(Krishna Kumar)氏
Google、クリシュナ クマール(Krishna Kumar)氏

 同機能は米国時間の10月15日から一部言語を対象に提供開始されていたものであり、最新のGoogleアプリおよびGoogleアシスタントなどで利用できる。具体的には、10〜15秒程度のメロディーを歌う、またはハミング、口笛などで奏でることで、特徴が合致する楽曲をクラウド経由で検索できる。日本語は、現状Androidのみが対応している。

キャプション
鼻歌検索の使い方

 同氏によれば、音楽検索をする人のうちの約半数が、曲を聞いたことがあるけれど思い出せないというケースに該当するという。この問題を解決するために、同社が持つ既存技術を振り返ったが、鼻歌でハミングして、既存の楽曲とマッチングさせるのは困難を極めたとのこと。同氏はこれを「顔認証と似顔絵で認証ぐらい違う」と例えた。

 同機能では機械学習を活用し、メロディーを特有の数列に変換する手法が採用されている。この際、機械学習アルゴリズムによって伴奏などメロディー以外の要素はすべて排除され、メロディーだけを数列として抽出している点が特徴だ。これをGoogleが持つ楽曲のデータベースと照らし合わせて、もっとも合致するものを紹介する。

 さらに、クマール氏は、「開発当初からこういったことができたわけではなく、相当な学習を積み重ねた」とコメント。難しかった点としては、「歌っている音を認識することはできたが、歌詞の有無を見分けるのが難しかった」という。

Google 鼻歌検索(Hum to Search)の仕組み
Google 鼻歌検索(Hum to Search)の仕組み

 こうした課題の解決策として、ニューラルネットワークがメロディのみにフォーカスできるように、歌っている音源から音程のみを抽出し、さらにトーンを生成することで、ハミングの音源として整える手法が採用された。最終的に、何百万という楽曲を学習させた結果が、現状の鼻歌検索(Hum to Search)だ。なお、様々な国やエリアの楽曲を、古いものから新しいものまで、広く学習させたという。

 同氏は「Googleは、ありとあらゆる検索に対応していこうという点でコミットしている。さらにデータベースに含まれる楽曲数も広げ、対応言語も拡充していく」とコメントしている。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]