グーグルジャパンは11月12日、「Google 鼻歌検索(Hum to Search)」機能に関する説明会を開催。Googleシニアプロダクトマネージャーのクリシュナ クマール氏が登壇し、開発背景について説明した。
同機能は米国時間の10月15日から一部言語を対象に提供開始されていたものであり、最新のGoogleアプリおよびGoogleアシスタントなどで利用できる。具体的には、10〜15秒程度のメロディーを歌う、またはハミング、口笛などで奏でることで、特徴が合致する楽曲をクラウド経由で検索できる。日本語は、現状Androidのみが対応している。
同氏によれば、音楽検索をする人のうちの約半数が、曲を聞いたことがあるけれど思い出せないというケースに該当するという。この問題を解決するために、同社が持つ既存技術を振り返ったが、鼻歌でハミングして、既存の楽曲とマッチングさせるのは困難を極めたとのこと。同氏はこれを「顔認証と似顔絵で認証ぐらい違う」と例えた。
同機能では機械学習を活用し、メロディーを特有の数列に変換する手法が採用されている。この際、機械学習アルゴリズムによって伴奏などメロディー以外の要素はすべて排除され、メロディーだけを数列として抽出している点が特徴だ。これをGoogleが持つ楽曲のデータベースと照らし合わせて、もっとも合致するものを紹介する。
さらに、クマール氏は、「開発当初からこういったことができたわけではなく、相当な学習を積み重ねた」とコメント。難しかった点としては、「歌っている音を認識することはできたが、歌詞の有無を見分けるのが難しかった」という。
こうした課題の解決策として、ニューラルネットワークがメロディのみにフォーカスできるように、歌っている音源から音程のみを抽出し、さらにトーンを生成することで、ハミングの音源として整える手法が採用された。最終的に、何百万という楽曲を学習させた結果が、現状の鼻歌検索(Hum to Search)だ。なお、様々な国やエリアの楽曲を、古いものから新しいものまで、広く学習させたという。
同氏は「Googleは、ありとあらゆる検索に対応していこうという点でコミットしている。さらにデータベースに含まれる楽曲数も広げ、対応言語も拡充していく」とコメントしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」