夜道で鼻歌を歌っているところを人に見られて、恥ずかしい思いをした経験はないだろうか?この技術が日本でも広く知られるようになれば、もっと堂々と鼻歌を歌えるようになるかもしれない。
米国のベンチャー企業、Melodisが開発した楽曲検索サービス「midomi.com」が注目を集めている。楽曲のどんな部分でも、覚えている箇所を歌詞つきの歌、もしくは鼻歌や口笛で吹き込めば、該当していると思われる楽曲の候補をリストアップしてくれる。歌のテンポやキーが元の楽曲と合っていなくても曲を探し出すことができ、英語の曲を日本人ならではのカタカナ英語で歌っても通じる。
このmidomi.comはどのようにして生まれたのか、そして日本での展開はどのように考えているのだろうか。Melodis CEOのKeyvan Mohajer氏に聞いた。
歌だけでなく、鼻歌や口笛でも、音声で音楽のどの部分でも歌ってもらえば、検索エンジンのほうできちんと音楽を探し出します。これまで多くの人が同じようなことを実現しようと努力してきました。それでも難しかったのは、音楽にはさまざまな種類があるからです。リズム、メロディ、歌詞など、さまざまな特徴の中からどれを使って楽曲を探し出すかが問題でした。
Melodisでは「MARS(Multimodal Adaptive Recognition System:複合適応認識システム)」という独自技術を開発しました。Multimodal(複合)というのは、音声からいろいろな情報――リズムやメロディのほか、どこでポーズが入るか、歌詞、などの複数の特徴を抽出して、検索に利用するというものです。また、Adaptive(適応)というのは、入力された音声のうち、どの情報がより重要かを判断するというものです。たとえば鼻歌や口笛なら歌詞を無視します。一方、ユーザーが歌って検索していたら、歌詞の情報を使ってより正確な検索を目指します。
MARSは音声認識と楽曲認識の両方の技術を使っています。さらに、検索アルゴリズムも優れています。音声から特徴を抜き出し、その特徴のマッチングをするのですが、この点で当社は特許を取得しています。
それから、データベースが充実していることも重要です。いろいろな文化背景を持つ歌や楽曲をデータベースに登録する必要があります。これをどうやって作りこんでいくかというと、ユーザーに協力を求めるんです。midomi.comで歌を歌ってもらったけれども検索結果に表示されず、データベースに登録されていないことが分かったら、ユーザーにはまずログインしてもらい、そこで歌ってもらいます。midomi.comではレコーディングスタジオのように、そのまま音声を収録してサイトに登録する機能があります。そうするとわれわれのデータベースに登録されるので、次に誰かが検索すればその楽曲が見つかるというわけです。
複数の特徴を認識して、ある人の声と別の人の声を照合させる技術を持っているのは我々だけだと認識しています。
Gracenoteとは技術も用途も根本的に違います。Gracenoteは楽曲と楽曲をつき合わせて検索するものです。技術的に簡単ですし、ユーザーのニーズも我々のものとは異なります。Gracenoteの場合はユーザー側で楽曲を用意しないといけないわけですから、検索というよりも楽曲の識別といったほうがいいでしょう。この場合、ニーズは非常に小さいと思います。
我々の場合は音楽に対して人がどう受け取ったかという、人間の認識そのもので照合します。歌ってみたり、一部の歌詞をしゃべってみたり、覚えているところだけ口笛を吹いてみたり。そういった技術を商品として届けることができれば、消費者は非常に便利だということを実感してもらえると思います。
そうですね。実際、MARSの技術を磨くとともに、他分野への応用についても取り組んでいます。新しい用途としては、テキスト認識があります。たとえばある商品の名前をはっきりと思い出せないんだけれども、なんとなく音やスペルが「こんな感じだった」ということはありますよね。そういったときに、うろ覚えのまま入力してもきちんと検索できるようにするといったことがあります。
それから、音声認識を使った検索があります。いま携帯電話向けに提供しているmidomi mobileでは、ブリトニー・スピアーズの楽曲を調べるのに、「ブリトニー・スピアーズ」と言って調べてもいいし、楽曲を歌ってもいいし、文字で入力してもいいようになっています。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス