お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

音声認識や画像認識は我々にどんな未来をもたらすか:第45回トンコネ・ジャム

2016/08/23 13:00
  • このエントリーをはてなブックマークに追加

プロフィール

土屋夏彦

radikoが有料で全国が聴けるようになり、いよいよ聴き逃しサービス「タイムフリー」も始まるかと思いきや、2016年になってしまいましたが、AMが在京3局も含め順次ワイドFM化を始め、TOKYOFMグループのi-dioもいよいよこの3月から始まるようで、今年の地殻変動はかなり大きいかも!
ブログ管理

最近のエントリー


ニッポン放送はラジオ局ならではの新型のラジオを制作すると発表し、クラウドファンディングサイト「CAMPFIRE(キャンプファイヤー)」で支援者を募集中です。

ラジオ局が手掛ける本気のラジオ「Hint(ヒント)」。「ラジオならではの『生活にそっと寄り添う』気配(Hint)を形にした」ということで、起案者・総合プロデューサーの我らが吉田尚記さんからは、前回たっぷり取材記事を紹介させていただきました。

前回の取材(ピッポッパで書き換えられるBLEビーコン:ラジオ局が手掛ける「本気のラジオ」「Hint」の正体!?)では、「Hint(ヒント)」は単なるラジオの枠を越えて、「音声波(DTMF信号)で簡単に書き換えられちゃうBLEビーコン」としての役割が大きいことがはっきりしました。

そこで今回は、いつものメディアの今を語り合う座談会「トーンコネクトジャム(略してトンコネジャム)」で、文字データや音声データを使ってどんな未来が訪れようとしているのか、そんな話題で座談会してみました。

メンバーはいつものとおり、ラジオアナウンサーでIT使いのスペシャリストの吉田尚記さん、「吉田ルーム」の大番頭さん・益子和隆さん、吉田さんも共同参画する株式会社トーンコネクト社長CEOの加畑健志さん、さらにスーパー大学生のTehuさん、同じくスーパー大学生の矢倉大夢さんのフルメンバーでお送りします。

■ラジオとビーコンの組み合わせで特許取ります・・・

>ラジオチューナーとビーコンの組み合わせという企画がとんでもないものを生み出してしまいました。

(吉田)これがまさにBLEラジオ「Hint」なわけですが、放送波(FM電波)でビーコンを書き換えることができるため、圧倒的ローコストでさまざまなIoT機器に対応出来てしまうというわけなんですよ。

>それって考えれば考えるほどスゴイですね。肝入りでやっているV−Low帯を使った地デジラジオは、全国にアンテナ建ててお金をかけて始めていますけど、同じようなことはこれだけでも簡単にできますよね。

(加畑)トーンコネクト(という技術)があるので、すぐに実現できるわけですよ。

(吉田)しかもAMラジオもFM波を出すようになったことも大きいです。FM波でピッポッパを流すだけでBLEが反応して書き換わるわけなんです。

>この技術は特許技術になっているんでしたっけ。

(加畑)トーンコネクトとしては、音とURLをマッチさせるところのサービスを提供しているので、これを利用してくださる際には利用料をいただくようになっています。

>ラジオチューナー(FM波)とビーコンの組み合わせ自体で特許とか取れればいいのにね。

(加畑)特許申請出してます。

(吉田)ちなみにここで利用するビーコンは「フィジカルウェブ(Physical Web)」と言えばいいのか「エディストーン(Eddystone)」というべきなのか・・・。

(加畑)「フィジカルウェブ」ですね。「エディストーン」はGoogleのサービス名称。Appleからは「iBeacon」が提供されてます。

(益子)「フィジカルウェブ」は「IoT」みたいな感じの言葉ですね。

(矢倉)URL(文字データ)をBluetoothで飛ばす技術の名前が「フィジカルウェブ」。

(吉田)BLEにURL(文字データ)を乗っける方法が「エディストーン」。

(加畑)BLEのアドバタイズパケットにURL(文字データ)を乗せる規格の一つが「エディストーンURL」。数字数桁がまず飛んできます、数字が飛んできたら、それを省略URLに自動変換。それを我々が設定してあるサーバーで飛ぶべきURLに変換するというしくみ。

(Tehu)BLEラジオ自体にSIMが入っていないのに、どこでURLに変換するのかなと思ってました。スマホのブラウザですべてやってしまうんですね。

(吉田)つまりこいつがアクセスしようとすると、サーバーがリダイレクトしている場所につながらせてくれる。

(Tehu)対応はアンドロイドだけですか?

(加畑)アンドロイドはすでにファームウエアに搭載済、iOSはChromeで対応。

(Tehu)これGoogleだけの規格じゃないじゃないですか。

(加畑)今回のようなことでものすごい便利となったら、ほかにもファームウエアで入る可能性はありますね。

(吉田)ところで、全く関係ない話なんですが、「Galaxy S7 edge」のボイスレコーダーにすごい機能が載っているんですが、誰も騒いでいない。音声メモを立ち上げると、話した内容がテキストとして画面に表示されるとあるんですよ。実際やってみると、こうやってしゃべってるだけで、ある程度リアルタイムで文字になって画面に次々表示されるんです。


左から矢倉、加畑、tehu、益子、吉田

>すごいですね。そんなのがもう搭載されているんですね。

(吉田)もともとアナウンサーとしてしゃべる職業だけど、文章を書くという仕事もしていると、これってけっこうキラーアプリですよ。

■文章を書くくせに座っているとは何事だ!?

>その文章データは残せるんですか?

(吉田)もちろん残ってますよ。これを使うと歩きながら文章が書けちゃいます。文章書く人はわかると思うけど、座っていると思いつかない。歩くと思いつく。だから「文章を書くくせに座っているとは何事だ」という瞬間が来ると思う笑。

野口悠紀雄氏の「話すだけで書ける究極の文章法」という本が出てて、そこに「寝たまま文章が書けます」というところがあって、人間は文章を書くことに対して、姿勢を規定されていたことに気付いたんだそうです。座っていたら書けない文章がきっとあるから、新しい文章の世界は口述筆記によって開かれる可能性が大きいと思いました。

(加畑)ちょっと前に、フェイスブックだかに誰かが書いてたけど、フリック入力では遅くて、音声のほうが早いじゃない、と言う人がいましたよ。でもまだ音声で入力している人はみたことないけど・・・。

(Tehu)ぼくはたまにやりますよ、街なかを歩きながら、めんどくせーなと思った時、Siriで文字化します。あまりまわりに人がいない時、電話で話しているような格好でやれば大丈夫。

(益子)映画「her/世界でひとつの彼女」では、Siriを街なかで使う近未来社会が描かれています・・・。

(吉田)日本はあんまりぶつぶつ言いながら歩いてる人は少ないですよね、歩きながら喋ってる人は全員もの書きですという時代が来るのかもしれない笑。

(加畑)さっき言ってた、留守電をテキストに起こして送ってくれるサービス、僕は20年前から知ってます。アメリカではごく普通のサービスで、ボイスメールのサービスだった。いまではGoogle Voiceなんかも音声で録音して、文字で送られてくる。

>昔、この逆も使いました。文字で打つと音声で電話してくれるサービス。ロボットが電話してくれるやつ。

(加畑)ありましたね。

(吉田)いまボクがめちゃくちゃしゃべったやつが文字化されたので、メッセンジャーでみなさんに送ります。

※一部抜粋
・・・・この リアルタイム で できる 所 でも 枕崎 かぶっ て いる と 認識 率 全然 ダメ ダメ な ん です けど いや そんな 事 を で もともと 吉田 アナウンサー として こう 喋る けど 文章 書く みたい な 人間 で 喋り ながら 部署 替え た から 俺 にとって これ こちら コンテンツ 近く て この 言葉 どこ に も できる やつ が へー どこ で 凄い こと な のに あの まま でも 潜ん まで ね 僕 だけ じゃ なく よこじ 事件 は なく て 止める の と あと わかっ た けど 口述 筆記 で かける という の は 歩き ながら 文章 が でも それ すごく でかく て で あの 文章 限っ て いる 人 は わかる と 思う けど 文章 書い てる と 切手 代 で 座っ てる と 疲れる けど 歩く と 絶対 思いつく の これ ダウンロード 機能 時間 そう だ から 文章 を 書く くせ に 座っ てる と は 何事 だ っていう 瞬間 が 来る から メール が 野口 悠紀雄 の 今 そのなか 口述 筆記 を 使っ て 打ち込み たい 本 が 江戸 今月 出 て でも 勝っ た 勝っ て も すぐ です けど でも 先 ので それ で いる 割れ て 気付い た の は 妬ま 文章 が 書け ます と 世界 だって 人間 は 文章 を 書く という こと に関して 姿勢 を 規定 さ れ て い た ん だって こと 結構 気づく わけ です よ 笑 姿勢 が 座っ て い たら 書け ない 文章 と きっと ある ので あの 中 新しい 文書 世界 は 供述 一樹 によって 開か れる 可能 性 が ある みたい こと 今週 考え て まし た ね フリック 入力 遅く て なんで 自体 音声 を 入れ た 重大 な 愛 Android の ボイス メモ や これ Android じゃ なく て あのー これ は galaxy の オリジナル 機能 です 間に合い ます これ 築地 で いい 人 待っ てる よ 今 外 で ある イヤホン すけとう こちら 今度 もの かぎり 物書き 上 日本 だけ かも しれ ない の が い ない の は むしろ 歩き ながら しゃべっ てる 人 全員 物書き です という 時代 が 来る の かも しれ でしょ う ・・・・

(吉田)ところどころ意味がわかりますよね。これ5分まで行けるらしいです。音声入力マスター。このアプリのスゴイのは、再生すると、音を聞きながら文字も一緒に表示されるんですよ。速度とかも変えられるし、こんなスゴイアプリがあるのに、これ(「Galaxy S7 edge」)について何か書いている人の記事をみたことがないんですよ。

これがなんで一般のアンドロイドアプリとしてリリースしないのか不思議なんですが・・・。

(加畑)たぶん音声認識の精度のテスト段階なんじゃないんでしょうか。ちゃんと(文章らしく)しゃべらないと認識しないとか、まだルールがあるのかもしれません。

(益子)文字起こしするビジネスはまだごく一部なので、LINEやツイッターをするときに文字起こしを使うのかというと、女子高生は自分たちのほうが圧倒的に早く文字を打てるから・・・。

(加畑)LINEを音声で使う人向きには文字も出れば便利・・・。

(益子)使い方をちゃんと提示してやればいいのでは・・・。

(加畑)フリック入力が激早でも、絶対コードなんか書かないからなやつらは笑。口述でコード書く人もいないだろうし笑。

まちがいなくこのs7も、使われてしゃべればしゃべるほど、音声認識精度がアップするので、誰もが使えるレベルになるのも時間の問題かもしれませんね。

■ディープラーニングで何でもできる!?

>音声認識の一方で、画像認識もどんどん進んできてますよね。

(加畑)音声認識の技術が進んでいる一方、画像認識などの機械学習のコストもどんどん下がっていて、なんちゃってというものも増えてきていて、とりあえず「機械学習」と言えば何でもいいみたいになってるところがありますね。何を学習させるんだみたいな・・・。

(Tehu)なにか問題が出た時、これ機械学習でなんとかならないの、とかいわれるやつ。

(加畑)言い訳で、それ機械学習なんで・・・っていうのもある笑。

(Tehu)精度のレベルが・・・ってことですね。

(矢倉)次の同人誌のネタにしようと思って、ディープラーニングで何でもできるっていうので、「ディープラーニングでご飯作りました」という、ご飯画像を生成する企画をやってるんです。

(加畑)ご飯の画像をいっぱい食わせるわけだ笑・・・。

(矢倉)まだ全然ですが・・・。

(Tehu)見た感じそれっぽい色にはなってきてるね・・・。もっとショートケーキとか、明らかに上に赤いものが乗ってるとかだとわかりやすいんだけどね。

(加畑)アイドル画像なんかの生成も、それらしく出てくるらしいよね。

(吉田)それって何ていうお題「ゴハン」?

(矢倉)お皿っぽいものの上に白いものが入ってるくらいにはなってきています。これでご飯の画像を10万枚くらい読ませています。

(吉田)ちなみに、ご飯画像の自動生成(このディープラーニング)は、何を使ってやっているの?

(矢倉)自分のオリジナルで、このパソコンの中でやってます。

(吉田)ローカルでここまでできちゃうんだ。

(Tehu)何時間かかってる?

(矢倉)これいま、4日目くらいですね。

(吉田)まるで生き物を孵化させるみたいなことやってるんだね・・・。 これで他の料理もどんどん作っていけば面白いね。

(益子)煮込みもかなり煮込んでありますとかね笑。

(吉田)煮込みってディープラーニングっぽいよね笑。

(矢倉)この生成の過程が面白くて、コンピュータの中で、2人の人工知能がいて、1人は与えられた画像の絵を書けと指示されいて、もう1人は与えられた絵と人工知能が書いた絵を見分けろと指示されていて、お互いに言い合って、どんどん望みの画像になっていくというものなんです。

(吉田)面白い、さすが。似顔絵師のうまさってそうやって技術を上げていくわけで、それと同じことを人工知能にやらせるというわけですね。

>>話も尽きないですが、今日はここまで・・・。


(参考リンク)

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー