> >

グーグルがAIと音声認識で進める「アクセシビリティ」向上の取り組み

Marguerite Reardon （CNET News）翻訳校正：川村インターナショナル2019年05月10日 07時30分

　Googleは、人工知能（AI）と音声認識の最先端の技術を利用して、障害のある人々の生活を楽にする新しい製品やアプリを開発している。同社は米国時間5月7日、年次開発者会議「Google I/O」で、そうした取り組みの一部を発表した。

　Googleの最高経営責任者（CEO）のSundar Pichai氏は基調講演で、「Android Q」によって実現される新しい「Live Caption」機能のデモを披露した。これは、スマートフォンで再生中の動画や音声をリアルタイムで文字に起こす機能だ。Live Captionは、ユーザーがYouTubeを視聴したり、ポッドキャストを聴いたり、Skypeでビデオチャットをしたりしているときに、バックグラウンドで動作させることができる。録音した音声や動画にも対応する。

　Pichai氏は、障害のある人々のアクセシビリティー問題の解決を目指す3つの新しい取り組みも発表した。「Project Euphonia」は、AIを利用して、発話障害のある人々を支援する。「Live Relay」は、聴覚障害者や難聴の人も電話をかけることができるようにするプロジェクトだ。「Project Diva」は、音声起動アシスタントを発話障害者にも使いやすいものにする。

GoogleはAIを活用して、発話障害のある人々のコミュニケーションを容易にしようとしている
提供：Google

　Googleはかなり前からアクセシビリティー問題に取り組んできた。例えば、同社の「Googleマップ」チームには、車椅子の人のためのスロープや入り口がある場所を探し出す地元のガイドがいる。2018年のGoogle I/Oでは、「Android」用アプリ「Lookout」を発表した。このアプリは、周囲にある物体や文字、人について音声で情報を伝えることで、視覚障害者を支援する。

　Pichai氏は基調講演で、「あらゆる人を想定して開発された製品ということは、あらゆる人が当社の製品にアクセスできるということだ。テクノロジーは私たちのインクルーシブ性（包括性）を高める助けになるとわれわれは考えている。そして、AIは障害のある人々の体験を劇的に改善する新しいツール群を私たちに提供してくれている」と語った。

　Live Captionと、Google I/Oで発表されたその他のアクセシビリティープロジェクトについて、以下で詳しく紹介しよう。

Live Caption

　Live Captionは、デバイス上で機械学習処理を可能にする画期的な技術によって実現されている。つまり、すべての情報がデバイス上で処理されるので、データをワイヤレスネットワーク経由でクラウドに送信する必要がない。データがスマートフォンから出ることはないため、文字起こしの安全性と速度が向上する。この機能は、音量を下げているときやミュートにしているときも動作する。ただし、文字起こしされたテキストを保存することはできない。テキストはコンテンツの再生中にのみ画面に表示されるので、保存して後で確認することはできない。

　この機能は聴覚障害者のコミュニティーを念頭に置いて開発されたものだが、動画の音量を上げられない状況にいるあらゆるユーザーの役に立つだろう、とPichai氏は述べている。例えば、騒がしい地下鉄に乗っているときや会議中でも動画を見ることができる。

Project Euphonia

　このプロジェクトは、AIを使用してコンピューターを訓練し、発話障害者の話し方を理解できるようにするものだ。ほとんどの人は、自分が話すときに、当然相手が自分の話す言葉を理解するものと考えている。しかし、脳卒中や筋萎縮性側索硬化症（ALS）、多発性硬化症、外傷性脳損傷、パーキンソン病などの神経学的疾患に苦しむ多くの人々にとって、コミュニケーションをとろうとしても理解してもらえないことは、とてもつらく、いら立たしい体験になることがある。

　Googleは、コンピューターとスマートフォンを訓練して、発話障害のある人々の言葉をより正確に理解できるようにする解決策に取り組んでいる。非営利組織のALS Therapy Development Institute、ALS Residence Initiativeと提携して、ALSを患っている人々の音声データを収集している。Googleのソフトウェアは、これらの録音された音声サンプルを取り込んで、スペクトログラム（音声を視覚的に表したもの）に変換する。その後、コンピューターがよく記録されるスペクトログラムを使ってシステムを訓練し、こうしたあまり一般的ではないタイプの話し方をより高い精度で認識できるようにする。