AIエージェントの根幹をなすのが「AIエージェント基盤」と呼ばれるもので、「Sense」「Speak」「Symphony」(いずれも開発コード名)という3つのプラットフォームで構成されている。
Senseは、NTTドコモが持つユーザー情報や気象情報、交通情報などを元に、ユーザーの行動を“先読み”して情報配信するもの。例えばユーザーの現在地を検知し、「宅配便の配送予定時刻までに帰宅が間に合わない場合は、配送時間の変更をすすめる通知を送る」といった機能を実現できる。
Speakは、多目的対話プラットフォームで、音声認識、自然言語理解、音声合成の3つの機能を包含し、ユーザーと対話するフロントエンドに近い部分を担当する。3つ目のSymphonyは、IoTアクセス制御プラットフォームで、インターネット経由でウェアラブルデバイスや宅内のIoT機器を操作できるようにするものだ。
これらのバックグラウンドには当然ながらビッグデータやAIが存在しており、“いろいろできる”仕組みではある。しかしながら、先述の通り個々のエキスパートエージェントと連携して実現する点が、他の一般的な対話型AIとは異なっている。これは、大庭氏が考える「いろいろできる必要はない」というコンセプトに基づくものだ。
大庭氏によると、AIのアルゴリズムは、いくつかの種類はあっても統計的手法がベースにあることに違いはなく、「どの手法でも性質は同じ」という。そのようなAIは元々「いろいろなことをできるようにするためのツール」であり、特定用途に特化していない作りだと、ユーザーの望む回答とは全く異なる分野の情報が返されるなど、「まれに素っ頓狂な誤りをしてしまう」ことがあるとする。
では、対話型AIにおいて本当に「いろいろなことができる」汎用性は必要ないのだろうか。ここで同氏は、一般ユーザーの「しゃべってコンシェル」の使い方を紹介した。ある人は、毎日必ず「ヨコハマ、天気」というキーワードで話しかけるだけで、またある人は「目覚ましで毎日5時台に起こしてもらう」ための音声コマンドしか利用していなかったという。ここまで限定的な用途であれば、スマートフォン画面の使いやすい位置に天気情報や目覚ましアプリを置いておけばいいかもしれないが、ユーザーにとっては指よりも音声だけで素早く操作したい気持ちが強いとのこと。
このことから同氏は、少なくとも対話型AIにおいては「なんでも話せることは求められていない」こと、「頻繁に使われる機能を音声でさっと入力できればいい」こと、そして「ユーザーのニーズに合った機能を訴求すること」が大事だと認識したという。「スマートフォンもいろいろなことができるが、みなさんが使う機能も限られているはず」と大庭氏は語る。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
開発経験ゼロからのローコード開発で
医療ニーズに応えた病院向けシステムを構築
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス