本田技術研究所 基礎技術研究センターの子会社にあたるホンダ・リサーチ・インスティチュート・ジャパン(HRI-JP)は、2003年から音声認識や人とロボットの相互作用、対話システムなど幅広い研究をしてきた。その結果は本田技研工業製二足走行ロボット「ASIMO(アシモ)」の頭脳にも組み込まれていると言う。前職となる日本アイ・ビー・エム 東京基礎研究所では、iOSやSNSの自然言語を分析し、現在はHRI-JPで学術研究技術の実用化を推進するプロジェクト・マネジメント・オフィス マネージャーの米持幸寿氏は、「我々はAI(人工知能)の先にある『Cooperative Intelligence(協働知能)』というキーワードで研究の方向性を定めている」と自社の姿勢を説明。AIと人が協働するために必要な要素の1つであると同時に同社が焦点を当てている「対話システム」について、2月22日に開催した「CNET Japan Live 2017」で解説を行った。
現在HRI-JPでは人、機械(コンピュータ)、環境の3分野において自然言語対話の実現を目指す自然言語処理研究や、マルチモーダル(視覚や聴覚を含めた複数のコミュニケーション)実現を目指すmultimodalインタラクション研究、ロボットに聴覚を持たせる知能ロボット研究など、HMI(ヒューマンマシンインターフェース)を実現するための幅広い研究をしている。現在のコンピュータと対話するには開発言語をプログラミングするのがベストながらも米持氏は、「古代エジプト時代に文字を読み書きできた書記官(スクリブ)は非常に少なく、1%という説もある」と説明し、日本におけるプログラマー人口(10万人程度)と類似していると述べた。改めて述べるまでもなく、誰しもがC++やJavaを苦もなく学ぶことはできず、英語など他国語を身に付けるまでのハードルは高い。だからこそ、「人間の言葉をAIが理解すればよい。人が話すように会話できることを目指す」(米持氏)という結論に至る。
人の言葉をコンピュータに処理させる技術としては、AIと言語学の一分野となるNLP(自然言語処理)が有名だが、アルファベット圏言語と異なる日本語などは煩雑な処理が必要なため、処理内容の拡大が進まなかったと言う。だが、近年はコンピュータの進化などに伴って音声認識基盤は大きく拡大し、特に日本は形態素解析処理など計算言語学(形式性を重視する言語学の1つ)へのアプローチが進んだ国に数えられると米持氏は説明した。既にiOSのSiriやGoogle Now、MicrosoftのCortanaなど音声対話は実現しているが、「単に(応答を)プログラムし、返答しているに過ぎない」(米持氏)と言う。これでは我々が普段行う日常的な会話とはほど遠いため、HRI-JPでは条件に応じて対話をするプログラムを複数搭載する「マルチドメイン対話」を実装し、ロボットの新しい可能性を目指している。
米持氏はAIとの対話デモンストレーションを披露したが、そこでは"フランクフルト"というキーワードを“地名のフランクフルト”、“食材のフランクフルト”と複数の意味を持たせて対話を実行。AIは前者に対して旅行先を指し、後者に対してはドイツ料理を提案した。このように長年取り組んできた研究結果をHRI-JPは2016年に「対話システムツールキット」としてパッケージ化。開発者は諸条件を設定することで音声コマンドが利用できるソリューションを実現できる。すでに対話システムツールキットの導入事例として、2016年11月には東日本高速道路が関越自動車道高坂サービスエリアに設置した電子広告板に組み込まれている。HRI-JPの対話システムツールキットを元にNextremerが対話接客システムを開発し、利用者が話しかけることで各種情報を引き出す実証実験を開始した。
現在の音声認識AIは「まだ(AIが言葉を)理解したとは言いがたく、(人が認識する)概念を捉えていない」(米持氏)。単にマッピングされたプログラムの結果を返しているに過ぎず、この点は深層学習だけで解決する分野ではないと言う。HRI-JPは今後も「概念を理解・学習し、価値の理解や価値観の創造」(米持氏)といった領域に広げつつ、人と協働するAIを実現するCooperative Intelligenceの研究を推し進める。さらに他社との協業で実現するオープンイノベーションも推進し、発表している。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」