> >

NTT、移動中の景色や周辺情報に基づいて雑談できる対話AIを世界で初めて実現

飯塚　直2022年05月31日 08時00分

　NTTは5月30日、クルマから見える移り変わる景色を話題に、パートナーのように知識、共感などを応答する対話AIを開発したと発表した。

　NTTは、人の日々の“コミュニケーションパートナーAI”の実現を目指し、対話を通して人の興味や思考を引き出したり人の対話欲求を充足したりする、雑談対話AIの開発に取り組んでいる。近年の深層学習技術の進展によって、対話AIの性能は急激に向上しており、同社でも日本語最大規模の学習データを用いた高性能日本語対話AIを構築しているという。

　一方、従来の対話AIの課題として、入力できる情報がテキスト情報のみに限られる点があると指摘。日々のコミュニケーションパートナーを目指す上では、身の回りの実際の状況を理解し、対話に取り込むことが求められる。そこで同社は、クルマなどの移動体から見える移り変わる景色を話題として、パートナーのように知識応答や共感応答をする対話AIを開発。常に自己位置が変化する状況下で、自己の周囲の景色やそこにひも付いた情報に基づいて雑談対話を行う対話AIを世界で初めて実現したとしている。

　具体的には、超大規模ウェブ対話データ、高品質対話データと、深層学習技術（Transformer Encoder-decoderモデル）を組み合わせることで、日本語最大規模の対話モデルを構築。ルールや係り受け関係などの統計情報に基づく従来のモデルに比べ、抜本的に異なるレベルで複雑な文脈の理解や自然な発話の生成を実現できる。雑談AIの性能を競う「対話システムライブコンペティション3」でも、圧倒的な成績で優勝するなどの成果を挙げているという。

　なお、対話モデルや対話データは、検証、評価目的に限定して無償公開。幅広いフィールドで構築したモデルの効率的な検証を進めている。

　また、NTTによると、従来の大規模対話モデルはテキストのみを入力情報として扱うため、テキストに閉じた対話では自然に雑談できるものの、周辺の状況に即した対話を行うことは困難だという。人とドライブを楽しむ対話AIを実現するには、自己位置周辺の景色画像や外部のスポット情報を適切に処理しながら、対話に反映させる必要があると指摘している。

　NTTはこうした課題に対し、画像内の物体の情報と自己位置周辺のスポット情報を大規模対話モデルに導入する技術を開発。

　画像内に写っている物体群は、物体検出と呼ばれる技術で抜き出し、それぞれを大規模対話モデルで扱える数値情報（埋め込みベクトル）に変換して入力。スポット情報は、自己位置近傍のレストランなどのスポットに関する情報（ジャンル、名称など）をテキスト形式で取り出し、対話の文脈と同様の形式で入力するという。

　これらの入力情報を大規模対話モデルに反映、対話AIの発話を出力。また、このように設計したモデルをドライブ対話データ（運転画像を見ながらガイド役とドライバー役の間で行った対話）で学習することで、自己位置周辺の景色画像、スポット情報に基づく発話生成を実現したという。

画像、スポット情報の入力が可能な対話モデル

　なお、ドライブ中の自己位置は逐次的、連続的に変化する。対話AIでは、人がどの時点の画像やスポット情報を話題としているのかを理解しつつ、新規に入力された情報にも適切なタイミングで触れながら対話する必要がある。

　今回、対話文脈からの話題画像推定と、逐次的に入力された画像に対する発話の話題強度の推定技術を開発し、それらを適切にタイミング制御に組み込むことで、これらの課題を解決。これにより、利用者の発話に自然に応じながら、強く興味を惹かれるであろう情報を適切なタイミングで提供する、新感覚のドライビングパートナーとなる対話AIを実現しているという。