ソニーは、文字のニュース原稿を音声とCGに変換し、自動で読み上げる「ニュースマネージャー」の実証実験を、渋谷の大型街頭ビジョン「ソニービジョン渋谷」で実施。その試みや狙いについて聞いた。
ニュースマネージャーは、文字情報として入力されたニュース原稿をソニーのボイステクノロジー(音声対話技術)を応用して自然な音声発話に変換。さらにCGで生成されたデジタルアナウンサーの表情と連動させて読み上げる、ニュースの提供に特化したアプリケーションとして開発されたもの。
実証実験では、共同通信デジタルが提供するニュース原稿を、アニメ制作で知られるA-1 Picturesがデザイン・監修したデジタルアナウンサーが読み上げるというもので、実社会での有用性や、自動読み上げによるニュースの伝わり方などの検証が目的。約2分程度の番組を1日9回放送し、この実験は8月6日から22日までの17日間行われた。
今回のプロジェクトの中心人物であり、ボイステクノロジーの開発も手かげているソニー クラウド&サービスアプリ開発運用部門 エージェント企画開発室の倉田宜典氏は、そもそものきっかけとしてソニー・ミュージックコミュニケーションズからリリースされている音声対話型エージェントアプリ「めざましマネージャー」にあるという。
同アプリは朝の目覚めなどをキャラクターが声でサポートするというもので、そのなかに日々の天気予報をキャラクターが読み上げる機能がある。この天気予報は共同通信社から提供されていたことで、そこからニュースを読み上げて提供するソリューションの可能性を共同通信デジタルが見いだし、ソニービジョン渋谷という実験の場もソニー側から提供できることから、プロジェクトが立ち上がったと振り返る。
倉田氏によれば、共同通信デジタルはデジタルサイネージ向けにニュースコンテンツを配信する事業を手がけており、そのコンテンツの価値向上や新たな可能性を探る狙いがあるのではないかと推察。ソニー側としては合成音声を活用したビジネスソリューションのさらなる技術向上や発展性を探ることを目的としているという。
実証実験のおおまかな流れとして、共同通信デジタルがニュース原稿と写真1枚を提供。それを受け、まず原稿を音声合成に変換。尺やイントネーションの確認と調整を行い、ツールを活用して番組を生成。尺の調整のためにワンフレーズ程度のコメントをライブラリから選択し、最終確認を経て納品をするというもの。実証実験ではシステムや運用全体の課題、ボトルネックなどビジネス的に必要な情報を集めることも含まれている。
共同通信デジタルが提供しているニュース原稿はさまざなな長さがあり、「合成音声でニュースを聴く場合、長いとお経のような感覚になる」(倉田氏)として、集中して聴くことができる時間や文字数をシミュレーションした結果、現状では合成音声向けには100文字から200文字が適していると語る。
実証実験でプロトタイプレベルでは大きなコストはかけにくいという状況ではあったが、ソニーグループのツテをたどって一線級のクリエイターが参加。デジタルアナウンサーのCGキャラクター映像はA-1 Picturesが担当、キャラクターデザインはアニメ「ソードアート・オンライン」などを手がけた足立慎吾氏が担当している。
キャラクターに関しては、ニュースを読ませるデジタルアナウンサーという性質と、渋谷という場所柄や老若男女全年齢を対象していることから、キャラクターとしてのキャッチーさはあえて出さない方向で依頼をしたという。一方、当初は1キャラクターのみで実施する予定が、足立氏から複数のキャラクター案が提示され、キャラクターによる心象の比較もできるという観点から、最終的に2キャラクターで実施することになった。
音声合成エンジンには東芝製のToSpeakG3を採用。合成音声のもととなる声には、「けいおん!」の琴吹紬役や「ドキドキ!プリキュア」の菱川六花(キュアダイヤモンド)役などで知られる寿美菜子さんと、「七つの大罪」のエリザベス役や「アイドルマスター ミリオンライブ!」の北沢志保役などで知られる雨宮天(そら)さんという人気声優を起用した。
倉田氏によれば、寿さんの声は合成音声との相性がとてもよく、これまで作ってきた合成音声の評判としてもいいのだとか。一方雨宮さんの声のニュアンスを合成音声で表現することには苦心したところもあったが、ノウハウの蓄積として役立つところが多かったと振り返る。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」