沖電気工業(OKI)は7月24日、口調や抑揚などの特徴も含め、自分の肉声に近い音声を再現する音声合成ソフト「Polluxstar(ポルックスター)」を発売した。価格は、個人使用向けPC版で105万円、ビジネス用途も別途受け付ける。
本人の口調や雰囲気など、自分の声を再現するために必要な音声データを効率よく収集し、音声データベースを作成。このときの音声合成に用いる「コーパスベースTTS技術」は、国際電気通信基礎技術研究所(ATR)が開発した大規模コーパス向けの音声合成技術と、OKI独自の小規模コーパス向けデータベース化技術を組合せた。
音声データベースの構築に必要な期間は、音声収録を含めて約1か月。あらかじめ用意された発声原稿に、ユーザー固有のカスタム原稿を加えることで、その人特有の言い回しの雰囲気を高めることができる。決まり文句や親しい人への呼びかけなど、最もその人らしさが表れる特定のフレーズの音声を事前に登録しておくことも可能で、入力された文字列から登録されたフレーズを認識すると、その音声をそのまま出力する。これらの工夫により、合成音との音質的なギャップなしに、本人の個性を伝える自然で微妙なニュアンスを再現できるようになった。
多くの実証実験などで得られたノウハウに基づき、日常生活で活用できるユーザーインターフェイスを実現。チャットソフトの要領でリアルタイムにキーボードから文章を入力したり、よく使う言い回しなどをあらかじめ登録しておき、テキストフィーダによってワンクリックで音声出力することが可能。1対1の対話から大勢を前にしたスピーチまで、さまざまな状況に対応できる。合成する声質は特定1話者で、音声収録量は合計約60分相当の音声データ。対応OSは Windows Vista、XP。
なお、同製品の開発にあたっては、大阪芸術大学の牧泉教授の協力を得て、自分の声の再現が実生活でどの程度の価値を生むかを検証し、日常生活でも有効に活用できるレベルであることを確認したという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス