Appleは、7月に開設した「Apple Machine Learning Journal」を更新し、新たに一連の論文を掲載した。この中で同社は、デジタルアシスタント「Siri」について、自社のAI技術を用いた音声品質向上の過程を明らかにしている。この論文の最後にあるサンプルでは、「iOS 9」から現行「iOS 10」、そして2017年秋にリリース予定の「iOS 11」までの間に、どれほど音声品質が向上したかを実際に聴くことができる。
AppleのSiri開発チームは、「この新しい音声は、従来のものと比べて、明らかに優れていると評価された」と論文で述べた。
Appleは秘密主義で知られているが、機械学習に関しては、社内のエンジニアが内部の状況を紹介できるようにしている。こうした技術に倣うには、特許や専門的なノウハウなど、数多くの障壁があるものの、Appleが研究論文を公開することは、テクノロジ業界全体で技術水準の向上を促すのに役立つ可能性がある。
「iOS 11では、Siriの音声の自然さ、人間らしさ、表現力を改善することを目的として、新しい女性ナレーターを選んだ」と、Appleは述べている。「最適なナレーターを決めるにあたっては、何百人もの候補者を評価した。その上で、20時間以上におよぶ音声を録音し、ディープラーニングに基づいた新しいTTS(テキスト読み上げ)技術を用いて、新たなTTS音声を構築した」
新しいSiriの音声には、ニューラルネットワークによる処理が用いられている。この技術は、状況に応じて口頭で伝えられた日付などをわかりやすい形式で示す判断や、聞き取りにくい音声からでもSiriに新しい言語を覚えさせる訓練にも利用されている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス