会議の議事録を自動生成してくれる技術が、麻痺患者が言葉を取り戻す助けとなるかもしれない。
カリフォルニア大学バークレー校、サンフランシスコ校の研究チームが、重度の麻痺があり、発話が難しい患者が意図した言葉を、生成AIを使って大きな遅延なく音声に変換する装置を開発した。その結果、2005年に30歳で脳幹卒中になったAnn(アン)さんは、ほぼリアルタイムでコミュニケーションをとれるようになった。また、AIモデルは脳幹卒中を起こす前に録音されたAnnさんの声をもとに訓練されているため、生成される音声は本人の声に近い。
本研究の論文(Nature Neuroscienceに3月掲載)の共同筆頭著者で、カリフォルニア大学バークレー校の電気工学・コンピューターサイエンスの博士課程に在籍するCheol Jun Cho氏は、生成AIをさまざまな方法で活用することで従来の技術よりもはるかに短い時間で神経プロテーゼを改良できたと語った。
これは生成AIツールを医療・科学分野に応用することで、想定より短い時間で課題を解決できるようになった事例の1つだとCho氏は言う。使用した技術は、OpenAIの「ChatGPT」やAnthropicの「Claude」といったチャットボット、「Google Meet」の文字起こし機能に使われているものと変わらない。AIの専門家や支持者は、AIは新薬の開発や検査・診断の精度向上に大きく貢献する可能性があると指摘している。
「AIによって進歩のペースが加速している」とCho氏は言う。「かつては10年、20年かかると思われていたものが、今では3年程度に縮まっている」
Annさんを支援した技術はまだ概念実証の段階にあるが、今後さらに発展させ、より簡単に使えるツールを開発したいとCho氏は語った。
既存の神経プロテーゼには遅延の問題があり、患者が発話を試みてから実際に文章が生成され、音声として聞こえてくるまでに時間差があった。また、従来の技術では文章が終わるまで、次の文章に進めなかった。
「今回の大きな進歩は、文章が終わるのを待つ必要がなくなったことだ」とCho氏は言う。「今はAnnさんが話そうとした言葉をリアルタイムで解読し、ストリーミングできる」
この神経プロテーゼは、Annさんの脳の表面に微小電極アレイを埋め込み、ケーブルで複数のコンピューターと接続する。Annさんが何かを言おうとすると、脳から発話を制御する筋肉に信号が送られ、その信号を神経プロテーゼが解読する。Annさんが言いたい言葉を思い浮かべると、その信号をAIが運動皮質から読み取って音声に変えるというわけだ。
モデルを訓練するため、研究チームはディスプレイ上に文章を表示し、Annさんにその文章の発話を試みてもらった。その際の脳活動のデータをもとに運動皮質の信号をマッピングし、生成AIで欠落部分を補完した。
Cho氏は、今回の進歩をもとに、より多くの人が利用できる拡張性の高い装置を開発したいと考えている。
「今も精度を高め、遅延を減らす努力を続けている」とCho氏は言う。「もっと手軽に使えるものを作りたい」
今回の研究では、生成AIが複数の目的で活用された。1つは、Annさん自身の声を使えるようにすることだ。研究チームは脳幹卒中を起こす前に録音されていたAnnさんの声を使ってモデルを訓練し、Annさんの声を再現した。
「再現された声を初めて聞いた時、Annさんはとても興奮した様子だった」とCho氏はふりかえる。
思考をリアルタイムで音声に変換できるようになったことも大きい。Cho氏は、この機能をプレゼンや会議の内容をリアルタイムで文字起こししてくれるツールになぞらえる。
この装置は、AnnさんのコミュニケーションにAIツールを活用することを試みた2023年の研究をもとにしている。当時はAnnさんが言おうとしたことが音声に変換されるまでに、かなりの遅延があったが、今回の研究によって遅延を大幅に削減できた。Annさん自身も以前より自然に感じたとチームに伝えたという。
「(Annさんは)装置が身体の一部になり、自分自身で話をしたように感じたと教えてくれた」とCho氏は言う。
Nature Neuroscienceこの記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
日本のインターステラテクノロジズが挑む
「世界初」の衛星通信ビジネス
すべての業務を革新する
NPUを搭載したレノボAIパソコンの実力
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
先端分野に挑み続けるセックが語る
チャレンジする企業風土と人材のつくり方
NTT Comのオープンイノベーション
「ExTorch」5年間の軌跡