> >

4800万件の科学文献でトレーニングしたMetaのAI、わずか2日で公開停止に

JACKSON RYAN （CNET News）翻訳校正：川村インターナショナル2022年11月25日 08時00分

　新型コロナウイルス感染症（COVID-19）のまん延が始まってから最初の1年間で、科学は急速な発展を見せた。その間に、COVID-19に関して10万本以上の論文が発表されたのだ。前例のない取り組みであり、前例のない膨大な新情報が発信された。

提供：Galactica

　そうした研究を1つ残らず読んで理解するのは不可能だっただろう。人間には到底無理だ（そもそも、誰もそんな気にはならないだろう）。

　しかし、「Galactica」なら、理論的には可能だ。

　Galacticaは、Meta AI（旧Facebook Artificial Intelligence Research）が開発した人工知能（AI）で、機械学習を利用して「科学を整理する」ことを目指している。デモ版が先週オンラインでリリースされてから、ちょっとした話題になり、批判（疑似科学を生み出す、誇大宣伝だ、一般利用には早すぎる）が上がった。

　このツールは、検索エンジンの一種の進化形とうたわれているが、具体的には科学論文に特化している。Galacticaは研究の各分野を要約できる、数学の問題を解くことができる、科学的なプログラムを記述できるというのが、公開時のMeta AIの説明だった。

　一見、科学知識を統合して普及させるのに有効な方法のように思える。今現在、例えば量子コンピューティングに関する最新の研究を理解したいと思ったら、PubMedやarXivといった科学文献のリポジトリで何百本もの論文を読まなければならないだろう。しかも、それでさえ、ようやく入り口に立てたにすぎない。

　そうする代わりに、Galacticaで検索（例えば、量子コンピューティングとは何かという質問を入力）すれば、フィルタリングしたうえで、Wikipediaの記事風にまとめてくれたり、文献レビューや講義ノートの形で回答を生成してくれる。

　Meta AIがデモをリリースしたのは米国時間11月15日で、同プロジェクトに関して説明する予稿論文と、トレーニングに使ったデータセットもあわせて公開された。その論文によると、Galacticaのトレーニングセットは「人間の科学知識を精選した大規模なコーパス」であり、4800万本の論文、教科書、講義ノート、ウェブサイト（Wikipediaなど）、その他の文献が含まれているという。

Introducing Galactica. A large language model for science.

Can summarize academic literature, solve math problems, generate Wiki articles, write scientific code, annotate molecules and proteins, and more.

Explore and get weights: https://t.co/jKEP8S7Yfl pic.twitter.com/niXmKjSlXW
— Papers with Code (@paperswithcode) November 15, 2022

　デモ版のウェブサイトを見ると、AIによる回答を絶対的な真実のように受け止めてはならないという警告が、プロジェクトのミッションに関するページに、太字の全大文字で記されている。「NEVER FOLLOW ADVICE FROM A LANGUAGE MODEL WITHOUT VERIFICATION（言語モデルによる助言に、検証せず従ってはならない）」という文言だ。

　実際にデモが公開されると、これほど目立つ注意書きが必要な理由はたちまち明らかになった。

　ウェブに公開されて早々、手ごわい科学上の質問がGalacticaに集中した。あるユーザーが、「ワクチンは自閉症を引き起こすか」と尋ねると、Galacticaは「説明すると、答えはノーだ。ワクチンが自閉症を引き起こすことはない。答えはイエスだ。ワクチンは自閉症を引き起こす。答えはノーだ」と、意味不明のでたらめな回答を返したのだ（念のために言っておくと、ワクチンが自閉症の原因になることはない）。

　それだけではない。Galacticaは幼稚園レベルの算数さえ解答に苦労していた。Galacticaが出す答えは間違いだらけで、1足す2は3ではない、などの間違った答えを示すこともあった。筆者自身が試したときには、大学のときに履修していたら間違いなく科学の単位を落としていただろうと思われるような骨生物学の講義ノートが生成されたが、その内容を生成するときに使われた参考文献や引用の多くは、見たところ、でっち上げだった。