> >

AIと学生に同じ課題でレポートを書かせるとどうなるか--実験結果が公開

Greg Nichols （Special to ZDNET.com）翻訳校正：編集部2021年03月09日 07時30分

　人工知能（AI）はさまざまなことをうまくやってのける。その1つは大学の期末レポートだ。まあまあな出来だが、それでも率直に言ってすごいことだ。

　これは、学生と教育者のためのリソースサイトEduRefの実験結果だ。この実験は、深層学習による言語予測モデル「GPT-3」が匿名でレポートを提出し、合格点を獲得できるかどうかを明らかにするというものだ。

　EduRefは「われわれは複数の教授にレポートの課題を作ってもらい、その課題を大学を卒業したばかりの人々と学生のグループ、そしてGPT-3に提示してレポートを書かせた。GPT-3のものを含むレポートを匿名で教授に提出して採点させ、レポート提出者についての考察を聞くフォローアップ調査をした」という。その結果、AIは驚くべき自然言語能力を示した。

　GPT-3（Generative Pre-trained Transformer 3）というこのAIは、2020年6月にOpenAIがリリースした。OpenAIは、Elon Musk氏が共同創業者に名を連ねる研究企業だ。同社は、過去のどのAIよりも優れた言語構造を持つコンテンツを作成するAIの開発を目指して設立された。自然言語処理はここ数年、急速に発達しており、コンピューターは、まあまあ自然で文脈の整った文章を作れることが多くなってきている。

　だが、高度な自然言語処理のハードルはまだ非常に高い。アレンAI研究所の2019年の論文によると、AIには自分が書いていることを理解するために必要な、常識的な推論能力が根本的に欠けているという。この結論は、Winograd Schema Challengeなどの、AIによる常識的な推論能力を判定するための標準テストの批判的再評価に基づいている。

　そうしてみると、EduRefの実験結果は、さらに印象的なものになる。与えられたレポートのテーマは、米国史、（新型コロナ感染症ワクチンの有効性に関する）研究方法、創作文、法律と多岐にわたった。GPT-3は3科目で「C」以上を取り、落第点だったのは1科目だけだった。最も高得点だったのは米国史と法律の「B－」だった。新型コロナ感染症ワクチンの有効性に関する研究論文の評価は「C」で、これは人間のレポート提出者の1人より良い評価だった。

　全体として、教授の評価は、GPT-3が生成したレポートはやや技術的な印象ではあるが、文法、構文、単語の頻度の点で人間の作文を模倣できたことを示した。ご想像通り、AIのレポート作成にかかった時間は、人間の実験参加者たちよりもはるかに短かった。人間の参加者がレポート完成までにかかった時間は平均で3日間。一方のGPT-3は、3分～20分だった。

　EduRefによると「人間による補助なしでも、GPT-3が提出した課題は人間の書いたものとほぼ同じ評価を受けた」という。「GPT-3のレポートに対する教授のコメントの49.2％は文法と構文に関するもので、26.2％は要点と詳細に関するものだった。主張と構成についてのコメントもあったが、それぞれわずか12.3％と10.8％だった。人間のレポート提出者に対するコメントもほぼ同じ割合だった。文法と構文に関するコメントがほぼ50％、要点と詳細に関するものが25.4％、主張に関するものはほぼ13％、構成が10.4％だ」

　教育者にとって厄介な問題が生じる可能性は置いておくとして、この結果が示すのは、従来は明らかに人間だけの特徴だった自然言語処理が転換点に来ているということだ。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）