7月の時点で、インターネットにはインデックス化されたページが約33億2000万件存在した。そこは相当に広大な場所であり、子猫の画像や、それ以上に意味のない情報がその大半を占めているとはいえ、たとえばスイングダンスや剣でシャンパンのボトルを開ける方法など、新しいスキルを学びたければ、いつでもネットで調べられる。
そして、それは、結局のところ、ロボットに作業の方法や認識の仕方を教えるのにも良い方法なのかもしれない。コーネル大学が7月に始動した「Robo Brain」プロジェクトは、「一般に公開されているインターネットリソースやコンピュータシミュレーション、実際のロボット実験から学習する大規模な計算システム」とされている。
皆さんがこの記事を読んでいる間も、Robo Brainは、10億枚の画像や12万本のYouTube動画、1億件のハウツー記事や電化製品のマニュアル、そして、コーネル大学の研究チームが研究室で他のロボットにこれまで実施したトレーニングをダウンロードしている。これらの資料を研究することにより、Robo Brainは、物体を認識する方法や使い方、さらには人間の言語や行動を学習する。そして、そうして得た知識を他のロボットに伝えることができるようになる。
コンピュータ科学助教授のAshutosh Saxena氏は次のように説明している。「ノートPCや携帯電話は、ユーザーが求めるあらゆる情報にアクセスできる。未知の状況に遭遇したら、ロボットはクラウドにあるRobo Brainに問い合わせればいい」
たとえば、ロボットがマグカップを目にした場合、それがコーヒーマグであること、液体を入れるために使われること、取っ手を持って運ぶことができること、中に液体が入っている時はこぼれないようにまっすぐ持たなければならないが、食洗機に出し入れする時など、空っぽの時は傾けてもいい、ということをRobo Brainから学習できる。
また、研究チームが「体系的な深層学習」と呼ぶ抽象化の層を含むこともできる。たとえば、ロボットが肘掛けイスを目にした場合、それが家具に分類され、さらに限定すれば、座るために使用される家具(さまざまなイスやスツール、ベンチ、カウチが含まれる下位分類)であることを知る。
続いて、この情報は、数学者が「マルコフモデル」と呼ぶ形で保存される。これは、巨大な分岐図のように、線(「エッジ」)でつながった一連の点(「ノード」)で表され、各状態は直前の状態によって決まる。
ノードは、行動や物体、画像の一部と考えられ、各ノードに確率(正しい状態である時のばらつきの度合い)が割り当てられる。たとえば、鍵にはさまざまな形状があるが、たいていは、握りの部分と軸部分、歯状の部分から成る。そこで、ロボットはつながったノードをたどり、確率限界内でマッチするノードを探すことができる。
プロジェクトについては現在、Robo Brainの公式サイトで閲覧できる。公式サイトでは、正しい行動や物体に賛成票を投じたり、研究チームに対するコメントを残したりして、プロジェクトを支援できる。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス