> >

NVIDIA、2D画像から3Dシーンを瞬時に作成する「Instant NeRF」を開発

Stephanie Condon （ZDNET.com）翻訳校正：矢倉美登里吉武稔夫（ガリレオ）2022年03月28日 12時23分

　メタバースは、今まさに形になりつつあり、NVIDIAはそこに大きく賭けた。しかし、NVIDIAのようなグラフィックの先駆者にとっても、3D世界のレンダリングは技術的に複雑な課題だ。

　NVIDIAは先週開催した人工知能（AI）開発者カンファレンスGraphics Technology Conference（GTC）で、少数の2D画像から3Dシーンを再構築する「インバースレンダリング」の新たな手法を発表した。インバースレンダリングは、AIを利用して現実世界における光の振る舞いを推定する。「NVIDIA Research」チームが開発した手法により、プロセス全体がほぼ瞬時に実行される。

　この手法は、多様なユースケースに応用できる。バーチャル世界のアバターやシーンを制作したり、ビデオ会議の参加者やその周囲にあるものを3Dに取り込んだり、3Dデジタルマップ用のシーンを再構築したりするのにも利用可能だ。

　従来の手法を利用した3Dシーンの構築は、表現するものの複雑さや解像度にもよるが、数時間以上かかる場合がある。「Neural Radiance Fields（NeRF）」と呼ばれる技術は、AIを使ってこのプロセスを高速化する。NeRFは、ニューラルネットワークを利用して、入力された複数の2D画像を基に、現実的な3Dシーンを再現してレンダリングする。小規模なニューラルネットワークを効率的に訓練し、3D世界の任意の地点からあらゆる方向に発せられる光の色を予測して、データのない場所を埋める。

　初期のNeRFモデルは、質の高いレンダリングを数分で生成したが、訓練には何時間もかかった。NVIDIA Researchは、ニューラルネットワークの高速な訓練と迅速なレンダリングを組み合わせた「Instant NeRF」を開発した。NVIDIAによると、Instant NeRFはこれまでで最速のNeRF手法で、1000倍以上のスピードアップを実現した例もあるという。

　Instant NeRFを開発するため、NVIDIAは「マルチ解像度ハッシュグリッドエンコーディング（multi-resolution hash grid encoding）」と呼ばれる新しいインプットエンコーディング手法を考案した。この手法は、NVIDIAのGPUで効率的に実行できるように最適化されている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）