近年AI(人工知能)は飛躍的に成長し、一般世間にも浸透し、個人の私生活を支え初めている。その背景には機械学習、深層学習(ディープラーニング)の発展がある。
1956年、アメリカのダートマス大学で行われた所謂「ダートマス会議」で初めてAIが提唱され、約70年を経てようやくAIはSFや絵空事などではなく、今や現実のものとなった。
AIはこの瞬間も各方面で驚異的なスピードで学習を重ね、様々な分野で人類の社会を支えている。そんな人工知能にまた大きな進化を遂げたようだ。
「人間と同じように見る」ことができるAI
MITの研究者たちは、AIが人間のように物事を見る為のフレームワークを開発した。
わずか数枚の画像から実世界の物体を認識することを学習し、その学習した物体に基づいてシーンを認識するという、シーン分析のための新しい人工知能システムだ。
例えば、ロボットが食卓シーンを処理する場合、人間には見えているボウルを無視したり、皿がテーブルの上に浮いていると誤認したり、フォークがボウルに寄りかかっているのではなく、ボウルを貫通していると誤認したりすることがある。
こういった認識エラーを克服するために、MITの研究チームは確率的プログラミングを用いてこのフレームワークを構築した。
検出オブジェクトをデータと照合するアプローチ
確率的プログラミングとは、カメラで記録された画像がシーンの候補と一致する可能性が高いかどうか、検出されたオブジェクトを入力データと照合することができるAIアプローチの事だ。
確率的な推論により、システムは、ミスマッチがノイズによるものなのか、シーンの解釈の誤りによるものなのかを推論し、さらなる処理で修正する。
シーンの中でオブジェクト同士の接触関係を推測し、その接触関係に関する常識的な推論を用いて、オブジェクトのより正確な位置を推測することができる。
この研究は、自動運転車の安全性を高めるだけでなく、片付いていないキッチン等を掃除するロボットのように、物体の複雑な配置を解釈する必要がある知覚システムの性能を高める可能性がある。
本研究は、12月に開催されるカンファレンス「The Neural Information Processing Systems」で発表される予定だ。
3DP3
このシステムは3DP3(3D Scene Perception via Probabilistic Programming)と名付けられた。開発するにあたり、研究者たちは、AI研究の黎明期にあった「コンピュータービジョン(CV)をコンピューターグラフィックス(CG)の『逆』と考えることができる」という概念を利用した。
CGは、シーンの表現に基づいて画像を生成することを主眼としているが、CVはその逆であると考えられる。この技術を確率論的プログラミングを用いたフレームワークに組み込むことで、学習性と拡張性を高めた。
確率論的プログラミングでは、世界のある側面に関する知識をコンピュータが解釈できるように書き出すことができるが、同時に、わからないこと、つまり「不確実性」を表現することもできる。
そのため、システムはデータから自動的に学習することが可能となり、また、ルールが成り立たない場合には自動的に検出することができる。
3DP3は、あるシーンの画像を解析するために、まずそのシーンにある物体を学習する。その物体を別の角度から撮影した画像を5枚見せただけで、3DP3はその物体の形状を学習し、その物体が空間に占める体積を推定する。そして、色や形を理解し、さまざまなシーンでその物体を認識することができるようになる。
少ないデータでの学習が可能に
これは、深層学習のアプローチよりもはるかに少ないデータ量だ。例えばDenseFusionのような物体認識フレームワークがオブジェクトの種類ごとに数千の学習サンプルが必要なのに対し、3DP3は数枚の画像しか必要とせず、代わりに各物体の形状のわからない部分については不確実性を報告する。
3DP3システムは、シーンを表現するために、どのオブジェクトが互いに接触しているかを示すグラフを生成する。これにより、3DP3はオブジェクトがどのように配置されているかをより正確に推定することができる。
更に他のモデルと併用することで、その精度を向上させることができる。例えば、ディープラーニングモデルは、テーブルの上にボウルが少し浮いていると予測するが、3DP3は接触関係の知識を持っているため、ボウルが浮いているという構成を「あり得ない」と判断し、修正を行う。
研究チームは、今後更にこのシステムをさらに進化させ、1枚の画像や動画の1フレームから対象物を学習し、異なるシーンでもその対象物をロバストに検出できるようにしたいと考えている。