PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
Charles R. Qi* Hao Su* Kaichun Mo Leonidas J. Guibas
Stanford University
Abstract
Point cloud ๋ ๊ธฐํํ ๋ฐ์ดํฐ ๊ตฌ์กฐ์์ ์ค์ํ ์์์ด๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์๋ค์ Point cloud ์ ๋น๊ท์น์ ์ธ ๊ตฌ์ฑ ๋๋ฌธ์ ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ 3D voxel girds๋ Image collections๋ก ๋ณํํ๋ค.
=> ์ด์ ๊ฐ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋ํ๊ฒ ์์ธํ๊ฒ ์ ์ฅํ๊ฑฐ๋ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด ๋ถํ์ํ๊ฒ ๋ง์์ ธ์ ์ฑ๋ฅ์ ํ๋ ์์คํ
๋ฌธ์ ๊ฐ ๋ฐ์ํ ์๋ ์๋ค.
๊ทธ๋ฆฌํ์ฌ, ์ด ๋
ผ๋ฌธ์์๋ input์ผ๋ก ๋ค์ด์ค๋ points๋ค์ ์์ด ๋ถ๋ณ์ฑ(Permutation invariance)์ ์ ๋ฐ์ํ์ฌ ์ง์ ์ ์ผ๋ก Point cloud๋ฅผ ์ฒ๋ฆฌํ๋ novel type์ neural network๋ฅผ design ํ์๋ค.
=> PointNet์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๊ทธ๋๋ก ๋ฐ์๋ค์ด๋ฉด์, ์
๋ ฅ๋ ์ ๋ค์ ์์๊ฐ ๋ฐ๋์ด๋ ๋์ผํ๊ฒ ์ฒ๋ฆฌ๋ ์ ์๋๋ก ์ค๊ณ๋์๋ค.
๊ทธ๋์ ๊ทธ novel type์ neural network ๋ฅผ ์ด ๋ ผ๋ฌธ์์๋ PointNet์ผ๋ก ์ง์นญํ๋ค. ์ด๋ ๊ฐ์ฒด ๋ถ๋ฅ(object classification), ๋ถ๋ถ ๋ถํ (part segmentation), ์ฅ๋ฉด ์๋ฏธ ๋ถ์(scene semantic parsing)์ ๋ค์ํ๊ฒ ํฌํจํ application์ ์ํด ํตํฉ๋ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํ๋ค.
PointNet์ ๊ฐ๋จํ์ง๋ง ๋งค์ฐ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ด๋ค. ์ค์ฆ์ ์ผ๋ก SOTA (State of The Art) ๋ชจ๋ธ๋ณด๋ค ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ๊ฐํ performance๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
Introduction
์ ํ์ ์ธ Convolutional architectures ์ ์ด๋ฏธ์ง๋ 3D voxel ์ฒ๋ผ ์ผ์ ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ๋ํด ํจ์จ์ ์ธ ๊ฐ์ค์น ๊ณต์ (weight sharing)์ ์ต์ ํ ์์ (other kernel optimizations) ์ ํ ์ ์๋๋ก ์ค๊ณ๋์๋ค.
* ์ฌ๊ธฐ์ "Convolutional" ์ ํฉ์ฑ๊ณฑ์ด๋ผ๋ ๋ป์ผ๋ก, ์ฃผ๋ก "Convolutional Neural Network(CNN)"์์ ์ฌ์ฉ๋๋ค. ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ด๋ฏธ์ง๋ ์๊ณ์ด ๋ฐ์ดํฐ ๊ฐ์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ๋ก, ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ํตํด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ถ์ํ๊ณ ์ค์ํ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํ๋ค. CNN์ ์ฃผ๋ก ์ด๋ฏธ์ง ์ธ์, ๊ฐ์ฒด ํ์ง ๋ฑ์์ ๋ง์ด ์ฌ์ฉ๋๋ค.
PointNet ์ด ์ ์ ์์ด ๋ถ๋ณ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๊ณ์ฐ ๊ณผ์ ์์ ๋์นญ์ฑ(Symmetrizations) ์ ๋ฐ์ํด์ผํ๋ฉฐ, ๋ ๋์๊ฐ ๊ฐ์ฒด ๋ณํ(Rigid motions) ์ ๋ํด์๋ ๋คํธ์ํฌ๊ฐ ๊ฒฌ๊ณ ํ๊ฒ ๋์ ํด์ผํ๋ค.
* ์ฌ๊ธฐ์ "Rigid motions" ๋ ๊ฐ์ฒด ๋ณํ์ ์๋ฏธํ๋ฉฐ, ๋ฌผ์ฒด๊ฐ ํํ๋ฅผ ์ ์งํ ์ฑ๋ก ์์น๋ ๋ฐฉํฅ์ด ๋ณํ๋ ์์ง์์ ๊ฐ๋ฆฌํจ๋ค. ์ฆ, ๋ฌผ์ฒด๊ฐ ํ์ ํ๊ฑฐ๋ ํํ ์ด๋(๋ณ์ง ์ด๋)ํ๋๋ผ๋ ๊ทธ ๋ชจ์์ด๋ ํฌ๊ธฐ๊ฐ ๋ณํ์ง ์๋ ๋ณํ์ด๋ค.
PointNet ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์, ์ ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ํ ํ๋์ ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๊ฑฐ๋, ๊ฐ ์ ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ๋ถ๋ฅ(์ธ๊ทธ๋จผํธ ๋๋ ๋ถ๋ถ ๋ ์ด๋ธ)๋ฅผ ํ ์ ์๋ ๊ตฌ์กฐ์ด๋ค.
PointNet ์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ด์์ ์ค์ํ ์ ๋ค์ ์๋ณํ๊ณ , ์ ๊ทธ ์ ๋ค์ด ์ ์๋ฏธํ์ง์ ๋ํ ์ ๋ณด๋ฅผ ํ์ตํ๋ฉด์ ํด๋น ์ ๋ค์ ์ธ์ฝ๋ฉํ๋ค. ๋คํธ์ํฌ์ ์ต์ข ๊ณ์ธต์์๋ ์ด์ ๋จ๊ณ์์ ํ์ต๋ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ ์ฒด ํํ๋ฅผ ๋ํํ๋ ์ ์ญ ํน์ง์ ๋ง๋ค์ด ํํ๋ฅผ ๋ถ๋ฅํ๊ฑฐ๋, ๊ฐ๊ฐ๊ทธ์ด ์ ์ ๋ํ ๋ถํ ๋ ์ด๋ธ์ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋๋ค.
์ด๋ฌํ PointNet์ ์ ๋ ฅ ํ์์ ๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ ๋ค์ด ๋ ๋ฆฝ์ ์ผ๋ก ๋ณํ๋๊ธฐ ๋๋ฌธ์ ๊ฐ์ฒด ๋๋ ์ํ ๋ณํ์ ์ ์ฉํ๊ธฐ ์ฝ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๋ ๊ณผ์ ์ ๋์ฑ ์ฝ๊ฒ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ฌํ ๋ณํ ๋คํธ์ํฌ๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ํ์คํํจ์ผ๋ก์จ PointNet์ ์ฑ๋ฅ์ ๋ ๋์ผ ์ ์๋ค.
Related Work
1. Point Cloud Features
์์ฝ : ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด ๊ธฐ์กด์ ์์์ ํน์ง๋ค์ด ์์ ์ ๋ง์ถฐ ์ค๊ณ๋๋ฉฐ, ๋ณธ์ง์ (intrinsic) ๋๋ ์ธ์ ๋ถ๋ณ์ฑ(extrinsic)์ ๊ณ ๋ คํ์ฌ ์ค๊ณ๋์ง๋ง, ์ต์ ์ ํน์ง ์กฐํฉ์ ์ฐพ๋ ๊ฒ์ ๋ณต์กํ๋ค.
2. Deep Learning on 3D Data
1 . ์์ฝ : 3D ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด Volumetrix CNN์ด Voxelํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋ฐ์ดํฐ ํฌ์์ฑ๊ณผ ๊ณ์ฐ ๋น์ฉ ๋ฌธ์ ๋ก ์ธํด ํด์๋์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ์ด๋ฅผ ๊ฐ์ ํ๋ ค๋ ์๋๊ฐ ์์์ง๋ง ์ฌ์ ํ ๋งค์ฐ ํฐ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ฒ๋ฆฌ์๋ ์ด๋ ค์์ด ์๋ค.
2. ์์ฝ : 3D ๋ฐ์ดํฐ๋ฅผ 2D ์ด๋ฏธ์ง๋ก ๋ณํํ์ฌ ์ฒ๋ฆฌํ๋ Multiview CNN ๋ฐฉ์์ด 3D ํํ ๋ถ๋ฅ์์๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋์ง๋ง, ์ด๋ฅผ ๋ ๋ณต์กํ ์ฅ๋ฉด ์ดํด(scence understanding) ๋, ์ ๋ถ๋ฅ(point classification), ํํ ์์ฑ(shape completion)๊ณผ ๊ฐ์ 3D ์์
์ผ๋ก ํ์ฅํ์ฌ ์ ์ฉํ๋ ๋ฐ์๋ ์ด๋ ค์์ด ์๋ค.
3. ์์ฝ : Spectral CNN์ ํน์ ์ ํ์ Mesh, ํนํ ์ ๊ธฐ์ฒด ๊ฐ์ ๋ฌผ์ฒด์ ์ ๋ง์ง๋ง, ๊ฐ๊ตฌ์ฒ๋ผ ํํ๊ฐ ๋ค์ํ๊ณ ๋ฑ๊ฑฐ๋ฆฌ ๋ณํ์ด ์ด๋ ค์ด ๋น๋ฑ๊ฑฐ๋ฆฌ(non-isometric) ํ์์๋ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
4. ์์ฝ : Feature-based DNN (Deep Neural Network) ๋ฐฉ์์ 3D ๋ฐ์ดํฐ๋ฅผ ํ์ ํน์ง ์ถ์ถํ์ฌ ๋ฒกํฐ๋ก ๋ณํํ ๋ค์, Fully Connected Network๋ฅผ ์ฌ์ฉํด ํ์์ ๋ถ๋ฅํ๋ค. ํ์ง๋ง ์ฑ๋ฅ์ ์ถ์ถ๋ ํน์ง๋ค์ด ์ผ๋ง๋ ๊ฐ๋ ฅํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ ํํํ๋๋์ ๋ฌ๋ ค ์๋ค๋ ํ๊ณ๊ฐ ์๋ค
3. Deep Learning on Unordered Sets
์์ฝ : ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ์์๊ฐ ์ค์ํ์ง ์์ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ฅ๋ฌ๋ ์ฐ๊ตฌ๋ ์ฃผ๋ก ์์๋ ๊ท์น์ด ์๋ ๋ฐ์ดํฐ์ ์ง์ค๋์ด ์์ผ๋ฉฐ, ํฌ์ธํธ ์งํฉ์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ๋ ์๋์ ์ผ๋ก ์ ๋ค.
Problem Statement
์ด ๋ ผ๋ฌธ์์๋ ์์๊ฐ ์๋ ์ ์งํฉ์ ์ง์ ์ ๋ ฅ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ๋ค.
ํฌ์ธํธ ํด๋ผ์ฐ๋ : {Pi | i = 1, …, n} ๊ณผ ๊ฐ์ด 3D ์ ๋ค์ ์งํฉ์ผ๋ก ํํ๋๋ฉฐ, ์ฌ๊ธฐ์ ๊ฐ ์ Pi๋ (x, y, z) ์ขํ์ ์์, ๋ฒ์ ๋ฑ๊ณผ ๊ฐ์ ์ถ๊ฐ์ ์ธ ํน์ง ์ฑ๋์ ๊ฐ์ง ๋ฒกํฐ์ด๋ค. +) ๋จ์์ฑ๊ณผ ๋ช ํ์ฑ์ ์ํด, ๋ณ๋๋ก ์ธ๊ธํ์ง ์๋ ํ (x, y, z) ์ขํ๋ง์ ์ ์ ์ฑ๋๋ก ์ฌ์ฉํ๋ค.
๊ฐ์ฒด ๋ถ๋ฅ์ ๊ฒฝ์ฐ K๊ฐ์ ํ๋ณด ํด๋์ค์ ๋ํด ์ ์๋ฅผ ๊ณ์ฐํ๊ณ , ์๋ฏธ๋ก ์ ๋ถํ ์์๋ ๊ฐ ์ ์ ๋ํด ํด๋นํ๋ m๊ฐ์ ์๋ฏธ ๋ฒ์ฃผ์ ๋ํ ์ ์๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ ์ ์ ๋ถ๋ฅํ๋ค.
Deep Learning on Point Sets
n์ฐจ์ ์ ํด๋ฆฌ๋ ๊ณต๊ฐ(R^n) ์์์ ์ ์งํฉ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ๋น์์์ฑ(Unordered)
: ์ด๋ฏธ์ง์ ํฝ์ ๋ฐฐ์ด์ด๋ ๋ณผ๋ฅจ ๊ทธ๋ฆฌ๋์ ๋ณต์ ๋ฐฐ์ด๊ณผ ๋ฌ๋ฆฌ, ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ํน์ ํ ์์๊ฐ ์๋ ์ ๋ค์ ์งํฉ์ด๋ค. ์ฆ, ๋คํธ์ํฌ๊ฐ N ๊ฐ์ 3D ์ ์งํฉ์ ์ฒ๋ฆฌํ ๋, ์ ๋ ฅ ๋ฐ์ดํฐ์ ์์๊ฐ ๋ณ๊ฒฝ๋์ด๋ (N!๊ฐ์ ์์ด์ผ๋ก์จ) ๊ฒฐ๊ณผ๊ฐ ๋ณํ์ง ์์์ผ ํ๋ค.
2. ์ ๊ฐ ์ํธ์์ฉ(Interaction among points)
: ํด๋ผ์ฐ๋์ ์ ๋ค์ ๊ฑฐ๋ฆฌ ์ฒ๋๊ฐ ์๋ ๊ณต๊ฐ์์ ๋์จ๋ค. ์ฆ, ์ ๋ค์ ๊ณ ๋ฆฝ๋์ด ์์ง ์์ผ๋ฉฐ, ์ด์ํ ์ ๋ค์ด ์๋ฏธ ์๋ ๋ถ๋ถ ์งํฉ์ ํ์ฑํ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฐ๊น์ด ์ ๋ค ์ฌ์ด์ ์ง์ญ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ ์ ์์ด์ผ ํ๋ฉฐ, ์ง์ญ ๊ตฌ์กฐ๋ค ๊ฐ์ ์กฐํฉ์ ์ํธ์์ฉ์ ์ดํดํ ์ ์์์ผ ํ๋ค.
3. ๋ณํ ๋ถ๋ณ์ฑ(Invariance under transformations)
: ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ๊ธฐํํ์ ๊ฐ์ฒด์ด๋ฏ๋ก ํ์ต๋ ํํ์ ํน์ ๋ณํ์ ๋ํด ๋ถ๋ณ์ฑ์ ๊ฐ์ ธ์ผ ํ๋ค. ์๋ฅผ ๋ค์ด์, ์ ๋ค์ด ์ ์ฒด์ ์ผ๋ก ํ์ ํ๊ฑฐ๋ ์ด๋ํ๋๋ผ๋ ์ ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ฒ์ฃผ๋ ์ ๋ค์ ๋ถํ ์ด ๋ณํ์ง ์์์ผ ํ๋ค.
์ ๊ทธ๋ฆผ์ PointNet ์ Architecture์ด๋ค.
- classification network๋ n ๊ฐ์ points ๋ฅผ ์
๋ ฅ๊ฐ์ผ๋ก ๋ฐ๋๋ค.
- Max pooling* ์ ์ด์ฉํ์ฌ point features ๋ฅผ ํตํฉํ๋ค.
- ์ถ๋ ฅ๋ฐ์ k ๊ฐ์ ํด๋์ค์ ๋ํ ๋ถ๋ฅ ์ ์์ด๋ค.
- segmentation network๋ classification net์ ๋ํ ํ์ฅ์ด๋ค. ์ด๋ global๊ณผ local features๋ฅผ ๊ฐ ํฌ์ธํธ ์ ์๋ง๋ค concaternate ํ๋ค.
- MLP* ๋ ๋ค์ธต ํผ์
ํธ๋ก ์ผ๋ก, ๊ดํธ ์์ ์๋ ์ซ์ ๊ฐ๋ค์ ๊ฐ ์ธต์ ํฌ๊ธฐ(๋ด๋ฐ ๊ฐ์)๋ฅผ ๋ํ๋ธ๋ค.
- ๋ชจ๋ ์ธต์ ReLU ํ์ฑํ ํจ์์ ํจ๊ป ๋ฐฐ์น์ ๊ทํ(BatchNorm) ์ด ์ฌ์ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋น์ ํ์ฑ์ ์ถ๊ฐํ ์ ์๋ค.
- ๋ถ๋ฅ ์์
์ ๋ง์ง๋ง MLP์์๋ ๋๋กญ์์* ์ด ์ ์ฉ๋์ด ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ์ญํ ์ ํ๋ค.
* Max pooling ์ด๋, ๋ฅ๋ฌ๋์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ค์ด ์ํ๋ง ๋ฐฉ๋ฒ ์ค ํ๋๋ก, ์ฃผ์ด์ง ์์ญ์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ํํ์ฌ ์ถ๋ ฅํ๋ ์ฐ์ฐ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์์ ํน์ง ๋งต์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ฉด์ ์ค์ํ ์ ๋ณด๋ฅผ ์ ์งํ๊ณ , ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
์ฃผ์ ๋ชฉ์ ์ ๊ณต๊ฐ์ ์ฐจ์์ ์ค์ด๋ฉด์๋ ๊ฐ์ฅ ์ค์ํ (๊ฐ์ฅ ํฐ ๊ฐ) ํน์ง์ ์ถ์ถํ๋ ๊ฒ์ด๋ค. ์ด๋ก ์ธํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋๊ฑฐ๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ํจ๊ณผ๋ฅผ ๊ธฐ๋ํ ์ ์๋ค.
* MLP๋ fully connected network์ ๊ธฐ๋ณธ ๊ตฌ์ฑ ์์๋ก, ์ฃผ๋ก ๋น์ ํ ๋ณํ์ ํตํด ์ ๋ ฅ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ค.
* ๋๋กญ์์์ ์ผ๋ถ ๋ด๋ฐ์ ๋ฌด์์๋ก ๋นํ์ฑํํ์ฌ ๋คํธ์ํฌ๊ฐ ๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ๋ด๋๋ก ๋๋๋ค.
์ ์ฒด ๋คํธ์ํฌ ์ํคํ ์ฒ๋ ๋ถ๋ฅ ๋คํธ์ํฌ์ ๋ถํ ๋คํธ์ํฌ๊ฐ ๋ง์ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ๋ค. ์ด ๋คํธ์ํฌ์์๋ ์ธ ๊ฐ์ง์ ์ฃผ์ ๋ชจ๋์ด ์๋ค.
1. ๋ชจ๋ ์ ๋ค๋ก๋ถํฐ ์ ๋ณด๋ฅผ ์ง๊ณํ๊ธฐ ์ํ ๋์นญ ํจ์๋ก์์ max pooling ์ธต [PointNet ๊ตฌ์กฐ ๊ทธ๋ฆผ์์ ๋นจ๊ฐ ์์๋ถ๋ถ]
์ ๋ ฅ ์์ด์ ๋ํด ๋ถ๋ณ์ฑ์ ๊ฐ์ง๋ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ์ธ๊ฐ์ง ์ ๋ต์ด ์๋ค.
- ์
๋ ฅ์ ์ ๋ ฌํ์ฌ ํ์ค ์์(Canonical Order) ๋ก ๋ฐฐ์น
: ์
๋ ฅ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌํด์ ์ผ์ ํ ํ์ค ์์๋ฅผ ๋ฐ๋ฅด๊ฒ ๋ง๋ ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด ํญ์ ๊ฐ์ ์์๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด ์
๋ ฅ ์์๊ฐ ๋ฐ๋๋๋ผ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ผํ๊ฒ ๋์จ๋ค.
=> ์ ์งํฉ์ ์ ๋ ฌํ ํ ์ฒ๋ฆฌํด๋ ์์ ๋ฌธ์ ๋ฅผ ์์ ํ ํด๊ฒฐํ์ง ๋ชปํ๊ณ , ๋ชจ๋ธ์ด ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ธฐ ์ด๋ ต๋ค.
=> ์ ๋ ฌ์ผ๋ก ๊ทผ๋ณธ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ ํ ์ ์๋ค.
- ์
๋ ฅ์ ์ํ์ค๋ก ์ทจ๊ธํ๊ณ RNN ํ๋ จ
: ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์๊ฐ ์๋ ์ํ์ค๋ก ๊ฐ์ฃผํ์ฌ ์ํ ์ ๊ฒฝ๋ง(RNN, Recurrent Neural Network) ์ ์ฌ์ฉํด ํ์ตํ๋ค. ํ์ง๋ง ๋ค์ํ ์์ด(์
๋ ฅ ์์)์ ๋ชจ๋ ๊ณ ๋ คํด์ผ ํ๋ฏ๋ก, ๋ชจ๋ ๊ฐ๋ฅํ ์์ด์ ๋ํด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ(Augment) ํ์ฌ ํ์ตํด์ผ๋๋ค. ์ฆ, ๊ฐ์ ๋ฐ์ดํฐ๋ผ๋ ์์๋ฅผ ๋ค๋ฅด๊ฒ ๋ฐฐ์นํ ์ฌ๋ฌ ๋ฒ์ ์ ๋ชจ๋ธ์ด ํ์ตํ๊ฒ ๋๋ค.
=> RNN์ ์ด์ฉํ ์ ๊ทผ์ ์
๋ ฅ ์์์ ์ด๋ ์ ๋ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํ์ง๋ง, ์ ์งํ๊ณผ ๊ฐ์ด ์๋ง์ ์
๋ ฅ์ ๋ค๋ฃฐ ๋์๋ ๊ทธ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ฉฐ, ์ค์ ๋ก ์คํ๊ฒฐ๊ณผ์์๋ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ ์๋ ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค๋ ์ ์ ์ค๋ช
ํ๊ณ ์๋ค.
- ๋์นญ ํจ์ ์ฌ์ฉ
: ์
๋ ฅ๋ ๊ฐ ์ ์์ ์ป์ ์ ๋ณด๋ฅผ ์ง๊ณํ๊ธฐ ์ํด ๋์นญ์ ์ธ ํจ์(Symmetric function, ์์์ ์ํฅ์ ๋ฐ์ง ์๋ ํจ์)๋ฅผ ์ฌ์ฉํ๋ค. ๋์นญ ํจ์๋ n๊ฐ์ ๋ฒกํฐ(์: ์
๋ ฅ๋ ์ ๋ค)๋ฅผ ๋ฐ์๋ค์ด๊ณ , ์
๋ ฅ ์์์ ์๊ด์์ด ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ค. ์๋ฅผ ๋ค์ด, ๋ง์
(+)๊ณผ ๊ณฑ์
(*)์ ์
๋ ฅ ์์์ ์ํฅ์ ๋ฐ์ง ์๋ ๋์นญ์ ์ธ ์ดํญ ํจ์์ด๋ค.
=> ํจ์ h๋ ๋ค์ธต ํผ์
ํธ๋ก (MLP) ๋คํธ์ํฌ๋ก ๊ทผ์ฌํ๊ณ , ํจ์ g๋ ๋จ์ผ ๋ณ์ ํจ์์ max pooling ํจ์์ ์กฐํฉ์ผ๋ก ๊ทผ์ฌํ๋ค.
=> ์ค์ ๋ฌธ์ ์ ์ ์ฉํด๋ณด๋ฉด point n๊ฐ๊ฐ mlp๋ก ์ด๋ฃจ์ด์ง function์ input์ผ๋ก ๊ฐ๊ฐ ๋ค์ด๊ฐ๊ณ output์ผ๋ก ๋์จ๊ฐ๋ค์ max poolingํฉ๋๋ค.
=> ์คํ ๊ฒฐ๊ณผ ์ด ๋ฐฉ๋ฒ์ด ์ ์๋ํจ์ ํ์ธํ๋ค. ๋ค์ํ h๋ฅผ ํตํด ์ฌ๋ฌ f๋ฅผ ํ์ตํ์ฌ ์ ์งํฉ์ ๋ค์ํ ์์ฑ์ ํฌ์ฐฉํ ์ ์์๋ค.
=> ์ด๋ค ์์๋ก point๊ฐ model๋ก ๋ค์ด๊ฐ๋๋ผ๋ max pooling์ ํตํด ๋์ค๋ ๊ฐ์ ๋์ผํด์ง๋ค.
* ๋์นญ ํจ์๋ N๊ฐ์ ๋ฒกํฐ๋ฅผ ์ ๋ ฅ ๋ฐ์์ ๋ N๊ฐ์ ๋ฒกํฐ์ ์ ๋ ฅ ์์์ ์๊ด์์ด ํญ์ ๋์ผํ ๊ฒฐ๊ณผ๋ฌผ์ ์ถ๋ ฅํ๋ค. ์ด๋, ๋์นญ ํจ์๋ ์ ์์ญ์ ์์๋ฅผ ๋ฐ๊ฟ๋ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ํจ์์ด๋ค. ์ : f(x1, x2) = f(x2, x1)
2. Local ๋ฐ Global ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ ๊ตฌ์กฐ [PointNet ๊ตฌ์กฐ ๊ทธ๋ฆผ์์ ํ๋ ์์๋ถ๋ถ]
์์ ์น์ ์์ ๋์จ ์ถ๋ ฅ์ [f1, …, fK] ๋ฒกํฐ๋ฅผ ํ์ฑํ๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ ๋ ฅ๋ ์ ์งํฉ์์ ์ถ์ถ๋ ์ ์ญ ํน์ง์ ์ฌ์ฉํ์ฌ SVM ๋๋ MLP ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฝ๊ฒ ํ๋ จํ์ฌ ํ์ ๋ถ๋ฅ๋ฅผ ์ํํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ ๋ถํ ์์ ์๋ ์ง์ญ์ ์ ๋ณด์ ์ ์ญ์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํด์ผ ํ๋ค๋ ์ ์ ์๊ฐํด์ผ๋๋ค.
=> PointNet์ด Object Classification ์์ ๋ง ํ๋ค๋ฉด ์์ 1๋ฒ์์ ๊ตฌํ Global feature๋ง ์์ผ๋ฉด ๋๋ค. ํ์ง๋ง Segmentation(๋ถํ )์์ ์ ํ๊ธฐ ์ํด์๋ Local feature๋ ์์์ผํ๋ค.
=> Global Feature ๊ณ์ฐ์ด ๋๋๋ฉด, Local Feature ๋ค์ Global Feature ๋ฒกํฐ๋ฅผ ์ฐ๊ฒฐํ๋ ์์ผ๋ก ํตํฉํ๋ค. ํตํฉํ n x 1088 ํฌ๊ธฐ์ ์๋ก์ด ๋ฒกํฐ๊ฐ FC๋ฅผ ๊ฑฐ์ง๋ฉด์ ์๋ก์ด Point feature๋ฅผ ๊ฐ๋ n x 128 ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ ์์ฑ๋๋ค.
=> ์ด๋ ์ ์ญ ํน์ง์ ๊ฐ ์ ์ ํน์ง์ ๊ฒฐํฉํจ์ผ๋ก์จ, ๊ฐ ์ ์ด ์ฃผ๋ณ์ ์ง์ญ์ ์ ๋ณด๋ฟ๋ง ์๋๋ผ ์ ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ ์ญ์ ์ ๋ณด๊น์ง ๋ฐ์๋ ์๋ก์ด ํน์ง์ ์ป๊ฒ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํด ์ ๋ถํ ์์ ์์ ์ง์ญ ๋ฐ ์ ์ญ ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ ๋ ํจ๊ณผ์ ์ธ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
=> ์ด๋ฌํ modification์ ํตํด PointNet์ ์ง์ญ ๊ธฐํํ๊ณผ ์ ์ญ ์๋ฏธ์ ์์กดํ๋ ์ ๋ณ ๊ฐ์ ์์ธกํ ์ ์๊ฒ ๋์๋ค. ์๋ฅผ ๋ค์ด, ์ ๋ณ๋ก ๋ฒ์ ์ ์ ํํ๊ฒ ์์ธกํ ์ ์์ผ๋ฉฐ ์ด๋ ๋คํธ์ํฌ๊ฐ ๊ฐ ์ ์ ์ง์ญ์ ์ด์์์ ์ ๋ณด๋ฅผ ์์ฝํ ์ ์์์ ๋ํ๋ธ๋ค. => ๋คํธ์ํฌ๊ฐ ๊ฐ ์ ์ ์ง์ญ์ ์ธ ์ ๋ณด๋ฟ๋ง ์๋๋ผ ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ์ ํ์ฉํ์ฌ ๋ ์ ํํ ์์ธก์ ํ ์ ์๊ฒ ๋๋ค.
3. ์ ๋ ฅ ์ ๊ณผ ์ ํน์ง์ ์ ๋ ฌํ๋ ๋๊ฐ์ ๊ณตํต ์ ๋ ฌ ๋คํธ์ํฌ [PointNet ๊ตฌ์กฐ ๊ทธ๋ฆผ์์ ์ด๋ก ์์๋ถ๋ถ]
ํฌ์ธํธ ํด๋ผ์ฐ๋๊ฐ ํ์ , ์ด๋ ๋ฑ์ ๊ฐ์ฒด ๋ณํ์ ๊ฒช๋๋ผ๋ ์๋ฏธ์ ๋ผ๋ฒจ๋ง์ด ์ผ๊ด์ฑ์ ์ ์งํ๋ ค๋ฉด, ํ์ต ๊ณผ์ ์์ ์ด๋ฌํ ๋ณํ์ ๋ํ ๋ถ๋ณ์ฑ์ ํ๋ณดํด์ผํ๋ค. ์ด๋ฅผ ์ํด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํ์ค ๊ณต๊ฐ์ ์ ๋ ฌํ๊ฑฐ๋, Jaderberg์ ๊ณต๊ฐ ๋ณํ๊ธฐ(์ํ๋ง๊ณผ ๋ณด๊ฐ๋ฒ์ ํตํด 2D ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฌ)์ฒ๋ผ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ์ ๋ ฌํ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์ ์๋ค.
"T-net์ ๊ฑฐ์น๋ฉด์ ๋ชจ๋ ์ ๋ค์ด ํ์คํ๋ ๊ณต๊ฐ์ ๋์ด๊ฒ ํ๋๊ฒ ๋ชฉ์ ". ์ฆ, T-Net ์ด 3 x 3 ํฌ๊ธฐ์ ์ํ ๋ณํ ํ๋ ฌ์ ์ ์์ธกํ๊ฒ ๋ง๋ค๊ณ ์ ํ๋ค. n x 3 ํฌ๊ธฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ 3 x 3 ํฌ๊ธฐ์ ์ํ ๋ณํ ํ๋ ฌ๊ณผ ๊ณฑํด์ ธ์ ํ์คํ๊ฐ ๋๋ค.
ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์
๋ ฅ ํ์์ ์๋ก์ด ๋ ์ด์ด๋ฅผ ๋ฐ๋ช
ํ ํ์๊ฐ ์์ผ๋ฉฐ, ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์๊ณก(aliasing)๋ ๋ฐ์ํ์ง ์๋๋ค.
์ด ๋
ผ๋ฌธ์์๋ ์์ ๋คํธ์ํฌ(T-net)์ ํตํด ์ํ ๋ณํ ํ๋ ฌ์ ์์ธกํ๊ณ , ์ด ๋ณํ์ ์
๋ ฅ ์ ๋ค์ ์ขํ์ ์ง์ ์ ์ฉํ๋ค. ์ด ๋ฏธ๋ ๋คํธ์ํฌ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ฒ๋ฆฌ์ ์ ํฉํ๊ฒ ์ค๊ณ๋ ๊ฐ๋จํ ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ์๋ค.
=> โญ๏ธ Input transformation ์ ๊ฑฐ์น๊ณ ๋์ ์ถ๋ ฅ๋ n x 3 ํฌ๊ธฐ์ ๋ฒกํฐ๋ FC๋ฅผ ๊ฑฐ์น๋ฉด์ feature ๊ฐ ์ถ์ถ๋๋ค.์ด ๋ ์ถ๋ ฅ๋ ๊ฒฐ๊ณผ๋ n x 64 ํฌ๊ธฐ์ธ๋ฐ, Feature ๊ณต๊ฐ์ ๋ํด์๋ ํ์คํ ์์ ์ ๊ฑฐ์น๊ธฐ ์ํด ๋ ๋ฒ์งธ T-Net์ด ์ฌ์ฉ๋๋ค. ์ด๋ T-Net์ Feature ๋ณํ ํ๋ ฌ์ ์์ธกํ๊ณ ๋๋ฒ์งธ T-Net์ 64 x 64 ํฌ๊ธฐ์ ํ๋ ฌ์ ์์ธกํ๋ค. ์ด๊ฒ์ ์ฒซ๋ฒ์งธ T-Net์ด ์์ธกํ 3 x 3 ๋ณด๋ค ํจ์ฌ ํฌ๊ธฐ ๋๋ฌธ์ ํ์ตํ๊ธฐ๊ฐ ํ๋ค๋ค. ๊ทธ๋์ PointNet ์ Softmax Loss ์ ์๋์ Regularizaion ํญ์ ์ถ๊ฐํ๋ค.
์ด ์์ด๋์ด๋ ํน์ง ๊ณต๊ฐ์ ์ ๋ ฌ์๋ ํ์ฅ๋ ์ ์๋ค.
ํน์ง ๊ณต๊ฐ์์ ์
๋ ฅ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ํน์ง์ ์ ๋ ฌํ๊ธฐ ์ํด ๋ณํ ํ๋ ฌ์ ์ฌ์ฉํ์ง๋ง, ์ด ํ๋ ฌ์ ์ฐจ์์ด ์ปค์ง๋ฉด์ ์ต์ ํ๊ฐ ์ด๋ ค์์ง๋ฏ๋ก, ๋ณํ ํ๋ ฌ์ด ์ง๊ต ํ๋ ฌ์ ๊ฐ๊น๊ฒ ๋๋๋ก ์ ์ฝ์ ์ถ๊ฐํ์ฌ ์์ ์ฑ์ ๋์ธ๋ค.
A๋ ๋ฏธ๋ ๋คํธ์ํฌ(T-net)์ ์ํด ์์ธก๋ ํน์ง ์ ๋ ฌ ํ๋ ฌ์ด๋ค. ์ง๊ต ๋ณํ์ ์ ๋ ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๋ ์ ๋ณด ์์ค์ ์ต์ํํ๊ธฐ ๋๋ฌธ์ ์ด์์ ์ด๋ค. Lreg์ ๊ฐ์ ์ ๊ทํ ํญ์ ๋์ ํจ์ผ๋ก์จ ๋คํธ์ํฌ์ ํ์ต ๊ณผ์ ์ด ๋ ์์ ์ ์ด๊ฒ ๋๊ณ , ๋ชจ๋ธ์ ์ต์ข ์ฑ๋ฅ๋ ๊ฐ์ ๋๋ค.
=> ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๋, ๋ณํ ํ๋ ฌ์ด ๋๋ฌด ๋ณต์กํด์ง์ง ์๊ณ ์ ์ ํ ์ ์ด๋๋๋ก ํ๊ธฐ ์ํ ๊ฒ. ๋ณํ ํ๋ ฌ์ด ์ง๊ต ํ๋ ฌ์ ๊ฐ๊น๋๋ก ๋ง๋ค๊ธฐ ์ํด ์์ ๊ฐ์ ํญ์ ์ถ๊ฐํ์ฌ ๊ฐ์ค์น๊ฐ ์ง๋์น๊ฒ ์ปค์ง์ง ์๋๋ก ์ ์ฝ์ ์ค ์ ์๋ค.
Theoretical Analysis
์ด ๋ถ๋ถ์ ๋ํด์๋ ๊น์ด ์ดํดํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ์ดํด๋ฅผ ํ ์์ค ์ ๋๋ก๋ง ์๊ธฐ๋ฅผ ํด๋ณด๋๋ก ํ๊ฒ ๋ค.
์ถฉ๋ถํ ๋ง์ α๊ฐ ์์๋ (point๋ค์ด ์์๋) Hausdorff distance์ max๊ฐ (global max pooling)์ general function๊ณผ ฯต(๋งค์ฐ์์) ์ฐจ์ด๋ฐ์ ๋์ง ์๋ค๋ ๋ป
์ถ์ฒ: https://jaehoon-daddy.tistory.com/46?category=1053336
์ด ์ ๋ฆฌ๋ ๋คํธ์ํฌ๊ฐ ์ ์งํฉ ํจ์ f ๋ฅผ ๊ทผ์ฌํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
ํต์ฌ์ ๋คํธ์ํฌ๊ฐ point cloud data๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ผ๋ก h ์ gamma ๋ผ๋ ๋๊ฐ์ง ์ฐ์ ํจ์์ MAX ์ฐ์ฐ์ ์ฌ์ฉํ์ฌ, ๊ฐ ์ ์์ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ ์ด๋ฅผ ์งํฉ ์ ์ฒด์ ์ต๋๊ฐ์ผ๋ก ์์ฝํ๋ ๋ฐฉ์์ผ๋ก ์ ์งํฉ์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ์บก์ฒํ๋ค.
(a) ์ค์ํ ์ ๋ค์ด ์ ์ง๋๋ฉด ์ถ๋ ฅ์ด ๋ณํ์ง ์๋๋ค.
: ๋ฐ์ดํฐ๊ฐ ์์๋๊ฑฐ๋ ๋
ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋๋๋ผ๋, ์ค์ํ ๋ช ๊ฐ์ ์ ๋ค๋ง ๊ทธ๋๋ก ์์ผ๋ฉด ๋คํธ์ํฌ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ ๋ณํ์ง ์๋๋ค.
(b) ์ค์ํ ์ ๋ค์ ์ ํํ ์๋ก ์ ํ๋๋ค.
: ์ค์ํ ์ ๋ค์ ๋คํธ์ํฌ์ ๋ณ๋ชฉ ์ฐจ์(K)๋ณด๋ค ๋ง์ ์ ์๋ค. ์ฆ, ์ด K ๋ผ๋ ๊ฐ์ ์ํด ์ค์ํ ์ ๋ค์ ์๊ฐ ์ ํ๋๋ค.
=> ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋คํธ์ํฌ๊ฐ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ค์ํ ์ ๋ค๋ง ์ ํํ์ฌ ํ์ตํ๊ณ , ๊ทธ ์ ๋ค๋ง์ผ๋ก๋ ๋ฐ์ดํฐ์ ์ ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ์ ์์ฝํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด ์ ๋ค์ ๋ง์น ๊ฐ์ฒด์ '๊ณจ๊ฒฉ'์ฒ๋ผ, ํด๋น ๋ฐ์ดํฐ์ ์ค์ํ ํน์ง์ ๋ํํ๋ค.
๋ฐ๋ผ์, ๋คํธ์ํฌ๋ ์ ์ด ๋ณํ ๋๊ฑฐ๋ ์ผ๋ถ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋์ด๋ ์ค์ํ ์ ๋ค๋ง ์ ์ง๋๋ฉด ์์ ์ ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ ์ ์์ผ๋ฉฐ, ์ด ๋๋ฌธ์ ๋คํธ์ํฌ๊ฐ ๋ ๊ฒฌ๊ณ ํด์ง๋ค!
Experiment
์คํ์ 4๊ฐ์ง ํํธ๋ก ๋๋๋ค.
1. PointNet์ด ๋ค์ค์ผ๋ก 3D ์ธ์ง ์์ ์ ์ ์ฉ๋ ์ ์๋์ง
2. ๋คํธ์ํฌ์ design์ด ๊ฒ์ฆ๋ ์ ์๋์ง์ ๋ํ ์คํ๋ค
3. ๋คํธ์ํฌ๊ฐ ๋ฌด์์ ํ์ตํ๋์ง ์๊ฐํ
4. ์๊ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋ ๋ถ์
1. PointNets can be applied to multiple 3D recognition tasks
1-1. 3D Objection Classification
๋คํธ์ํฌ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ ๋ฐ์ ์ธ ํน์ง์ ํ์ตํ์ฌ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 3D ๊ฐ์ฒด ๋ถ๋ฅ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ModelNet40 ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค. ModelNet40 ๋ 40๊ฐ์ ์๋ก ๋ค๋ฅธ ๊ฐ์ฒด ๋ฒ์ฃผ๋ก ์ด๋ฃจ์ด์ง 3D ํํ ๋ฐ์ดํฐ์ ์ด๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ 3D ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด ๋ณต์ (Volumetric data)์ด๋ ์ฌ๋ฌ ๊ฐ๋์ 2D ์ด๋ฏธ์ง๋ก ๋ณํํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ผ๋, ์ด ์ฐ๊ตฌ์์ ์ต์ด๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๊ทธ๋๋ ์ฒ๋ฆฌํ๋ ์ ๊ทผ๋ฒ์ ์ ์.
๋คํธ์ํฌ๋ Mesh ๋ฉด์ ๋ฉด์ ์ ๋ฐ๋ผ 1024๊ฐ์ ์ ์ ๊ท ๋ฑํ๊ฒ ์ํ๋งํ๊ณ (์ ํํ๊ณ ), ์ด๋ฅผ Unit Sphere๋ก ์ ๊ทํํ๋ค. training ์ค์๋ ์ค์๊ฐ์ผ๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฆ๊ฐํ๊ธฐ ์ํด ๊ฐ์ฒด๋ฅผ ์ํฅ ์ถ(up-axis)์ ๊ธฐ์ค์ผ๋ก ๋ฌด์์๋ก ํ์ ์ํค๊ณ , ๊ฐ ์ ์ ์์น์ ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 0.02์ธ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ค. => ํ๋ จ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ํํ๊ธฐ ์ํด ๋ฌด์์ ํ์ ๊ณผ ์ฝ๊ฐ์ ๋ ธ์ด์ฆ ์ถ๊ฐํ์ฌ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฆ๊ฐํ๋ ๋ฐฉ์
<Table 1> ์ ๋ณด๋ฉด 3D ์ ๋ ฅ(mesh, volume, point) ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฉ๋ฒ๋ค ์ค์์๋ Ours PointNet ์ด ์ต๊ณ ์ ์ฑ๋ฅ(89.2) ์ ๋ณด์์ง๋ง, ๋ค์ค ๋ทฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(MVCNN) ์ ๋นํด์๋ ์ฝ๊ฐ ๋ค์ฒ์ง๋ค. ๊ทธ ์ด์ ๋ ๋ค์ค ๋ทฐ ๋ ๋๋ง ์ด๋ฏธ์ง๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ๋์น ์ ์๋ ์ธ๋ถ์ ์ด ๊ธฐํํ์ ์ ๋ณด๋ฅผ ๋ ์ ํฌ์ฐฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํ๋จ๋๋ค.
1-2. 3D Object Part Segmentation
Part segmentaion ์์
์ 3D ๋ชจ๋ธ์ ๊ฐ ๋ถ๋ถ์ ์ธ์ํ๊ณ ๋ถํ ํ๋ ์์
์ผ๋ก, ShapeNet ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ํ๊ฐ ๋ฐ ์งํ๋์๋ค.
์ฃผ์ด์ง ๊ฐ์ฒด์์ ๋ถ๋ถ๋ณ๋ก ๋ ์ด๋ธ์ ๋ถ์ฌํ๋๊ฒ์ ๋ชฉํ๋ก ํ๋ค(์: ์์ ๋ค๋ฆฌ, ์ปต ์์ก์ด). ShapeNet ์ ๋ค์ํ 3D ๊ฐ์ฒด์ ๋ํด ์ธ๋ฐํ ๋ถ๋ถ ๋ ์ด๋ธ์ ์ ๊ณตํ๋ ๋ํ์ ์ธ ๋ฐ์ดํฐ์
์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ part segmentation ์์ ์ ๊ฐ ์ ์ ๋ํ ๋ถ๋ฅ ๋ฌธ์ ๋ก ์ ์ํ๋ค. ํ๊ฐ ์งํ๋ ์ ๋จ์์ ํ๊ท ๊ต์ฐจ-ํฉ์งํฉ(mIoU) ์ ์ฌ์ฉํ๋ค.
์นดํ ๊ณ ๋ฆฌ C์ ํํ S์ ๋ํด mIoU๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ์นดํ ๊ณ ๋ฆฌ C์ ๊ฐ ๋ถ๋ถ ์ ํ์ ๋ํด ์ค์ ์ ๋ต๊ณผ ์์ธก ๊ฐ์ IoU(๊ต์ฐจ-ํฉ์งํฉ)์ ๊ณ์ฐํ๋ค. ๋ง์ฝ ์ค์ ์ ๋ต๊ณผ ์์ธก ์ ๋ค์ ํฉ์งํฉ์ด ๋น์ด ์์ผ๋ฉด, ํด๋น ๋ถ๋ถ์ IoU๋ฅผ 1๋ก ๊ณ์ฐํ๋ค.
2. ๊ทธ๋ฐ ๋ค์, ์นดํ ๊ณ ๋ฆฌ C์ ๋ชจ๋ ๋ถ๋ถ ์ ํ์ ๋ํ IoU ํ๊ท ์ ๊ณ์ฐํ์ฌ ํด๋น ํํ์ mIoU๋ฅผ ๊ตฌํ๋ค. ์นดํ ๊ณ ๋ฆฌ์ mIoU๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋ ํด๋น ์นดํ ๊ณ ๋ฆฌ์ ๋ชจ๋ ํํ์ ๋ํ mIoU ํ๊ท ์ ๊ตฌํด์ผํ๋ค.
<Table 2> ์์ ๊ฐ ์นดํ ์ฝ๋ฆฌ๋ณ๊ณผ ํ๊ท IoU(%) ์ ์๊ฐ ๋ํ๋์๋ค. ์ด ๋คํธ์ํฌ๋ IoU๊ฐ 2.3 % ํฅ์๋์์ผ๋ฉฐ, ๋๋ถ๋ถ์ ์นดํ ๊ณ ๋ฆฌ์์ ๋ฒ ์ด์ค๋ผ์ธ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ ์ ์์๋ค.
๋ํ, ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ฒฌ๊ณ ์ฑ์ ํ ์คํธํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ๋ Kinect ์ค์บ ์คํ์ ์ํํ๋ค. ShapeNet ํํธ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ CAD ๋ชจ๋ธ์ ๋ํด Blensor Kinect ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฏ ๊ฐ์ ๋ฌด์์ ์์ ์ ๋ถ์์ ํ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๋ค. ๊ทธ๋ฆฌํ์ฌ ์ด ๋ ผ๋ฌธ์์๋ ๋์ผํ ๋คํธ์ํฌ ์ํคํ ์ฒ์ ํ์ต ์ค์ ์ ์ฌ์ฉํ์ฌ ์์ ํ ํํ์ ๋ถ๋ถ ์ค์บ ๋ฐ์ดํฐ์์ PointNet์ ํ๋ จํ๋ค. ๊ฒฐ๊ณผ๋ ํ๊ท IoU ์์ 5.3 % ๋ง ์์ค๋์์์ ์ ์ ์์๋ค.
<Fig 3> ์์๋ ์์ ํ ๋ฐ์ดํฐ์ ๋ถ๋ถ ๋ฐ์ดํฐ ๋ชจ๋์ ๋ํ ์ ์ฑ์ (Qualitative) ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค. ๋ถ๋ถ ๋ฐ์ดํฐ๊ฐ ์๋นํ ๋์ ์ ์ด์์ง๋ง, ์์ธก๊ฐ์ด ํฉ๋ฆฌ์ ์ด๋ผ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
1-3. Semantic Segmentation in Scenes
๋ถ๋ถ ๋ถํ ์ ์ฌ์ฉ๋ ๋คํธ์ํฌ๋ ๊ฐ์ฒด์ ์ผ๋ถ ๋ ์ด๋ธ์ด ์๋, ๊ฐ์ฒด ์์ฒด์ ์๋ฏธ์ ํด๋์ค ๋ ์ด๋ธ์ ์์ธกํ๋ ์๋ฏธ์ ์ฅ๋ฉด ๋ถํ ๋ก ์ฝ๊ฒ ํ์ฅ๋ ์ ์๋ค. ์ด ์ฐ๊ตฌ์์๋ Stanford 3D semantic parsing ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ์คํ์ ์ํํ๋ค. ์ด ๋ฐ์ดํฐ์ ์ Matterport ์ค์บ๋๋ก 6๊ฐ ์ง์ญ, 271๊ฐ์ ๋ฐฉ์ ํฌํจํ 3D ์ค์บ์ ์ ๊ณตํ๋ค. ์ค์บ๋ ๊ฐ ์ ์ 13๊ฐ์ ์นดํ ๊ณ ๋ฆฌ(์์, ํ ์ด๋ธ, ๋ฐ๋ฅ, ๋ฒฝ ๋ฑ๊ณผ ์ก๋์ฌ๋) ์ค ํ๋์ ์๋ฏธ์ ๋ ์ด๋ธ๋ก ์ฃผ์์ด ๋ฌ๋ ค์๋ค.
์์
ํ์ต๋ฐ์ดํฐ ์ค๋น : ๋จผ์ ์ ๋ค์ ๋ฐฉ(room) ๋จ์๋ก ๋๋๊ณ , ๊ฐ ๋ฐฉ์ 1m x 1m ํฌ๊ธฐ์ ๋ธ๋ก์ผ๋ก ์ํ๋งํ๋ค.
ํ์ต : ๊ฐ ๋ธ๋ก์์ ์ ๋ณ ํด๋์ค๋ฅผ ์์ธกํ๋๋ก PointNet์ ๋ถํ ๋ฒ์ ์ ํ์ต์ํจ๋ค. ๊ฐ ์ ์ XYZ ์ขํ, RGB ๊ฐ, ๋ฐฉ ์์์์ ์ ๊ทํ๋ ์์น(0์์ 1์ฌ์ด์ ๊ฐ)์ผ๋ก ๊ตฌ์ฑ๋ 9์ฐจ์ ๋ฒกํฐ๋ก ํํ๋๋ค.
ํ์ต ์ฌํญ : ํ์ต ์์๋ ๊ฐ ๋ธ๋ก์์ ์ค์๊ฐ์ผ๋ก 4096๊ฐ์ ์ ์ ๋ฌด์์๋ก ์ํ๋งํ๊ณ , ํ
์คํธ ์์๋ ๋ชจ๋ ์ ์ ํ
์คํธํ๋ค. k-fold ์ ๋ต์ ๋์ผํ๊ฒ ๋ฐ๋ฅธ๋ค.
<Table 3> ๋ฒ ์ด์ค๋ผ์ธ์ ๋์ผํ 9์ฐจ์ ๋ก์ปฌ ํน์ง๊ณผ ์ถ๊ฐ์ ์ผ๋ก 3๊ฐ์ ํน์ง(๋ก์ปฌ ์ ๋ฐ๋, ๋ก์ปฌ ๊ณก๋ฅ , ๋ฒ์ )์ ์ถ์ถํ๋ฉฐ, ํ์ค MLP๋ฅผ ๋ถ๋ฅ๊ธฐ๋ก ์ฌ์ฉ. PointNet ์ ๋ฒ ์ด์ค๋ผ์ธ ๋ฐฉ๋ฒ๋ณด๋ค ํ์ ํ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
<Fig 4> ์ ์ฑ์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ฌ์ค๋ค. ์ด ๋คํธ์ํฌ๋ ๋งค๋๋ฌ์ด ์์ธก์ ์ถ๋ ฅํ ์ ์์ผ๋ฉฐ, ์ ์ด ๋๋ฝ๋๊ฑฐ๋ ๊ฐ๋ ค์ง ๊ฒฝ์ฐ์๋ ๊ฒฌ๊ณ ํ๊ฒ ๋์ํ๋ค.
<Table 4> ์ด ๋ ผ๋ฌธ์์๋ ๋คํธ์ํฌ์ ์๋ฏธ์ ๋ถํ ์ถ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์ฐ๊ฒฐ ์ฑ๋ถ ๋ถ์์ ์ฌ์ฉํด ๊ฐ์ฒด ์ ์์ ์์ฑํ๋ 3D ๊ฐ์ฒด ํ์ง ์์คํ ์ ์ถ๊ฐ๋ก ๊ตฌ์ถํ๋ค. ์ด์ SOTA ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ดค์๋, ์ด์ ๋ฐฉ๋ฒ์ sliding shape ๋ฐฉ๋ฒ๊ณผ CRF ํ์ฒ๋ฆฌ๋ฅผ ์ ์ฉํ์ผ๋ฉฐ, SVM์ ์ฌ์ฉํด ๋ณต์ ๊ทธ๋ฆฌ๋์์ ๋ก์ปฌ ๊ธฐํํ์ ํน์ง ๋ฐ ์ ์ญ ๋ฐฉ(room) ์ปจํ ์คํธ ํน์ง์ ํ์ต์์ผฐ๋ค. PointNet์ ๋ฐฉ๋ฒ์ ๋ณด๊ณ ๋ ๊ฐ๊ตฌ ์นดํ ๊ณ ๋ฆฌ์์ ์ด์ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
2. Architecture Design Analysis
์ด ํํธ์์๋ ํต์ ์คํ์ ํตํด ์ค๊ณ ์ ํ์ ๊ฒ์ฆํ๋ค. ๋ํ ๋คํธ์ํฌ์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ฏธ์น๋ ์ํฅ์ ๋ณด์ฌ์ค๋ค.
2-1. Comparison with Alternative Order-invariant Methods
Unordered set inputs์ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ์ ์ธ๊ฐ์ง๊ฐ ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ModelNet40 ์ ํํ ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค.
<Fig 5> ์ด๊ณณ์์ ๋น๊ตํ ๋ฒ ์ด์ค๋ผ์ธ์ ๊ทธ๋ฆผ์ ๋ํ๋์๋ค.
๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก๋ ์ ๋ ฌ๋์ง ์๊ฑฐ๋ ์ ๋ ฌ๋ ์ ๋ค์ n x 3 ๋ฐฐ์ด๋ก ์ฌ์ฉํ ๋ค์ธต ํผ์
ํธ๋ก (MLP), ์ ์ ์ํ์ค๋ก ์ฒ๋ฆฌํ๋ RNN ๋ชจ๋ธ(LSTM*), ๊ทธ๋ฆฌ๊ณ ๋์นญ ํจ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ์ด ์๋ค.
์ด ๋
ผ๋ฌธ์์ ์คํํ ๋์นญ ์ฐ์ฐ์๋ max pooling, average pooling, ๊ทธ๋ฆฌ๊ณ Attention ๊ธฐ๋ฐ ๊ฐ์คํฉ์ด ํฌํจ๋๋ค.
Attention method๋ ๊ฐ ์ ํน์ง์์ ์ค์นผ๋ผ ์ ์๋ฅผ ์์ธกํ ํ, ์ํํธ๋งฅ์ค๋ฅผ ์ฌ์ฉํด ์ ๋ค ๊ฐ์ ์ ์๋ฅผ ์ ๊ทํํ๋ค. ๊ทธ ๋ค์, ์ ๊ทํ๋ ์ ์์ ์ ํน์ง์ ๋ํด ๊ฐ์คํฉ์ ๊ณ์ฐํ๋ค.
Fig 5์ ๋์ ์๋ฏ์ด, max pooling ์ฐ์ฐ์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํฐ ์ฐจ์ด๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. => ๋คํธ์ํฌ ์ค๊ณ์์ max pooling์ ์ ํํ ๊ฒ์ด ์ ์ ํจ์ ํ์ธํ ์ ์์๋ค.
* LSTM ์ด๋ Long Short-Term Memory ๋ก RNN์ ์ผ์ข ์ด๋ค. RNN์ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ฌ์ฉ๋์ง๋ง, ์ผ๋ฐ์ ์ธ RNN์ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ (Long-term dependencies)๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ์ด๋ ์ด์ ์ ๋ณด๊ฐ ๊ธด ์ํ์ค ๋์ ์ ์ง๋์ง ๋ชปํด ์ค์ํ ์ ๋ณด๊ฐ ์์ค๋๋ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
LSTM ์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ ํน์ํ RNN ๊ตฌ์กฐ๋ก, ์ ์ํ (cell state)์ ๊ฒ์ดํธ ๋ฉ์ปค๋์ฆ(์ ๋ ฅ ๊ฒ์ดํธ, ์ถ๋ ฅ ๊ฒ์ดํธ, ๋ง๊ฐ ๊ฒ์ดํธ)๋ฅผ ์ฌ์ฉํ์ฌ ์ค์ํ ์ ๋ณด๋ฅผ ๋ ์ค๋ ๊ธฐ์ตํ๊ณ ๋ถํ์ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๋ค. ์ด๋ก ์ธํด LSTM์ ๊ธด ์ํ์ค์์์ ํจํด์ ํ์ตํ๊ณ , ์ฅ๊ธฐ์ ์ธ ์์กด์ฑ์ ๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ค.
2-2. Effectiveness of Input and Feature Transformations
<Table 5>์์ ์ด ๋ ผ๋ฌธ์ ์ ๋ ฅ ๋ฐ ํน์ง ๋ณํ(input and feature transfomation,์ ๋ ฌ์ ์ํ)์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ณผ ์ ์๋ค. ๊ธฐ๋ณธ์ ์ธ ์ํคํ ์ฒ๋ง์ผ๋ก๋ ๊ฝค ๋ง์กฑ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ์ ์ด ๋งค์ฐ ํฅ๋ฏธ๋กญ๋ค. ์ ๋ ฅ ๋ณํ(input 3x3)์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด 0.8% ํฅ์๋๋ค. ๊ณ ์ฐจ์ ๋ณํ์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ธฐ ์ํด์๋ ์ ๊ทํ ์์ค(Regularization loss)* ์ด ํ์ํ๋ค. ๋ ๋ณํ๊ณผ ์ ๊ทํ ํญ์ ๊ฒฐํฉํจ์ผ๋ก์จ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์๋ค.
* ์ ๊ทํ ์์ค(Regularization loss)๋ ๋ชจ๋ธ์ด ํ์ตํ๋ ๊ณผ์ ์์ ๊ณผ์ ํฉ(overfitting)์ ๋ฐฉ์งํ๊ณ , ๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ์ถ๊ฐํ๋ ์์ค ํญ๋ชฉ์ด๋ค. ์ฆ, ์ ๊ทํ ์์ค์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋๋ฌด ์ธ๋ฐํ๊ณ ๋ง์ถ๋ ๊ฒ์ ๋ง๊ณ , ๋ถํ์ํ ๋ณต์ก์ฑ์ ์ค์ด๋๋ก ๋์์ค๋ค. (ex : L2 ์ ๊ทํ(Ridge ์ ๊ทํ), L1 ์ ๊ทํ(Lasso ์ ๊ทํ), Dropout)
2-3. Robustness Test (๊ฒฌ๊ณ ์ฑ ํ ์คํธ)
PointNet ์ด ๋จ์ํ๊ณ ํจ๊ณผ์ ์ด๋ฉด์๋ ๋ค์ํ ์ ๋ ฅ ์์์ ๋ํด ๊ฒฌ๊ณ ํจ์ ์ ์งํ๋ค๋ ๊ฒ์ ๋ณด์ด๊ธฐ ์ํด <Fig 5>์ max pooling ๋คํธ์ํฌ์ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค. ์ ๋ ฅ ์ ๋ค์ ๋จ์ ๊ตฌ(unit sphere) ๋ก ์ ๊ทํ๋๋ค.
<Fig 6> ๊ฒฐ๊ณผ
- ๋๋ฝ๋ ์ ์ ๋ํด์๋ 50 %์ ์ ์ด ๋๋ฝ๋์์ ๋, ๊ฐ์ฅ ๋จผ ์ํ๋ง(furthest sampling)๊ณผ ๋ฌด์์ ์ํ๋ง(random sampling)์์ ๊ฐ๊ฐ ์ ํ๋๊ฐ 2.4%์ 3.8% ๋ง ๋จ์ด์ก๋ค.
- ํ๋ จ ์ค์ ์ด์์ (outlier)์ ๋ณธ ๊ฒฝ์ฐ, ๋คํธ์ํฌ๋ ์ด์์ ์๋ ๊ฒฌ๊ณ ํ๋ค. ์ด ๋
ผ๋ฌธ์์๋ (x, y, z) ์ขํ๋ง์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ๊ณผ (x, y, z) ์ขํ์ ์ ๋ฐ๋(density) ๋ฅผ ์ถ๊ฐํ ๋ชจ๋ธ์ ํ๊ฐํ๋ค. ์ด ๋คํธ์ํฌ๋ ์ ์ฒด ์ ๋ค ์ค 20% ๊ฐ ์ด์์ ์ผ ๋์๋ 80 % ์ด์์ ์ ํ๋๋ฅผ ์ ์งํ๋ค.
- ๋งจ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ๋ ๋คํธ์ํฌ๊ฐ ์ ๋ณํ์ ๋ํด์๋ ๊ฒฌ๊ณ ํจ์ ์ ์งํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
3. Visualizing PointNet
- ์ค์ ์ ์งํฉ Cs (Critical Point Sets):
- max pooling ๋ ํน์ง์ ๊ธฐ์ฌํ๋ ์ค์ํ ์ ๋ค์ด ํํ์ ๊ณจ๊ฒฉ์ ๋ํ๋
- ์ด ์ ๋ค๋ง ์์ผ๋ฉด ํํ์ ์ ์ญ ํน์ง์ด ์ ์ง๋๋ค.
- ์ํ ํํ Ns (Upper-bounded Shapes):
- ์
๋ ฅ๋ point cloud๊ณผ ๋์ผํ ์ ์ญ ํน์ง์ ์ ๊ณตํ ์ ์๋ ์ต๋ point cloud
- ๋คํธ์ํฌ๊ฐ ์ฒ๋ฆฌํ๋ ์ ๋ค ์ค ์ค์ํ ์ ์ด ์๋ ์ ๋ค์ด ์ฌ๋ผ์ ธ๋ ์ ์ญ ํน์ง f(s)์ ์ํฅ์ ์ฃผ์ง ์๋๋ค.
=> ๊ฒฐ๋ก , ์ค์ํ ์ ์ ์์ง ์๋ ํ, ์ผ๋ถ ์ ์ด ์์ค๋๊ฑฐ๋ ์ถ๊ฐ๋์ด๋ ์ ์ญ ํน์ง์ ๋ณํ์ง ์๋๋ค. PointNet์ ๋ถํ์ํ ์ ์ด ์์ด๋ ํํ๋ฅผ ์ธ์ํ๋ ๋ฐ ๊ฒฌ๊ณ ํจ์ ๋ณด์ฌ์ค๋ค.
4. Time and Space Complexity Analysis
<Table 6>์ Classification ์ฉ PointNet์ Space(๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ ์)๊ณผ Time(์ํ๋น ๋ถ๋์์์ ์ฐ์ฐ, FLOP) ๋ณต์ก๋๋ฅผ ์์ฝํ๋ค.
MVCNN ๊ณผ Subvolume (3D CNN) ์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง๋ง, PointNet์ ๊ณ์ฐ ๋น์ฉ์์ ํจ์ฌ ๋ ํจ์จ์ ์ด๋ค(์ํ๋น FLOP ์ธก์ ๊ฒฐ๊ณผ, ๊ฐ๊ฐ 141๋ฐฐ ๋ฐ 8๋ฐฐ ๋ ํจ์จ์ ). ๋ํ, PointNet์ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ ์(#param) ๋ฉด์์ MVCNN๋ณด๋ค ๊ณต๊ฐ ํจ์จ์ฑ๋ ๋ฐ์ด๋จ(ํ๋ผ๋ฏธํฐ ์๊ฐ 17๋ฐฐ ์ ์).
๋์ฑ์ด, PointNet์ ๋งค์ฐ ํ์ฅ์ฑ์ด ๋๋ค. ์ฆ, ๊ณต๊ฐ ๋ฐ ์๊ฐ ๋ณต์ก๋๊ฐ O(N) ์ผ๋ก, ์
๋ ฅ ์ ์ ๊ฐ์์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐ (linearly increased)
๋ฐ๋ฉด, ๋ค์ค ๋ทฐ ๋ฐฉ์(MVCNN) ์ ์๊ฐ ๋ณต์ก๋๋ ์ด๋ฏธ์ง ํด์๋์ ๋ฐ๋ผ ์ ๊ณฑ์ผ๋ก ์ฆ๊ฐํ๊ณ , ๋ณผ๋ฅจ ๊ธฐ๋ฐ ํฉ์ฑ๊ณฑ ๋ฐฉ์์ ์๊ฐ ๋ณต์ก๋๋ ๋ณผ๋ฅจ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ธ์ ๊ณฑ์ผ๋ก ์ฆ๊ฐํ๋ค.
=> PointNet์ ๋งค์ฐ ํจ์จ์ ์ธ ๊ณ์ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋ฉฐ, ๋๊ท๋ชจ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ํ์ฅ์ฑ์ ๊ฐ์ง๊ณ ์๋ค.
Conclusion
- PointNet ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ง์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด๋ค.
- ๊ฐ์ฒด ๋ถ๋ฅ, ๋ถ๋ถ ๋ถํ , ์๋ฏธ์ ๋ถํ ๋ฑ ๋ค์ํ 3D ์ธ์ ์์ ์ ๋ํด ํตํฉ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ๊ณตํ๋ค.
- ๊ธฐ์กด SOTA ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค.
- ๋คํธ์ํฌ๋ฅผ ์ดํดํ๊ธฐ ์ํด ์ด๋ก ์ ์ค๋ช ๊ณผ ์๊ฐ์ ๋ถ์์ ์ ๊ณตํ๋ค.
์ด๋ ๊ฒ 3D Reconstruction & generation ๋ถ์ผ์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ PointNet ์ ๋ํ ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐํด๋ณด์์ต๋๋ค.
์ ๊ฐ ๊ณต๋ถํ๋ ์ฉ๋๋ก ์์ฑ๋ ๋ฌธ์์ด๊ธฐ ๋๋ฌธ์ ๋ง์ด ๋ถ์กฑํ ์ ์์ต๋๋ค..! ์ฝ์ด์ฃผ์
์ ๊ฐ์ฌํฉ๋๋ค.
๐ <Supplementary> ๋ถ์์ ๋ค์ํธ์์ ๊ณ์๋ฉ๋๋ค! To be continued.