์ด๋ฒ์๋ " PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation " ๋ ผ๋ฌธ์ Supplementary ๋ฆฌ๋ทฐ๋ก ๋์์์ต๋๋ค!
Supplementary๋ ์ด B ~ H ๊น์ง ์ด 7๊ฐ์ ํํธ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
์ฌ๊ธฐ์ ์ ๋ ๋ค์๊ณผ ๊ฐ์ ๋ชฉ์ฐจ๋ก ๋ฆฌ๋ทฐํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
[๋ชฉ์ฐจ]
C : neural network architectures ์ training hyper parameters ์ ๋ํด ๋ํ ์ผํ๊ฒ ์์๋ณด๋ ์น์
D : Detection pipeline ์ ๊ดํด ๋ํ ์ผํ๊ฒ ์์๋ณด๋ ์น์
E : PointNet์ ์ฌ๋ฌ ์์ฉ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด๋ ์น์
F : ๋์ฑ ๋ํ ์ผํ๊ฒ PointNet ๊ตฌ์กฐ๋ฅผ ๋ถ์ํด๋ณด๋ ์น์
Section C : Network Architecture and Training Details
PointNet Classification Network
PointNet์ ์ ๋ ฅํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ ๊ทํํ์ฌ ๋ชจ๋ธ์ ๋ณํ ๋ถ๋ณ์ฑ(invariance) ๋ฅผ ๊ฐํํ๋ ์ญํ ์ ํฉ๋๋ค. PointNet์๋ ๋ ๊ฐ์ Transformation Network ๊ฐ ์กด์ฌํ๋ฉฐ, ๊ฐ๊ฐ ๋ค์๊ณผ ๊ฐ์ ๋ชฉ์ ๊ณผ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค.
1. Transformation Network: ๊ธฐ๋ณธ ๊ตฌ์ฑ๊ณผ ์ญํ
[์ฒซ ๋ฒ์งธ transformation network]
- ์ ๋ ฅ์ผ๋ก raw point cloud ๋ฅผ ๋ฐ์ 3 x 3 ํ๋ ฌ์ ์์ธก(regress) ํฉ๋๋ค.
- ์ด ๋คํธ์ํฌ๋ ๊ฐ ํฌ์ธํธ์ MLP (64, 128, 1024) ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ์ฌ ์ ์ฉํ๊ณ , ๊ฐ ์ธต์ ์ถ๋ ฅ ํฌ๊ธฐ๋๋ ๊ฐ๊ฐ 64, 128, 1024 ์ ๋๋ค.
- Max pooling ์ ์ฌ์ฉํด์ ํฌ์ธํธ ๊ฐ์ ์ ๋ณด๋ฅผ ํตํฉํ๊ณ , ์ด์ด fully connected layer 2 ๊ฐ๋ฅผ ํต๊ณผํ์ฌ ์ต์ข 3 x 3 ํ๋ ฌ์ ์ถ๋ ฅํฉ๋๋ค.
- ๊ฐ fully connected layer ์ ์ถ๋ ฅ ํฌ๊ธฐ๋ 512, 256 ์ด๋ฉฐ, ์ถ๋ ฅ ํ๋ ฌ์ ํญ๋ฑํ๋ ฌ(identity matrix)๋ก ์ด๊ธฐํ๋ฉ๋๋ค.
- ๋ชจ๋ ์ธต์๋ ๋ง์ง๋ง์ ์ ์ธํ๊ณ ReLU ํ์ฑํ ํจ์์ ๋ฐฐ์น ์ ๊ทํ(batch normalization)์ด ์ ์ฉ๋ฉ๋๋ค.
[๋ ๋ฒ์งธ transformation network]
- ์ฒซ ๋ฒ์งธ ๋คํธ์ํฌ์ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง๋ง, 64 x 64 ํ๋ ฌ์ ์ถ๋ ฅํ๋๋ก ์ค๊ณ ๋์์ต๋๋ค.
- ์ด ํ๋ ฌ ๋ํ ํญ๋ฑํ๋ ฌ๋ก ์ด๊ธฐํ๋๋ฉฐ, ํ๋ ฌ์ ์ง๊ต(orthogonal)์ ๊ฐ๊น๊ฒ ๋ง๋๋ ์ ๊ทํ ์์ค(regularization loss) ์ด softmax ๋ถ๋ฅ ์์ค์ ์ถ๊ฐ๋ฉ๋๋ค. ์ ๊ทํ ์์ค ๊ฐ์ค์น๋ 0.001๋ก ์ค์ ๋์์ต๋๋ค.
2. ํ์ต ์ค์ (parameter)
- drop out : ๋ง์ง๋ง fully connected layer ์ ๋๋กญ์์์ด ์ ์ฉ๋๋ฉฐ, keep ratio๋ 0.7 ๋ก ์ค์ . ์ด๋ ๋คํธ์ํฌ๊ฐ ๊ณผ์ ํฉ ๋๋๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํจ์ ๋๋ค.
- decay rate (๋ฐฐ์น ์ ๊ทํ์ ๊ฐ์ ์จ) : init = 0.5, max=0.99
- Adam optimizer : init = 0.001, momentum = 0.9, batch_size = 32๋ก 20 ์ํฌํฌ๋ง๋ค ํ์ต๋ฅ ์ ์ ๋ฐ์ผ๋ก ์ค์ ๋๋ค.
- ํ์ต ์๊ฐ : ModelNet ๋ฐ์ดํฐ์ ์์ ํ์ตํ ๋, TensorFlow์ GTX1080 GPU ํ๊ฒฝ์์ 3-6์๊ฐ ์ ๋ ์์๋ฉ๋๋ค.
PointNet segmentation Network
1. PointNet ํํธ ์ธ๋ถํ ๋คํธ์ํฌ์ ๊ธฐ๋ณธ ๊ตฌ์กฐ
- ์ ๋ ฅ ํฌ์ธํธ ๋ณํ(T1) ๋ฐ ํน์ง ๋ณํ(T2) : T1๊ณผ T2๋ ์ ๋ ฅ ํฌ์ธํธ์ ํน์ง์ ์ ๋ ฌ/๋ณํ์ ๋ด๋นํฉ๋๋ค. ๊ฐ ํฌ์ธํธ์ ํน์ง์ ๋ํด 3 x 3 ๋ฐ 64 x 64 ํ๋ ฌ๋ก ๋ณํ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ ๋ ฅ์ ๋ค์ํ ๋ณํ์ ๋ถ๋ณ์ฑ์ ๊ฐ๋๋ก ํฉ๋๋ค.
- ์์ ์ฐ๊ฒฐ์ธต(Fully Connected, FC) : ๊ฐ ํฌ์ธํธ์ ์์ ์ฐ๊ฒฐ ์ธต์ด ์ ์ฉ๋๋ฉฐ, ์ธต์ ์ถ๋ ฅ ํฌ๊ธฐ๋ ์์๋๋ก n x 64, n x 128, n x 128, n x 512, n x 2048 ์ ๋๋ค. ๋ง์ง๋ง FC ์ธต์์๋ max pooling ์ ํตํด ์ ์ญ ํน์ง(global feature)์ ์ถ์ถํฉ๋๋ค.
- One-hot ๋ฒกํฐ ์ถ๊ฐ : ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ถ๋ฅ ๋ ์ด๋ธ์ ๋ํ๋ด๋ ํฌ๊ธฐ 16์ one-hot ๋ฒกํฐ๊ฐ ๋คํธ์ํฌ์ ์ถ๊ฐ๋ฉ๋๋ค. ์ด ๋ฒกํฐ๋ ์ ์ญ ํน์ง์ ๊ฒฐํฉ๋์ด ์ ๋ ฅ์ ์ข ๋ฅ(์: ์์, ํ ์ด๋ธ ๋ฑ)๋ฅผ ๋ฐ์ํฉ๋๋ค.
2. ์ง์ญ ๋ฐ ์ ์ญ ํน์ง ๊ฒฐํฉ
PointNet์ ํํธ segmentation ๋ ์ง์ญ(local) ํฌ์ธํธ ํน์ง๊ณผ ์ ์ญ(global) ํน์ง์ ๊ฒฐํฉํ์ฌ ๊ฐ ํฌ์ธํธ์ ์์ธก ์ฑ๋ฅ์ ๋์ ๋๋ค.
- Max pooling ๊ฒฐ๊ณผ์ ์ง์ญ ํน์ง์ ๊ฒฐํฉ: ๋ ๋ฒ์งธ ๋ณํ ๋คํธ์ํฌ(T2) ์ดํ์ ์ง์ญ ํน์ง๊ณผ max pooling ์ ํตํด ์ถ์ถ๋ ์ ์ญ ํน์ง์ ๊ฐ ํฌ์ธํธ์ ๋ํด ๊ฒฐํฉํ์ฌ, segmentation ์์ ์ ์ ํฉํ ํ๋ถํ ํน์ง ํํ์ ์ ๊ณตํฉ๋๋ค.
- ์คํต ์ฐ๊ฒฐ(skip links): ์๋ก ๋ค๋ฅธ ์ธต์์ ์ถ์ถํ ์ง์ญ ํน์ง์ ๊ฒฐํฉํ๋ ์คํต ์ฐ๊ฒฐ์ ์ถ๊ฐํ์ฌ, ์ธ๋ถํ ๋คํธ์ํฌ๋ก ๋ค์ด๊ฐ๋ ํฌ์ธํธ ํน์ง ์ ๋ ฅ์ด ๋์ฑ ํ๋ถํด์ง๋๋ก ํ์ต๋๋ค.
3. MLP ๋ฐ ์ถ๋ ฅ
segmentation network ์์๋ MLP (256, 256, 128)์ ์ฌ์ฉํ์ฌ ๊ฐ ํฌ์ธํธ์ ๋ํด segmentation ์ ์๋ฅผ ์์ธกํฉ๋๋ค. ์ต์ข ์ถ๋ ฅ์ n x 50 ํฌ๊ธฐ์ ํํธ ์ ์๋ก, ๊ฐ ํฌ์ธํธ๊ฐ ํน์ ํํธ์ ์ํ ํ๋ฅ ์ ๋ํ๋ ๋๋ค.
4. ํ์ต ์ค์
- ๋๋กญ์์ ์์
- ํ์ต ํ๋ผ๋ฏธํฐ : classification network ์ ๋์ผํ ํ์ต ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, Adam ์ตํฐ๋ง์ด์ ์ ํ์ต๋ฅ ๊ฐ์ ๊ธฐ๋ฒ์ด ์ ์ฉ๋๋ค.
Baseline 3D CNN Segmentation Network
ShapeNet ์ part segmentation ์คํ์์๋ PointNet ์ ์ธ๋ถํ ๋คํธ์ํฌ์ ๊ธฐ์กด์ ์ ํต์ ์ธ๋ถํ๋ฐฉ๋ฒ ๋ ๊ฐ์ง, ๊ทธ๋ฆฌ๊ณ 3D ๋ณผ๋ฅ๋ฉํธ๋ฆญ CNN ๋คํธ์ํฌ๋ฅผ ๋น๊ตํ์ต๋๋ค. ์ฌ๊ธฐ์๋ 3D CNN ์ ํ์ฉํ ๊ธฐ๋ณธ ์ธ๋ถํ ๋คํธ์ํฌ(baseline 3D CNN segmentation network)๋ฅผ ์ค๋ช ํฉ๋๋ค.
1. 3D ๋ณผ๋ฅ๋ฉํธ๋ฆญ CNN ๋คํธ์ํฌ ๊ตฌ์กฐ
3D CNN ๋คํธ์ํฌ๋ VoxNet ์ด๋ 3DShapeNets ์ ๊ฐ์ ์ ์๋ ค์ง 3D CNN ์ํคํ ์ฒ๋ฅผ ํ์ฅํ์ฌ, fully convolutional ๋ฐฉ์์ผ๋ก ์ธ๋ถํ๋ฅผ ์ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
2. ์ ๋ ฅ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ : Volumetric Representation
- Point Cloud ๋ณํ : ์ ๋ ฅ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ 32 x 32 x 32 ํด์๋์ ์ ์ ๊ทธ๋ฆฌ๋(occupancy grid)๋ก ๋ณํํ์ฌ 3D ๊ณต๊ฐ์ voxel ๋ก ๋๋๋๋ค.
- ๊ฐ voxel ์ ํด๋น ์์น์ ์ ์ด ํฌํจ๋๋์ง ์ฌ๋ถ๋ฅผ ๋ํ๋ด๋ฉฐ, ๋คํธ์ํฌ๋ ์ด ๋ณผ๋ฅ๋ฉํธ๋ฆญ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก segmentation์ ์ํํฉ๋๋ค.
3. ๋คํธ์ํฌ ๊ตฌ์ฑ
- 3D Convolution Layer : ์ด๊ธฐ ํน์ง ์ถ์ถ์ ์ํด stride ๊ฐ 1์ธ 32 ์ฑ๋ 3D ์ปจ๋ณผ๋ฃจ์ ์ฐ์ฐ์ ๋ค์ฏ ๋ฒ ๋ฐ๋ณตํฉ๋๋ค. ์ด๋ ๊ฐ voxel ์ receptive field (์์ฉ ์์ญ)๋ 19 ์ ๋๋ค.
- 1 x 1 x 1 3D Convolution Layer : ์ดํ์๋ 1 x 1 x 1 ์ปค๋ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง 3D ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ค์ ์ถ๊ฐํ์ฌ ์ต์ข ์ ์ธ ์ธ๋ถํ ๋ ์ด๋ธ์ ์์ธกํฉ๋๋ค. ์ด ๋ ์ด์ด๋ค์ ๊ฐ voxel ์ ๋ํ ์ธ๋ถํ ์ ์๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ํ์ฑํ ํจ์์ ์ ๊ทํ : ๋ชจ๋ ๋ ์ด์ด์ ReLU ํ์ฑํ ํจ์์ ๋ฐฐ์น ์ ๊ทํ(batch normalization)๋ฅผ ์ ์ฉํ๋ฉฐ, ๋ง์ง๋ง ๋ ์ด์ด์๋ ์ ์ฉํ์ง ์๋๋ค.
4. ํ์ต ๋ฐ ๋น๊ต
- ๋ฒ์ฃผ(categories) ๊ธฐ๋ฐ ํ์ต : ๋คํธ์ํฌ๋ ์ฌ๋ฌ ๊ฐ์ฒด ๋ฒ์ฃผ์ ๊ฑธ์ณ ํ์ต๋์ง๋ง, ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๊ณต์ ํ๊ฒ ๋น๊ตํ๊ธฐ ์ํด ํน์ ๊ฐ์ฒด ๋ฒ์ฃผ๋ง์ ๊ณ ๋ คํ์ฌ ํ๊ฐํฉ๋๋ค.
์ฆ, ์ด 3D CNN ๊ธฐ๋ฐ์ ๋ณผ๋ฅ๋ฉํธ๋ฆญ segmentation network๋ voxel์ ํ์ฉํด 3D ๊ณต๊ฐ์ ํํํ๊ณ , 3D ์ปจ๋ณผ๋ฃจ์ ์ ํตํด ๊ฐ voxel ์ ์ธ๋ถํ ๋ ์ด๋ธ์ ์์ธกํฉ๋๋ค. PointNet๊ณผ ๋ฌ๋ฆฌ, ์ ๋ ฅ์ volumetric representation์ผ๋ก ๋ณํํ๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ๊ฐ ํ์ํ์ง๋ง, 3D ๋ฐ์ดํฐ์์ ๋ณด๋ค ์ง๊ด์ ์ธ 3์ฐจ์ ํน์ง์ ์ถ์ถํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
Section D : 3D ๊ฐ์ฒด ํ์ง ํ์ดํ๋ผ์ธ ์ธ๋ถ์ฌํญ
Detection Pipeline ์ ๊ฐ์ฒด ํ์ง ์์คํ ์ ๋จ๊ณ์ ์ธ ์ ์ฐจ๋ฅผ ์๋ฏธํ๋ฉฐ, ํน์ ์ฅ๋ฉด(Scene) ์์ ๊ฐ์ฒด์ ์์น์ ๋ฒ์ฃผ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ค๊ณ๋ ์ผ๋ จ์ ์์ ํ๋ฆ์ ๋๋ค. ๊ฐ ๋จ๊ณ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ๊ณ ๊ฐ์ฒด์ ์์น๋ ์ข ๋ฅ๋ฅผ ์ถ๋ก ํ๊ธฐ ์ํด ๋ค์ํ ๊ธฐ๋ฒ์ ์ ์ฉํ๋ฉฐ, ๋ณดํต ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ฅผ ํฌํจํฉ๋๋ค.
1. ๊ฐ์ฒด ์ ์ ์์ฑ
• Connected Component ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ๋ ์ด๋ธ์ ์ธ์ ํ ์ ๋ค์ ๋ฌถ์ด ๊ฐ์ฒด ์ ์(ํด๋ฌ์คํฐ)์ ๋ง๋ญ๋๋ค.
• ํด๋ฌ์คํฐ๊ฐ 200๊ฐ ์ด์์ ์ ์ ํฌํจํ ๊ฒฝ์ฐ, ์ด๋ฅผ ๊ฐ์ฒด ์ ์์ผ๋ก ๊ฐ์ฃผํ๊ณ ๊ฒฝ๊ณ ์์๋ฅผ ๊ฐ์ฒด๋ก ์ค์ ํฉ๋๋ค.
• ๊ฐ ๊ฐ์ฒด์ ์ ์๋ ํด๋น ๋ฒ์ฃผ์ ์ ์ ํ๊ท ์ผ๋ก ๊ณ์ฐ๋๋ฉฐ, ์์ ์ ์๋ค์ ์ ๊ฑฐํฉ๋๋ค.
2. ๋ฐ์ง ๊ฐ์ฒด ํด๊ฒฐ
• ์์ ๋ฑ ๋ฐ์ง๋ ๊ฐ์ฒด์ ๊ฒฝ์ฐ Connected Component๋ง์ผ๋ก๋ ๊ตฌ๋ถ์ด ์ด๋ ค์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ ์ฌ์ฉํด ํ์งํฉ๋๋ค.
• ์ด์ง ๋ถ๋ฅ ๋คํธ์ํฌ๋ฅผ ํตํด ๊ฐ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ํ์ตํ๊ณ , ๋น์ต๋ ์ต์ (NMS)๋ก ์ค๋ณต๋ ์์๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
• ์ต์ข ํ๊ฐ๋ฅผ ์ํด Connected Component์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
3. ํ๊ฐ
• ๊ฐ ๋ชจ๋ธ์ ๋ค์ฏ ๊ฐ์ ๊ตฌ์ญ์์ ํ๋ จํ๊ณ , ๋๋จธ์ง ํ ๊ตฌ์ญ์์ ํ ์คํธํฉ๋๋ค.
• ๋ชจ๋ ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ์ ์ ๋ฐ๋-์ฌํ์จ(PR) ๊ณก์ ์ ์์ฑํ์ฌ ํ๊ฐํฉ๋๋ค.
4. ํ์ฒ๋ฆฌ
• ๋ถํ์ํ๊ฒ ์์ ์์ญ์ด๋ ๋ถํผ์ ๊ฐ์ฒด๋ ์ ๊ฑฐํฉ๋๋ค.
• ์์, ํ ์ด๋ธ, ์ํ ๋ฑ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๋ค๋ฆฌ๊ฐ ๋ถ๋ฆฌ๋ ๊ฒฝ์ฐ ๋ฐ๋ฅ๊น์ง ํ์ฅํฉ๋๋ค.
Section E : More Applications of PointNet
1. Bounding Box Adjustment
• Small Area Pruning: ์์ ์์ญ์ด๋ ๋ถํผ๋ ํ์ง์์ ์ ์ธํ์ฌ ํจ์จ์ฑ์ ๋์ ๋๋ค.
• Bounding Box ํ์ฅ: ํ ์ด๋ธ, ์์, ์ํ์ ๊ฐ์ด ๋ค๋ฆฌ๊ฐ ๋ถ๋ฆฌ๋ ๊ฐ์ฒด๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๋ฐ๋ฅ๊น์ง ํ์ฅํ์ฌ ๋ ์ ํํ๊ฒ ํฌ์ฐฉํฉ๋๋ค.
2. Shape Retrieval (ํ์ ๊ฒ์)
• PointNet์ ์ ๋ ฅ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ธ๋ก๋ฒ ํ์ ์๊ทธ๋์ฒ๋ฅผ ํ์ตํฉ๋๋ค. ์ด๋ ์๋ก ์ ์ฌํ ํํ๋ฅผ ๊ฐ์ง ๊ฐ์ฒด๋ค์ด ๋น์ทํ ์๊ทธ๋์ฒ๋ฅผ ๊ฐ์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
• ์ด๋ฅผ ํ ์คํธํ๊ธฐ ์ํด, ModelNet ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ์ฟผ๋ฆฌ ํํ์ ๊ธ๋ก๋ฒ ์๊ทธ๋์ฒ๋ฅผ ๊ณ์ฐํ๊ณ , ํ๋ จ ๋ฐ์ดํฐ์ ์์ ์ต๊ทผ์ ์ด์ ๊ฒ์์ ํตํด ์ ์ฌํ ํํ๋ฅผ ๊ฒ์ํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ํ์ ๊ฒ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ตฌํํ ์ ์์ต๋๋ค.
3. Shape Correspondence (ํ์ ๋์)
• PointNet์ด ํ์ตํ ํฌ์ธํธ ํน์ง์ ํ์ ๋์์ ๊ณ์ฐํ๋ ๋ฐ ์ ์ฉํ๊ฒ ์ฐ์ผ ์ ์์ต๋๋ค.
• ๋ ๊ฐ์ ์ ์ฌํ ๊ฐ์ฒด(์: ๋ ๊ฐ์ ์์๋ ํ ์ด๋ธ)์์ ์ค์ํ ํฌ์ธํธ ์งํฉ์ ์ถ์ถํ ํ, ๊ธ๋ก๋ฒ ํน์ง์์ ๋์ผํ ์ฐจ์์ ํ์ฑํํ๋ ์ ๋ค์ ๋งค์นญํ์ฌ ๋ ๊ฐ์ฒด ๊ฐ์ ํ์ ๋์ ๊ด๊ณ๋ฅผ ํ์ ํฉ๋๋ค.
Section F : More Architecture Analysis
1. ๋ณ๋ชฉ ์ฐจ์ ๋ฐ ์ ๋ ฅ ํฌ์ธํธ ์์ ํจ๊ณผ
• ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ๋ ฅ ํฌ์ธํธ ์๊ฐ ์ฆ๊ฐํ ์๋ก ํฅ์๋์ง๋ง, ์ฝ 1,000ํฌ์ธํธ์์ ์ฑ๋ฅ์ด ํฌํ๋ฉ๋๋ค.
• ์ต๋ ๊ณ์ธต ํฌ๊ธฐ(๋ณ๋ชฉ ์ฐจ์)๋ ์ค์ํ ์์๋ก, ์ด๋ฅผ 64์์ 1024๋ก ์ฆ๊ฐ์ํค๋ฉด 2-4%์ ์ฑ๋ฅ ํฅ์์ด ๋ํ๋๋ฉฐ, ๋ค์ํ 3D ํ์์ ๊ตฌ๋ณํ๊ธฐ ์ํด ์ถฉ๋ถํ ํฌ์ธํธ ๊ธฐ๋ฅ์ด ํ์ํ๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
• 64๊ฐ์ ํฌ์ธํธ๋ง ์ ๋ ฅํด๋ PointNet์ ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
2. MNIST ์ซ์ ๋ถ๋ฅ
• 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ํ์ต์ ๋ชฉ์ ์ผ๋ก ํ์ง๋ง, 2D ํฌ์ธํธ ํด๋ผ์ฐ๋(MNIST ํฝ์ ์งํฉ)์๋ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ฑ๋ฅ์ด ๊ด์ฐฎ์ต๋๋ค.
• CNN๋ณด๋ค ์ฑ๋ฅ์ ๋ฎ์ง๋ง, PointNet์ด 2D ์ด๋ฏธ์ง๋ฅผ ํฌ์ธํธ ์ธํธ๋ก ๊ฐ์ฃผํ์ฌ ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
3. ๋ฒ์ ๋ฒกํฐ ์์ธก
• PointNet์ ์ธ๋ถํ ๋ฒ์ ์์๋ ๋ก์ปฌ ๋ฐ ๊ธ๋ก๋ฒ ํน์ง์ ๊ฒฐํฉํ์ฌ ๋ก์ปฌ ํฌ์ธํธ์ ๋งฅ๋ฝ์ ์ ๊ณตํฉ๋๋ค.
• ๋ฒ์ ๋ฒกํฐ ์์ธก์ ํตํด ๋ก์ปฌ ๊ธฐํํ์ ํน์ง์ ํ์ตํ ์ ์์์ ์ ์ฆํ์ผ๋ฉฐ, PointNet์ ์์ธก์ด ๋ณด๋ค ๋ถ๋๋ฝ๊ณ ์ฐ์์ ์ผ๋ก ๋ํ๋ฉ๋๋ค.
• ์ ๊ทธ๋ฆผ 16์ PointNet์ ๋ฒ์ ๋ฒกํฐ ๋ณต์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ผ์ชฝ ์ด์ ํฌ์ธํธ๋ท์ ์์ธก ๊ฒฐ๊ณผ, ์ค๋ฅธ์ชฝ ์ด์ ์ค์ ๋ฉ์ฌ๋ก๋ถํฐ ๊ณ์ฐ๋ ๋ฒ์ ๋ฒกํฐ(ground-truth)์ ๋๋ค.
4. ์ธ๋ถํ ๊ฐ๊ฑด์ฑ
• PointNet์ ๋ฐ์ดํฐ ์์ ๋ฐ ํฌ์ธํธ ๋๋ฝ์ ๋ํด ๊ฐ๊ฑดํฉ๋๋ค. ์ด๋ ์ ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ์ค์ํ ํฌ์ธํธ๋ง์ ํตํด ์ ์ญ ํ์ ํน์ง์ ์ถ์ถํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
• ์ธ๋ถํ ์์ ์์๋ ์ด๋ฌํ ๊ฐ๊ฑด์ฑ์ด ์ ์ง๋๋ฉฐ, ์ ๋ ฅ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ํด ์ผ๊ด๋ ์ธ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
• ์ ๊ทธ๋ฆผ 17์ PointNet์ ์ธ๋ถํ(segmentation) ์ผ๊ด์ฑ์ ๋ณด์ฌ์ค๋๋ค.
• ์ผ์ชฝ: ์ ๋ ฅ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋(3D ์ ๋ค์ ์งํฉ) S .
• ์ค๊ฐ: ์ค์ํ ํฌ์ธํธ๋ค๋ก ๊ตฌ์ฑ๋ Critical Point Sets C_S . PointNet์ด ํน์ ํ์์ ์ธ์ํ๊ธฐ ์ํด ํต์ฌ ํฌ์ธํธ๋ค๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒฐ๊ณผ์ ๋๋ค.
• ์ค๋ฅธ์ชฝ: Upper-bound Shapes N_S ๋ก, ๊ฐ ๊ฐ์ฒด์ ์ธ๋ถํ ๊ฒฐ๊ณผ์ ๋๋ค. ์ ์ฒด ํ์์ ๊ณ ๋ คํ์ฌ ๋ค์ํ ๋ถ๋ถ์ ์์์ผ๋ก ๊ตฌ๋ถํฉ๋๋ค.
5. ์๋ก์ด ํ์ ๋ฒ์ฃผ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ
• PointNet์ ํ๋ จ๋์ง ์์ ์๋ก์ด ํ์(์: ์ผ๊ตด, ์ง, ํ ๋ผ, ์ฃผ์ ์)์๋ ์ผ๋ถ ์ผ๋ฐํ๋ฉ๋๋ค.
• ํฌ์ธํธ๋ท์ด ์ฃผ๋ก ํ๋ฉด ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ธ๊ณต ๊ฐ์ฒด์ ๋ํด ํ์ต๋์์์๋ ๋ถ๊ตฌํ๊ณ , ์๋ก์ด ํ์๋ค์ ๋ํด ์ผ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
• ์ ๊ทธ๋ฆผ 18์ ๋ณด์ด์ง ์์ ๊ฐ์ฒด์ ๋ํ ํฌ์ธํธ๋ท์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๊ฐ ํ์ ๊ตฌ์ฑ:
1. Original Shape (์๋ ๋ชจ์): ๊ฐ ๊ฐ์ฒด์ ์ค์ ํ์์ ๋๋ค.
2. Critical Point Sets (์ค์ํ ํฌ์ธํธ ์งํฉ): PointNet์ด ํ์์ ์ธ์ํ๊ธฐ ์ํด ์ค์ํ ํฌ์ธํธ๋ค๋ก๋ง ๊ตฌ์ฑ๋ ์งํฉ์ ๋๋ค.
3. Upper-bound Shapes (์์ ๊ฒฝ๊ณ ํ์): ํ์ต๋ ๋ชจ๋ธ์ด ์์ฑํ ์ต์ข ์ธ๋ถํ ๊ฒฐ๊ณผ๋ก, ๊ฐ์ฒด์ ์ ์ฒด์ ์ธ ํ์์ ๋ํ๋ด๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ์์์ ๊น์ด(depth) ์ ๋ณด๋ฅผ ํํํฉ๋๋ค.